WO2019132459A1 - 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치 - Google Patents

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치 Download PDF

Info

Publication number
WO2019132459A1
WO2019132459A1 PCT/KR2018/016537 KR2018016537W WO2019132459A1 WO 2019132459 A1 WO2019132459 A1 WO 2019132459A1 KR 2018016537 W KR2018016537 W KR 2018016537W WO 2019132459 A1 WO2019132459 A1 WO 2019132459A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotional
time series
emotional behavior
neural network
series window
Prior art date
Application number
PCT/KR2018/016537
Other languages
English (en)
French (fr)
Inventor
김은솔
온경운
장하영
Original Assignee
주식회사 써로마인드로보틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 써로마인드로보틱스 filed Critical 주식회사 써로마인드로보틱스
Publication of WO2019132459A1 publication Critical patent/WO2019132459A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies

Definitions

  • the present invention has been made to solve the above problems, and it is an object of the present invention to provide an invention capable of recognizing complicated and various emotional states represented by objects by efficiently extracting emotional behavior by efficiently combining image information and sound information It has its purpose.
  • a multi-modal information collecting apparatus for recognizing user emotional behavior, comprising: an input unit for capturing a behavior of a user and inputting a voice of the user; A storage unit for storing a predetermined plurality of emotional behavior labels and a predetermined plurality of emotional action neural network models; And a controller for generating a time series window based on the photographed image and the voice, and for comparing the emotion model with the emotional action neural network model to extract an emotional behavior label corresponding to the time series window.
  • the time series window is obtained by converting the photographed image and the voice into an image sequence and a spectrogram, respectively, and sampling them by a predetermined time unit.
  • the controller constructs and labels the new emotional behavior information extracted from the time series window as a learning database.
  • the storage stores the labeled new emotional behavior in a new emotional neural network model.
  • a method for combining multi-modal information for user emotional behavior recognition comprising: inputting voice and behavior of an object through a camera and a microphone; Converting the image of the action and the voice into an image sequence and a spectrogram, respectively; Synthesizing the image sequence and the spectrogram into a time series window of a predetermined time unit; Extracting a model corresponding to the time series window among a plurality of predetermined emotional action neural network models; And outputting an emotional behavior label of the extracted model.
  • FIG. 1 is a diagram showing a multimodal information combining apparatus according to the present invention.
  • FIG. 2 shows an embodiment of the multimodal information combining apparatus shown in FIG. 1 in more detail.
  • FIG. 3 shows another embodiment of the multimodal information combining apparatus shown in FIG. 1 in more detail.
  • FIG. 4 is a flowchart illustrating a method of combining multimodal information for user emotional behavior recognition according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a method of combining multi-modal information for user emotional behavior recognition according to another embodiment of the present invention.
  • the user emotion to be extracted from the multimodal information combining apparatus of the present invention is a basic emotion and a composite emotion.
  • basic emotions are happiness, depression, arousal, excitement, guidance, unpleasantness, sharpness, joy, serenity, lethargy, and livelyness.
  • complex emotions are acceptance, tolerance, trust, respect, anxiety, fear, surprise, eerie, panic, fear, confusion, curiosity, boundaries, attention, grief, frustration, disappointment, disgust, disgust, disgust, , Rage, hostility, irritability, joy, calmness, and joy.
  • the present invention relates to a multimodal information combining method and apparatus for extracting a user's emotional behavior based on a photographed image and a sound in a time series window, predicting the emotion information as a corresponding emotion information from a database, and using the same as an emotional support service.
  • FIG. 1 is a diagram showing a multimodal information combining apparatus according to the present invention.
  • the control unit 100 processes the input information of the multimodal information combining apparatus 1.
  • the control unit 100 compares the model with the emotional behavior neural network model of the storage unit 500 and extracts an emotional behavior label corresponding to the time series window.
  • the input unit 200 captures object information or background information of a user (hereinafter referred to as an object) and receives audio.
  • the object information may be information on the motion of the object.
  • the background information is information on the background area where the object is located.
  • the input unit 200 includes a camera 201 and a microphone 202 according to an embodiment.
  • the camera 201 photographs the movement of the user, that is, the object for a predetermined time.
  • the microphone 202 receives a sound generated by a user, for example, a voice, an exclamation point, a sound that the user is rubbing against an object, and the like.
  • the input unit 200 may further include a sensing unit 203 according to another embodiment.
  • the sensing unit 203 may be a touch sensor, a fingerprint sensor, a gravity sensor, a heartbeat sensor, an infrared sensor, or a temperature sensor according to various embodiments.
  • control unit 100 includes a time-series window extracting unit 111 and an emotional behavior label recognizing unit 112.
  • the emotional behavior label recognizing unit 112 compares the sampled time series window with a plurality of emotional behavior neural network models stored in the storage unit 500. If there is a model corresponding to the time series window, the emotional behavior label recognition unit 112 transmits the corresponding emotional behavior label information to the output unit 300 or the network interface 400.
  • the learning process for the new emotional behavior is performed by the controller 100 ' ).
  • the multimodal information combining device 1 first takes an action of an object and inputs a voice.
  • the photographed image and input sound are respectively converted into an image sequence and a spectrogram (S10).
  • program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치가 개시된다. 본 발명의 일 실시예에 따른 멀티 모달 정보 결합 장치는 사용자의 행동을 촬영하고, 상기 사용자의 음성을 입력받는 입력부; 기설정된 복수의 정서적 행동 레이블 및 기설정된 복수의 정서적 행동 신경망 모델을 저장하는 저장부; 및 촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성하고, 상기 정서적 행동 신경망 모델과 비교하여 상기 시계열 윈도우에 상응하는 정서적 행동레이블을 추출하는 제어부;를 포함한다.

Description

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치
본 발명은 멀티 모달 정보를 결합하는 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 사용자의 정서적 행동 인식을 위한 멀티 모달 정보를 결합하는 방법 및 그 장치에 관한 것이다.
멀티모달 인터페이스란 기계가 인간과의 통신을 위해 마이크, 키보드, 영상, 터치, 펜 등을 이용하여 인터페이스하는 것을 말한다.
일반적으로 멀티 모달 정보 결합 방법으로 통해 사람을 카메라로 관찰하여 촬영한 동영상으로부터 사람의 명시적인 행동(예를 들면 자전거 타기, 등산하기, 노래하기, 뛰기 등)은 쉽게 구별할 수 있다. 그러나 종래 인식 기술은 사람의 얼굴 이미지를 이용하거나 목소리 정보를 이용하여, 기쁨, 놀람, 슬픔, 무표정 등 비교적 간단한 감정 정보만을 추출할 수 밖에 없고, 복수 감정들이 조합되는 복합적이고 애매한 인간의 감정까지 인식하기는 한계가 있다.
본 발명은 전술한 바와 같은 문제점을 해결하기 위하여 창출된 것으로서, 영상 정보와 소리 정보를 효율적으로 결합하여 정서적 행동을 정확하게 추출함으로써 객체가 표현하는 복잡하고 다양한 감정상태를 인식할 수 있는 발명을 제공하는데 그 목적이 있다.
그러나, 본 발명의 목적들은 상기에 언급된 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치는 사용자의 행동을 촬영하고, 상기 사용자의 음성을 입력받는 입력부; 기설정된 복수의 정서적 행동 레이블 및 기설정된 복수의 정서적 행동 신경망 모델을 저장하는 저장부; 및 촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성하고, 상기 정서적 행동 신경망 모델과 비교하여 상기 시계열 윈도우에 상응하는 정서적 행동레이블을 추출하는 제어부;를 포함한다.
상기 시계열 윈도우는 촬영된 영상 및 상기 음성을 이미지 시퀀스 및 스펙트로그램(spectrogram)으로 각각 변환하여 기설정된 시간단위로 샘플링한 것이다.
상기 제어부는 상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축하여 레이블링한다.
상기 저장부는 레이블링된 상기 새로운 정서적 행동을 새로운 정서적 행동 신경망 모델로 저장한다.
상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법은 카메라 및 마이크를 통해 객체의 음성 및 행동을 입력받는 단계; 상기 행동을 촬영한 영상 및 상기 음성을 각각 이미지 시퀀스 및 스펙트로그램으로 변환하는 단계; 상기 이미지 시퀀스 및 상기 스펙트로그램을 기설정된 시간단위의 시계열 윈도우로 합성하는 단계; 기설정된 복수의 정서적 행동 신경망 모델 중 상기 시계열 윈도우에 대응하는 모델을 추출하는 단계; 및 상기 추출된 모델의 정서적 행동 레이블을 출력하는 단계를 포함한다.
상기 추출하는 단계는 상기 복수의 정서적 행동 신경망 모델 중에 상기 시계열 윈도우에 대응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 학습 데이터베이스로 구축하는 단계; 상기 학습 데이터베이스를 레이블링하는 단계; 및 상기 레이블링된 학습 데이터베이스를 새로운 정서적 행동 신경망 모델로 저장하는 단계를 포함한다.
전술한 바와 같은 본 발명에 의하면, 소리 정보와 영상 정보를 적합하게 합성하여 정확하게 객체의 감정상태를 인식할 수 있는 효과가 있다.
또한 본 발명에 의하면, 객체의 감정상태에 대한 추가 정보를 지속적으로 학습함으로써, 복잡한 정서적 정보를 효율적으로 인식할 수 있는 효과가 있다.
또한 본 발명에 의하면, 객체의 명시적인 행동 뿐 아니라 말과 언어의 행동에서 드러나는 정서적 정보까지 추출함으로써, 정서 지원 서비스에 효과적으로 사용될 수 있다.
또한 본 발명에 의하면, 객체의 복잡한 정서 상태를 인식하여 교감하는 대화 또는 반응이 가능할 수 있다.
도 1은 본 발명의 멀티 모달 정보 결합 장치를 나타낸 도면이다.
도 2는 도 1에 도시된 멀티 모달 정보 결합 장치의 일 실시예를 보다 구체적으로 나타낸 것이다.
도 3은 도 1에 도시된 멀티 모달 정보 결합 장치의 다른 실시예를 보다 구체적으로 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법을 나타낸 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법을 나타낸 흐름도이다.
이하, 도면을 참조하여 본 발명을 실시하기 위한 구체적인 내용을 실시 예에 기초하여 설명한다. 이들 실시 예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는 적절하게 설명된다면 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있는 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백히 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 발명의 멀티 모달 정보 결합 장치에서 추출하고자 하는 사용자 정서는 기본 정서 및 복합적 정서이다. 기본 정서의 예로서, 행복함, 우울함, 속상함, 흥분됨, 지침, 불쾌함, 날카로움, 즐거움, 평온함, 무기력함, 활기참 등이 있다. 복합적 정서의 예로서, 수용, 관용, 신뢰, 존경, 불안, 두려움, 경악, 섬뜩함, 공황, 공포, 혼란, 호기심, 경계, 관심, 비탄, 서러움, 실의, 수심, 혐오, 역겨움, 반감, 지루함, 격노, 적개심, 짜증, 환희, 평온, 의기양양 등이 있다.
본 발명은 촬영된 영상 및 소리에 기초하여 사용자의 정서적 행동을 시계열 윈도우로 추출하고, 이를 데이터베이스로부터 상응하는 정서 정보로 예측하고 정서 지원 서비스에 활용하는 멀티 모달 정보 결합 방법 및 그 장치에 관한 것이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 멀티 모달 정보 결합 장치를 나타낸 도면이다.
도 1을 참조하면, 멀티 모달 정보 결합 장치(1)는 제어부(100), 입력부(200), 출력부(300), 네트워크 인터페이스(400) 및 저장부(500)를 포함한다.
제어부(100)는 멀티 모달 정보 결합 장치(1)의 입력 정보를 프로세싱한다.
보다 구체적으로 설명하면, 제어부(100)는 입력부(200)로부터 수신된 촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성할 수 있다. 이때 제어부(100)는 상기 시계열 윈도우를 생성하면서 언어적 정보(예를 들면 사용자가 하는 말)와 비언어적 정보(예를 들면 배경음, 소음 등)로 구분하여 영상 또는 음성에 포함된 노이즈를 제거할 수 있다. 그 결과, 영상 정보와 음성 정보를 결합함으로써 영상 정보만으로 또는 음성 정보만으로 구분하기 어려운 노이즈를 제거가능하다.
제어부(100)는 저장부(500)의 정서적 행동 신경망 모델과 비교하고, 상기 시계열 윈도우에 상응하는 정서적 행동 레이블을 추출한다.
시계열 윈도우는 기설정된 시간단위의 에피소딕 메모리(episodic memory)일 수 있다.
입력부(200)는 사용자(이하 객체)의 객체정보 또는 배경정보를 촬영하고 음성을 수신한다. 객체정보는 객체의 움직임에 대한 정보일 수 있다.배경정보는 객체가 위치하는 곳의 배경영역에 대한 정보이다. 입력부(200)는 일 실시예에 따라, 카메라(201) 및 마이크(202)를 포함한다. 카메라(201)는 사용자, 즉 객체의 움직임을 소정의 시간동안 촬영한다. 마이크(202)는 사용자에 의해 발생하는 소리-예를 들면 음성, 감탄사, 사용자가 사물과 마찰하며 내는 소리 등-를 입력받는다.
입력되는 객체정보로부터 추출되는 복합적 정서적 행동의 일 예로 큰소리 지르기, 욕하기, 같이 있는 사람 방해하기, 같이 있는 사람 때리기, 싸우기, 무시하기, 불평하기, 지나치게 논쟁하기, 울화 터뜨리기 등이 있다.
입력부(200)는 다른 실시예에 따라 센싱부(203)를 더 포함할 수 있다. 센싱부(203)는 다양한 실시예에 따라, 터치 센서, 지문 센서, 중력 센서, 심박 센서, 적외선 센서 또는 온도 센서 등일 수 있다.
출력부(300)는 사용자의 입력을 요청하는 메시지나 촬영 또는 판단된 정서적 행동 정보를 영상 및/또는 음향으로 출력한다. 출력부(300)는 디스플레이(301) 및 음향장치(302)를 포함하여, 메시지 또는 정서적 행동 정보를 멀티미디어 형식으로 출력한다.
네트워크 인터페이스(400)는 멀티 모달 정보 결합 장치와 외부 기기를 연결한다. 일 실시예로 멀티 모달 정보 결합 장치는 네트워크 인터페이스(400)를 통해 휴먼 케어 로봇 등과 통신할 수 있다.일 실시예로 네트워크 인터페이스(400)는 인터페이스 범용성을 가진 REST(Representational safe transfer) API에 의한 것일 수 있다. 일 실시예로 네트워크 인터페이스(400)는 인터페이스 범용성을 가진 HTTP(HyperText Transfer Protocol)에 의한 것일 수 있다.
저장부(500)는 복수의 정서적 행동 레이블 및 복수의 정서적 행동 신경망 모델을 저장한다. 각 정서적 행동 신경망 모델은 정서적 행동 레이블과 상관되어 저장될 수 있다. 다양한 실시예에 따라 각 모델은 정서적 행동 레이블과 일대다 매칭일 수도 있고, 다대다 매칭일 수도 있고, 다대일 매칭되어 저장될 수도 있다.
도 2는 도 1에 도시된 멀티 모달 정보 결합 장치의 일 실시예를 보다 구체적으로 나타낸 것이다. 설명의 편의를 위해 도 1과의 차이점을 위주로 설명한다.
도 2를 참조하면, 제어부(100)는 시계열 윈도우 추출부(111) 및 정서적 행동 레이블 인식부(112)를 포함한다.
시계열 윈도우 추출부(111)는 입력부(200)로부터 수신된 동영상 및 소리를 각각 이미지 시퀀스 및 스펙트로그램(spectrogram)으로 변환한다. 프레임 단위의 이미지 시퀀스 및 스펙트로그램은 기설정된 제1 시간단위-예를 들면 1초-로 추출될 수 있다. 시계열 윈도우 추출부(111)는 이미지 시퀀스 및 스펙트로그램을 시계열 윈도우로 합성할 수 있다. 이때 시계열 윈도우는 이미지 시퀀스 및 스펙드로그램을 기설정된 제2 시간단위로 샘플링할 수 있다. 이때 제2 시간단위는 실시예에 따라 제1 시간단위와 같을 수도 있고 더 클 수도 있다.
정서적 행동 레이블 인식부(112)는 샘플링된 시계열 윈도우를 저장부(500)에 저장된 복수의 정서적 행동 신경망 모델과 비교한다. 정서적 행동 레이블 인식부(112)는 상기 시계열 윈도우에 상응하는 모델이 있는 경우, 상기 모델의 해당 정서적 행동 레이블 정보를 출력부(300) 또는 네트워크 인터페이스(400)로 전송한다.
정서적 행동 레이블 인식부(112)는 상기 시계열 윈도우에 상응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축하여 레이블링한다.
저장부(500)는 정서적 행동 신경망 모델 학습부(501), 정서적 행동 레이블링부(502) 및 학습 데이터베이스(DB) 구축부(503)를 포함한다.
정서적 행동 신경망 모델 학습부(501)는 기설정된 복수의 정서적 행동 신경망 모델을 데이터베이스화하여 저장하고, 레이블링된 새로운 정서적 행동 정보를 새로운 모델로 저장한다.
정서적 행동 레이블링부(502)는 상기 각 정서적 행동 신경망 모델과 연관된 기설정된 복수의 정서적 행동 레이블을 데이터베이스화하여 저장하고, 학습 DB 구축부(503)를 통해 입력되는 새로운 정서적 행동 정보를 레이블링하여 저장한다.
학습 DB 구축부(503)는 멀티 모달 정보 결합 장치(1)에 입력된 시계열 윈도우에 상응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축한다.
따라서, 본 발명에 의하면, 소리 정보와 영상 정보를 적합하게 합성하여 정확하게 객체의 감정상태를 인식할 수 있는 효과가 있다.
또한 본 발명에 의하면, 객체의 명시적인 행동 뿐 아니라 말과 언어의 행동에서 드러나는 정서적 정보까지 추출함으로써, 정서 지원 서비스에 효과적으로 사용될 수 있다.
또한 본 발명에 의하면, 객체의 복잡한 정서 상태를 인식하여 교감하는 대화 또는 반응이 가능할 수 있다.
도 3은 도 1에 도시된 멀티 모달 정보 결합 장치의 다른 실시예를 보다 구체적으로 나타낸 것이다.설명의 편의를 위해 도 1 및 도 2와의 차이점을 위주로 설명한다.
도 2와 달리 도 3의 실시예에서는 추출된 시계열 윈도우가 정서적 행동 신경망 모델 데이터베이스(511)에 저장되어 있는 복수의 모델 중 상응하는 모델이 없는 경우, 새로운 정서적 행동에 대한 학습 프로세스를 제어부(100')에서 수행한다.
도 3을 참고하면, 제어부(100')는 도 2와 달리 시계열 윈도우 추출부(121) 및 정서적 행동 레이블 인식부(122)외에 학습 DB 구축부(123)을 더 포함할 수 있다. 저장부(500')는 정서적 행동 레이블부(510) 및 정서적 행동 신경망 모델 데이터베이스(511)를 포함할 수 있다.
즉, 제어부(100')는 새로운 정서적 행동이라고 판단되면, 학습 DB 구축부(123)에서 상기 시계열 윈도우로부터 새로운 정서적 행동 정보를 추출하여 새로운 학습 데이터베이스로 프로세싱한다. 그리고 저장부(500')는 새로운 학습 데이터베이스를 수신하여 정서적 행동 레이블부(510)에서 레이블링하고, 정서적 행동 신경망 모델 DB(511)에 새로운 모델 정보를 추가 저장한다.
본 발명에 의하면, 객체의 감정상태에 대한 추가 정보를 지속적으로 학습함으로써, 복잡한 정서적 정보를 효율적으로 인식할 수 있는 효과가 있다.
도 4는 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법을 나타낸 흐름도이다.
도 4를 참고하면, 멀티 모달 정보 결합 장치(1)는 먼저 객체의 행동을 촬영하고 음성을 입력받는다. 촬영된 영상 및 입력된 소리는 각각 이미지 시퀀스 및 스펙트로그램으로 변환한다(S10).
멀티 모달 정보 결합 장치(1)는 이미지 시퀀스 및 스펙트로그램을 합성하여 기설정된 시간단위의 시계열 윈도우로 추출한다(S11). 이때 시계열 윈도우는 이미지 시퀀스 및 스펙트로그램에서 유의미한 객체의 정서적 행동 정보를 추출한 것이다.
멀티 모달 정보 결합 장치(1)는 기설정된 복수의 정서적 행동 신경망 모델과 시계열 윈도우를 비교한다(S12). 상기 시계열 윈도우에 상응하는 모델이 있는 경우, 해당 모델에 상응하는 정서적 행동 레이블을 비교결과로 출력한다(S13).
따라서, 본 발명에 의하면, 소리 정보와 영상 정보를 적합하게 합성하여 노이즈를 제거함으로써 정확하게 객체의 감정상태를 인식할 수 있는 효과가 있다.
또한 본 발명에 의하면, 객체의 명시적인 행동 뿐 아니라 말과 언어의 행동에서 드러나는 정서적 정보까지 추출함으로써, 정서 지원 서비스에 효과적으로 사용될 수 있다.
또한 본 발명에 의하면, 객체의 복잡한 정서 상태를 인식하여 교감하는 대화 또는 반응이 가능할 수 있다.
도 5는 본 발명의 다른 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법을 나타낸 흐름도이다.
도 5를 참고하면, 멀티 모달 정보 결합 장치(1)는 먼저 객체의 행동을 촬영하고 음성을 입력받는다. 촬영된 영상 및 입력된 소리는 각각 이미지 시퀀스 및 스펙트로그램으로 변환한다(S10).
멀티 모달 정보 결합 장치(1)는 이미지 시퀀스 및 스펙트로그램을 합성하여 기설정된 시간단위의 시계열 윈도우로 추출한다(S21). 이때 시계열 윈도우는 이미지 시퀀스 및 스펙트로그램에서 유의미한 객체의 정서적 행동 정보를 추출한 것이다.
멀티 모달 정보 결합 장치(1)는 기설정된 복수의 정서적 행동 신경망 모델과 시계열 윈도우를 비교하여 상기 시계열 윈도우에 상응하는 모델이 없는 경우, 상기 시계열 윈도우의 새로운 정서적 행동 정보를 학습 데이터베이스로 구축한다(S23).
멀티 모달 정보 결합 장치(1)는 상기 새로운 정서적 행동 정보에 대한 새로운 레이블링을 수행하고(S24), 레이블링된 상기 새로운 정서적 행동 정보를 새로운 정서적 행동 신경망 모델로 저장한다(S25).
본 발명에 의하면, 객체의 감정상태에 대한 추가 정보를 지속적으로 학습함으로써, 복잡한 정서적 정보를 효율적으로 인식할 수 있는 효과가 있다.
한편, 본 발명의 일 실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명은 특정 기능들 및 그의 관계들의 성능을 나타내는 방법 단계들의 목적을 가지고 위에서 설명되었다. 이러한 기능적 구성 요소들 및 방법 단계들의 경계들 및 순서는 설명의 편의를 위해 여기에서 임의로 정의되었다. 상기 특정 기능들 및 관계들이 적절히 수행되는 한 대안적인 경계들 및 순서들이 정의될 수 있다. 임의의 그러한 대안적인 경계들 및 순서들은 그러므로 상기 청구된 발명의 범위 및 사상 내에 있다. 추가로, 이러한 기능적 구성 요소들의 경계들은 설명의 편의를 위해 임의로 정의되었다. 어떠한 중요한 기능들이 적절히 수행되는 한 대안적인 경계들이 정의될 수 있다. 마찬가지로, 흐름도 블록들은 또한 어떠한 중요한 기능성을 나타내기 위해 여기에서 임의로 정의되었을 수 있다. 확장된 사용을 위해, 상기 흐름도 블록 경계들 및 순서는 정의되었을 수 있으며 여전히 어떠한 중요한 기능을 수행한다. 기능적 구성 요소들 및 흐름도 블록들 및 순서들 둘 다의 대안적인 정의들은 그러므로 청구된 본 발명의 범위 및 사상 내에 있다.
본 발명은 또한 하나 이상의 실시 예들의 용어로, 적어도 부분적으로 설명되었을 수 있다. 본 발명의 실시 예는 본 발명, 그 측면, 그 특징, 그 개념, 및/또는 그 예를 나타내기 위해 여기에서 사용된다. 본 발명을 구현하는 장치, 제조의 물건, 머신, 및/또는 프로세스의 물리적인 실시 예는 여기에 설명된 하나 이상의 실시 예들을 참조하여 설명된 하나 이상의 측면들, 특징들, 개념들, 예들 등을 포함할 수 있다. 더구나, 전체 도면에서, 실시 예들은 상기 동일한 또는 상이한 참조 번호들을 사용할 수 있는 상기 동일하게 또는 유사하게 명명된 기능들, 단계들, 모듈들 등을 통합할 수 있으며, 그와 같이, 상기 기능들, 단계들, 모듈들 등은 상기 동일한 또는 유사한 기능들, 단계들, 모듈들 등 또는 다른 것들일 수 있다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (4)

  1. 사용자의 행동을 촬영하고, 상기 사용자의 음성을 입력받는 입력부;
    기설정된 복수의 정서적 행동 레이블 및 기설정된 복수의 정서적 행동 신경망 모델을 저장하는 저장부; 및
    촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성하고, 상기 정서적 행동 신경망 모델과 비교하여 상기 시계열 윈도우에 상응하는 정서적 행동레이블을 추출하는 제어부;를 포함하고,
    상기 시계열 윈도우는
    촬영된 영상 및 상기 음성을 이미지 시퀀스 및 스펙트로그램(spectrogram)으로 각각 변환하여 기설정된 시간단위로 샘플링한 것인,
    사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치.
  2. 제1항에 있어서, 상기 제어부는
    상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축하여 레이블링하고,
    상기 저장부는
    레이블링된 상기 새로운 정서적 행동을 새로운 정서적 행동 신경망 모델로 저장하는 것인,
    사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치.
  3. 카메라 및 마이크를 통해 객체의 음성 및 행동을 입력받는 단계;
    상기 행동을 촬영한 영상 및 상기 음성을 각각 이미지 시퀀스 및 스펙트로그램으로 변환하는 단계;
    상기 이미지 시퀀스 및 상기 스펙트로그램을 기설정된 시간단위의 시계열 윈도우로 합성하는 단계;
    기설정된 복수의 정서적 행동 신경망 모델 중 상기 시계열 윈도우에 대응하는 모델을 추출하는 단계; 및
    상기 추출된 모델의 정서적 행동 레이블을 출력하는 단계를 포함하는,
    사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법.
  4. 제3항에 있어서, 상기 추출하는 단계는
    상기 복수의 정서적 행동 신경망 모델 중에 상기 시계열 윈도우에 대응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 학습 데이터베이스로 구축하는 단계;
    상기 학습 데이터베이스를 레이블링하는 단계; 및
    상기 레이블링된 학습 데이터베이스를 새로운 정서적 행동 신경망 모델로 저장하는 단계를 포함하는 것인, 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법.
PCT/KR2018/016537 2017-12-28 2018-12-21 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치 WO2019132459A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0183200 2017-12-28
KR20170183200 2017-12-28

Publications (1)

Publication Number Publication Date
WO2019132459A1 true WO2019132459A1 (ko) 2019-07-04

Family

ID=67063990

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/016537 WO2019132459A1 (ko) 2017-12-28 2018-12-21 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치

Country Status (1)

Country Link
WO (1) WO2019132459A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781916A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 视频数据的欺诈检测方法、装置、计算机设备和存储介质
CN111164601A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN113723374A (zh) * 2021-11-02 2021-11-30 广州通达汽车电气股份有限公司 一种基于视频识别用户矛盾的警报方法及相关装置
CN117615182A (zh) * 2024-01-23 2024-02-27 江苏欧帝电子科技有限公司 基于参与人数进行直播及互动动态切换方法、系统及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
KR20050058161A (ko) * 2003-12-11 2005-06-16 한국전자통신연구원 신경망에 기반한 음성, 영상, 및 문맥의 통합 음성인식장치 및 방법
KR20100001928A (ko) * 2008-06-27 2010-01-06 중앙대학교 산학협력단 감정인식에 기반한 서비스 장치 및 방법
KR20140033574A (ko) * 2012-09-03 2014-03-19 경희대학교 산학협력단 감정 음성 인식장치 및 방법
KR20170061016A (ko) * 2015-11-25 2017-06-02 삼성전자주식회사 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
KR20050058161A (ko) * 2003-12-11 2005-06-16 한국전자통신연구원 신경망에 기반한 음성, 영상, 및 문맥의 통합 음성인식장치 및 방법
KR20100001928A (ko) * 2008-06-27 2010-01-06 중앙대학교 산학협력단 감정인식에 기반한 서비스 장치 및 방법
KR20140033574A (ko) * 2012-09-03 2014-03-19 경희대학교 산학협력단 감정 음성 인식장치 및 방법
KR20170061016A (ko) * 2015-11-25 2017-06-02 삼성전자주식회사 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781916A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 视频数据的欺诈检测方法、装置、计算机设备和存储介质
CN111164601A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN113723374A (zh) * 2021-11-02 2021-11-30 广州通达汽车电气股份有限公司 一种基于视频识别用户矛盾的警报方法及相关装置
CN113723374B (zh) * 2021-11-02 2022-02-15 广州通达汽车电气股份有限公司 一种基于视频识别用户矛盾的警报方法及相关装置
CN117615182A (zh) * 2024-01-23 2024-02-27 江苏欧帝电子科技有限公司 基于参与人数进行直播及互动动态切换方法、系统及终端
CN117615182B (zh) * 2024-01-23 2024-04-26 江苏欧帝电子科技有限公司 一种直播互动动态切换方法、系统及终端

Similar Documents

Publication Publication Date Title
WO2019132459A1 (ko) 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치
US20190188903A1 (en) Method and apparatus for providing virtual companion to a user
CN108427910B (zh) 深层神经网络ar手语翻译学习方法、客户端及服务器
CN107097234B (zh) 机器人控制系统
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
WO2019072104A1 (zh) 互动方法和设备
JP2010511958A (ja) ジェスチャー/音声統合認識システム及び方法
CN109101663A (zh) 一种基于互联网的机器人对话系统
JP3844874B2 (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
KR102222911B1 (ko) 로봇 상호작용 시스템 및 그를 위한 프로그램
WO2022097927A1 (en) Method of live video event detection based on natural language queries, and an apparatus for the same
WO2018021651A1 (ko) 사용자의 감정 정보를 이용한 오프라인 캐릭터 인형 제어 장치 및 방법
WO2019190076A1 (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
WO2019031621A1 (ko) 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
Berjón et al. Alternative human-machine interface system for powered wheelchairs
Vacher et al. The CIRDO corpus: comprehensive audio/video database of domestic falls of elderly people
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
CN108628454B (zh) 基于虚拟人的视觉交互方法及系统
WO2012057561A2 (ko) 인스턴트 메신저 서비스 제공시스템 및 그 제공방법, 및 통신 단말기 및 그 통신방법
JP7130290B2 (ja) 情報抽出装置
Gandhi et al. Dynamic sign language recognition and emotion detection using MediaPipe and deep learning
WO2022019692A1 (ko) 애니메이션을 저작하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
WO2017026834A1 (ko) 반응형 영상 생성방법 및 생성프로그램
CN114155606A (zh) 基于人体动作分析的语义识别方法及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18897197

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18897197

Country of ref document: EP

Kind code of ref document: A1