WO2019078407A1 - Apparatus and method for estimating emotions by using surrounding environment images - Google Patents

Apparatus and method for estimating emotions by using surrounding environment images Download PDF

Info

Publication number
WO2019078407A1
WO2019078407A1 PCT/KR2017/014040 KR2017014040W WO2019078407A1 WO 2019078407 A1 WO2019078407 A1 WO 2019078407A1 KR 2017014040 W KR2017014040 W KR 2017014040W WO 2019078407 A1 WO2019078407 A1 WO 2019078407A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
image
context information
extracting
emotional
Prior art date
Application number
PCT/KR2017/014040
Other languages
French (fr)
Korean (ko)
Inventor
이의철
박민우
황현상
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Publication of WO2019078407A1 publication Critical patent/WO2019078407A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • FIG. 1 is a block diagram illustrating an emotion estimation apparatus according to an embodiment of the present invention
  • FIG. 4 is a diagram illustrating a method of extracting spatial complexity by a sensory inferencing apparatus according to an exemplary embodiment of the present invention.
  • FIG. 10 and FIG. 11 are views for explaining a method of extracting spatial context information using a fully connected support vector regression network according to an embodiment of the present invention.
  • FIG. 10 and FIG. 11 are views for explaining a method of extracting spatial context information using a fully connected support vector regression network according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating an emotion estimation apparatus according to an embodiment of the present invention.
  • the emotion estimation apparatus 100 includes a user interface input unit 110, a user interface output unit 120, a controller 130, a storage unit 140, (150).
  • the emotion speculation unit 150 includes a peripheral environment image input unit 151, an emotion element extraction unit 152, a spatial context information extraction unit 153, and an emotion map generation unit 154.
  • the surrounding environment image input unit 151 inputs the surrounding environment image received by the control unit 130.
  • the surrounding environment image may be a still image or a moving image acquired through the RGB camera for a predetermined time.
  • the moving picture includes surrounding sounds generated at the time of acquiring the surrounding environment image.
  • the emotion map generation unit 154 expresses the emotion state inferred by the position coordinates, generates the emotion state map as an n-dimensional emotion inference map, stores the emotion state inferred, and stores the generated emotion inference map in the storage unit 130.
  • the emotion inferencing apparatus 100 acquires a surrounding image from a camera sensor.
  • the surrounding environment image may be a still image or a moving image acquired through the RGB camera for a predetermined time.
  • the moving picture includes surrounding sounds generated at the time of acquiring the surrounding environment image.
  • step S222 the emotion inferencing apparatus 100 generates a boundary component image by applying a mask that detects a boundary component to a single frame of the input peripheral environment image in the horizontal and vertical directions, and calculates a pixel brightness value of the generated boundary component image
  • the threshold value is replaced by 0 or 255
  • the spatial complexity is extracted by dividing the number of pixels corresponding to the pixel brightness value of 255 by the total number of pixels. A method of extracting the spatial complexity will be described in more detail in FIG.
  • step S250 the emotion inference apparatus 100 extracts the extracted emotion element and the spatial context information related to emotion in the subjective sensibility evaluation and / or the bio-signal using a fully connected support vector regression network, extracts the extracted spatial context information, Infer the corresponding emotional state.
  • a method of extracting the spatial context information will be described in more detail in FIGS. 10 and 11. FIG.
  • the emotion inference apparatus 100 generates a boundary component image 430 by applying a mask for detecting a boundary component in the horizontal direction 410 and the vertical direction 420, when the image 400 is input.
  • the spatial complexity can be extracted by replacing the pixel brightness value of the generated boundary component image with 0 or 255 based on the threshold value and dividing the number of pixels corresponding to the pixel brightness value 255 by the total number of pixels.
  • the emotion inferencing apparatus 100 may convert an image into an HSI model to represent a pixel corresponding to a color HUE as a histogram distribution 510.
  • the emotion inference apparatus 100 can detect a pixel in a color range that causes positive and negative emotion in the histogram distribution 510 by using a model 520 that expresses colors in relation to an emotion concept.
  • the emotion estimation apparatus 100 may analyze the sound component in terms of frequency from the sound included in the image.
  • the frequency is a characteristic of how many times the cycle of sound is repeated over a certain period of time and represents the height of the acquired sound.
  • the sensitivity estimation apparatus 100 performs a Discrete Fourier Transform (DFT) to obtain a frequency from the acquired data.
  • the DFT computation is to calculate the frequency-specific content of a waveform with a mixture of frequencies. As a result of the calculation, it is possible to know how certain frequencies (Hz) constitute the sound.
  • the emotion estimation apparatus 100 converts the acquired data for N seconds into a DFT as shown in FIG. 9 (B) as shown in FIG. 9A, and outputs the frequency value (Hz) Can be used as feature values.
  • the DFT operation is defined as Equation 3 below.
  • the emotion inference apparatus 100 can predict the emotional state of the user using the full connection support vector regression network based on the emotion elements extracted from the surrounding environment image.
  • the emotion inferencing apparatus 100 includes the temporal complexity F1, spatial complexity (horizontal edge F2, vertical edge F3), pixel components (color F4, We extract nine features such as saturation (F5), intensity (F6), and saturation (F7)) and sound components (amplitude (F8) and frequency (F9)) as emotional elements and design the extracted emotional elements
  • the full connection support vector regression network is a connection of multiple support vector regressions, which can be used to infer the emotional state by adding a support vector regression number depending on the situation .
  • FIG. 12 is a diagram illustrating an example of generating a sensory state inferred by a sensory inferencing apparatus according to an exemplary embodiment of the present invention as a two-dimensional sensory inference map.

Abstract

The present invention provides an apparatus and a method for estimating emotions, the apparatus and the method analyzing surrounding environment images obtained through a camera capable of capturing images of a frontal environment, so as to quantitatively extract spatial context information that can influence human emotion, thereby estimating an emotional state. The present invention quantitatively extracts the spatial context information that can influence human emotion through the results of an analysis of surrounding environment images, an analysis of subjective emotional reactions of people according to the images, and an analysis of biometric signals, thereby providing the type of emotion of a user actually influenced by different surrounding environment images.

Description

주변 환경 영상을 이용한 감성 추정 장치 및 방법Apparatus and method for estimating emotion using surrounding image
본 발명은 감성 추정 장치 및 방법에 관한 것으로, 더욱 상세하게는 카메라를 통해 얻은 주변 환경 영상을 분석하여 인간의 감성에 영향을 끼칠 수 있는 공간 컨텍스트 정보를 정량적으로 추출하고, 이를 통해 감성 상태를 추정하는 장치 및 방법을 제공하는 것이다.More particularly, the present invention relates to an apparatus and method for estimating emotion, and more particularly, to a method and apparatus for quantitatively extracting spatial context information that may affect human emotion by analyzing images of a surrounding environment obtained through a camera, And to provide a method and an apparatus for performing the method.
최근 일상생활에서 생성된 정보뿐만 아니라 다양한 분야에서 유용한 정보를 추출할 수 있는 라이프로깅 기술이 더욱 발전하고 있다. 라이프로깅이란, “Life”와 “Log”의 조합으로 “생명의 기록”이라는 의미이며, 이 기술은 개인에게 일어나는 모든 사건을 기록하고 저장하며 조직화하는 것을 내포하고 있다. 일반적으로, 사람들은 일상생활에서 주변 환경에 많이 노출되고, 주변의 시각 정보에 따라 인간은 감성에 많은 영향을 받는다. 하지만, 주변 환경의 특정 요소가 인간의 감성에 미치는 영향에 대한 기술 연구는 아직 광범위하게 연구되지 않았다. 기존의 여러 연구에서는 시각적 요소를 사용하여 인간 감성과의 관계를 분석하기 위한 연구가 수행되었다. 더하여, 심리학과 마케팅 분야에서는 색상과 영상의 복잡도 등의 시각정보가 인간의 감성에 큰 영향을 미치는 것으로 알려져 있다. 하지만, 스마트 기기에 장착된 카메라를 통해 얻을 수 있는 주변 환경 및 영상 정보의 특정 요소가 인간의 감성에 끼치는 영향에 대한 기술 관련 연구는 아직 광범위하게 연구되지 않았다. Recently, life logging technology that can extract information useful in various fields as well as information generated in everyday life is further developed. Life logging is a combination of "Life" and "Log", which means "record of life." This technology involves recording, storing, and organizing all the events that occur to an individual. In general, people are exposed to the surrounding environment in everyday life, and human beings are greatly influenced by emotions depending on the surrounding visual information. However, the research on the effect of specific elements of the surrounding environment on human emotion has not been studied extensively yet. A number of studies have been conducted to analyze the relationship with human emotions using visual elements. In addition, in the field of psychology and marketing, visual information such as color and image complexity is known to have a great influence on human emotion. However, the researches on the effect of the surrounding environment and the specific elements of the image information, which can be obtained through the camera mounted on the smart device, on human emotions have not been studied extensively yet.
본 발명의 배경기술은 대한민국 등록특허공보 제 10-1402724 호(2014.05.27등록)에 개시되어 있다.The background art of the present invention is disclosed in Korean Patent Registration No. 10-1402724 (Registered May 31, 2017).
본 발명은 전방 환경을 촬영할 수 있는 카메라를 통해 얻은 주변 환경 영상을 분석하여 인간의 감성에 영향을 끼칠 수 있는 공간 컨텍스트 정보를 정량적으로 추출하고, 이를 통해 감성 상태를 추정하는 감성 추정 장치 및 방법을 제공하는 것이다.The present invention relates to a sensitivity estimation apparatus and method for estimating a sensitivity state by quantitatively extracting spatial context information that may affect a human sensibility by analyzing a surrounding environment image obtained through a camera capable of shooting a forward environment .
본 발명의 일 측면에 따르면, 감성 추정 장치가 제공된다. 본 발명의 일 실시 예에 따른 감성 추정 장치는 소정 시간 동안 카메라 센서로부터 획득한 주변 환경 영상, 사용자 인터페이스 입력부로부터 입력된 주관적 감성 평가 및 생체 인식센서로부터 생성된 생체 신호를 수신하는 제어부 및 상기 주변 환경 영상에서 복수의 감성 요소를 추출하고, 상기 감성 요소, 상기 주관적 감성 평가 및 상기 생체 신호 중 적어도 하나를 이용하여 기 설계한 완전 연결 서포트 벡터 회귀 네트워크(Fully Connected SVR Network) 통해 공간 컨텍스트 정보를 추출하고, 상기 공간컨텍스트 정보에 대응하는 사용자의 감성 상태를 추론하는 감성 추론부를 포함할 수 있다.According to an aspect of the present invention, an emotion estimation apparatus is provided. The emotion estimation apparatus according to an embodiment of the present invention includes a controller for receiving a peripheral environment image acquired from a camera sensor for a predetermined time, a subjective emotion evaluation input from a user interface input unit, and a living body signal generated from the biometric sensor, Extracts a plurality of emotion elements from an image, extracts spatial context information through a fully connected SVR network designed using at least one of the emotion element, the subjective emotion evaluation, and the bio-signal, And a emotion inferring unit for inferring the emotional state of the user corresponding to the spatial context information.
본 발명의 다른 일 측면에 따르면, 감성 추론 방법 및 이를 실행하는 컴퓨터프로그램이 제공된다. 본 발명의 일 실시 예에 따른 감성 추론 방법 및 이를 실행하는 컴퓨터 프로그램은 소정 시간 동안 RGB 카메라를 통해 획득한 정지 영상 또는 동영상 형태의 주변 환경 영상을 획득하는 단계, 획득한 주변 환경 영상의 공간 좌표에서 화소 간의 특징값을 이용하여 시간 복잡도, 공간 복잡도, 화소 성분 및 사운드 성분중 적어도 하나를 포함하는 감성 요소를 추출하는 단계, 기 설계한 완전 연결 서포트 벡터 회귀 네트워크를 이용하여 상기 감성 요소 간에 공간 컨텍스트 정보를 추출하고 상기 공간 컨텍스트 정보에 대응하는 감성 상태를 추론하는 단계 및 추론된 결과를 n차원의 감성 추론맵으로 생성하는 단계를 포함할 수 있다.According to another aspect of the present invention, a method of emotion inference and a computer program for executing the method are provided. The emotion inferencing method and the computer program for executing the emotion inferring method according to an embodiment of the present invention may include acquiring a still image of a still image or a moving image form acquired through an RGB camera for a predetermined time, Extracting an emotional element including at least one of a temporal complexity, a spatial complexity, a pixel component, and a sound component using feature values between pixels, and extracting an emotional element including a spatial context information Extracting the spatial context information, inferring the emotional state corresponding to the spatial context information, and generating the inferred result as the n-dimensional emotional reasoning map.
본 발명은 시공간 인지 정보와 인간의 감성간의 상관관계를 분석함으로써 인간의 감성에 영향을 끼칠 수 있는 공간 컨텍스트 정보를 정량적으로 추출하여 감성을 추정할 수 있다.The present invention can estimate sensibility by quantitatively extracting spatial context information that can affect human emotion by analyzing the correlation between space time perception information and human emotion.
또한, 본 발명은 주변 환경 영상을 분석 및 각 영상에 따른 사람들의 주관적 인 감성 반응 분석, 그리고 생체 신호 분석 결과를 통해 인간의 감정에 영향을 끼칠 수 있는 공간 컨텍스트 정보를 정량적으로 추출함으로써, 서로 다른 주변 환경영상이 실제 사용자에게 어떠한 감정에 영향을 끼칠 수 있는지 제공할 수 있다.In addition, the present invention quantitatively extracts spatial context information that can affect human emotions through analysis of peripheral environment images, subjective sensibility analysis of people according to each image, and bio-signal analysis results, It can be provided that the surrounding environment image may affect the emotion to the actual user.
도 1은 본 발명의 일 실시 예에 따른 감성 추정 장치를 예시한 블록도.1 is a block diagram illustrating an emotion estimation apparatus according to an embodiment of the present invention;
도 2 및 도 3은 본 발명의 일 실시 예에 따른 감성 추정 장치를 이용하여 감성을 추정하는 방법을 예시한 흐름도.FIG. 2 and FIG. 3 are flowcharts illustrating a method of estimating emotion using the emotion estimation apparatus according to an embodiment of the present invention.
도 4는 본 발명의 일 실시 예에 따른 감성 추론 장치가 공간 복잡도를 추출하는 방법을 예시한 도면.4 is a diagram illustrating a method of extracting spatial complexity by a sensory inferencing apparatus according to an exemplary embodiment of the present invention.
도 5 및 도 6은 본 발명의 일 실시 예에 따른 감성 추론 장치가 화소 성분을추출하는 방법을 예시한 도면들.FIGS. 5 and 6 are diagrams illustrating a method of extracting a pixel component from a sensory inferencing apparatus according to an exemplary embodiment of the present invention.
도 7 내지 도 9는 본 발명의 일 실시 예에 따른 감성 추론 장치가 사운드 성분을 추출하는 방법을 예시한 도면들.7 to 9 are views illustrating a method of extracting a sound component from a sensory inferencing apparatus according to an embodiment of the present invention.
도 10 및 도 11은 본 발명의 일 실시 예에 따른 감성 추론 장치가 완전 연결서포트 벡터 회귀 네트워크를 이용하여 공간 컨텍스트 정보를 추출하는 방법을 설명하기 위한 도면들.FIG. 10 and FIG. 11 are views for explaining a method of extracting spatial context information using a fully connected support vector regression network according to an embodiment of the present invention. FIG.
도 12는 본 발명의 일 실시 예에 따른 감성 추론 장치가 추론한 감성 상태를2차원의 감성 추론맵으로 생성한 예를 나타내는 도면.FIG. 12 is a diagram showing an example of generating a sensibility state inferred by the emotion inferencing apparatus according to an embodiment of the present invention as a two-dimensional emotion inference map; FIG.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.While the present invention has been described in connection with certain exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, is intended to cover various modifications and similarities. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.
도 1은 본 발명의 일 실시 예에 따른 감성 추정 장치를 예시한 블록도이다.1 is a block diagram illustrating an emotion estimation apparatus according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 감성 추정 장치(100)는 사용자 인터페이스 입력부(110), 사용자 인터페이스 출력부(120), 제어부(130), 저장부(140) 및 감성추론부(150)를 포함할 수 있다. 1, the emotion estimation apparatus 100 according to an exemplary embodiment of the present invention includes a user interface input unit 110, a user interface output unit 120, a controller 130, a storage unit 140, (150).
사용자 인터페이스 입력부(110)는 공지된 방식을 통해 사용자의 입력을 받는 입력 장치와 연결될 수 있으며, 사용자 인터페이스 출력부(120)는 영상을 출력하는 출력 장치와 연결될 수 있다. The user interface input unit 110 may be connected to an input device that receives a user input through a known method, and the user interface output unit 120 may be connected to an output device that outputs an image.
제어부(130)는 카메라 센서로부터 획득한 주변 환경 영상을 수신한다. 또한, 제어부(130)는 주변 환경 영상을 획득한 시점에서 사용자의 주관적 감성 평가 및 생체 인식 센서로부터 생성된 생체 신호를 수신한다. 여기서 주관적 감성 평가는 사용자가 주변 환경 영상을 획득할 시 느끼는 감정을 사용자 인터페이스 입력부를 통해 입력 받을 수 있다. 또한, 제어부(130)는 후술할 감성 추론부(150)에서 추론된 감성 상태를 사용자 인터페이스 출력부(120)로 송신할 수 있다.The control unit 130 receives the peripheral environment image acquired from the camera sensor. In addition, the control unit 130 receives the subjective sensibility evaluation of the user and the bio-signal generated from the biometric sensor at the time of acquiring the peripheral environment image. Here, the subjective sensibility evaluation can receive the feeling that the user feels when acquiring the surrounding environment image through the user interface input unit. The control unit 130 may transmit the emotion state deduced from the emotion inferring unit 150 to be described later to the user interface output unit 120. [
저장부(140)는 제어부(130)에서 수신한 주변 환경 영상, 주관적 감성 평가 및 생체 신호를 저장한다. 또한, 저장부(140)는 후술할 감성 추론부(150)에서 감성 추론을 위해 기 설계한 완전 연결 서포트 벡터 회귀 네트워크(Fully Connected SVR Network)를 저장한다. The storage unit 140 stores the peripheral environment image, the subjective sensibility evaluation, and the bio-signal received by the control unit 130. Also, the storage unit 140 stores a fully connected SVR network designed for emotion inferencing in the emotion inferring unit 150, which will be described later.
감성 추론부(150)는 완전 연결 서포트 벡터 회귀 네트워크(Fully Connected SVR Network)를 이용하여 제어부(130)에서 수신한 주변 환경 영상, 주관적 감성 평가 및 생체 신호에서 감성과 연관된 공간 컨텍스트 정보를 추출하고, 추출한 공간 컨텍스 정보와 대응하는 감성을 추론한다. 또한, 감성 추론부(150)는 추론한 감성을 n차원의 감성 추론맵을 생성할 수 있으며, 추론된 감성 상태와 생성된 감성 추론맵을 저장부(140)에 저장한다. The emotion speculation unit 150 extracts spatial context information related to emotion from the surrounding environment image, subjective sensibility evaluation, and bio-signal received by the control unit 130 using a fully connected SVR network, And extracts the extracted spatial context information and corresponding emotions. In addition, the emotion inferring unit 150 can generate an n-dimensional emotion inference map of the reasoned emotion, and stores the inferred emotion state and the generated emotion inference map in the storage unit 140. [
감성 추론부(150)는 주변 환경 영상 입력부(151), 감성 요소 추출부(152), 공간 컨텍스트 정보 추출부(153) 및 감성맵 생성부(154)를 포함한다. The emotion speculation unit 150 includes a peripheral environment image input unit 151, an emotion element extraction unit 152, a spatial context information extraction unit 153, and an emotion map generation unit 154.
주변 환경 영상 입력부(151)는 제어부(130)에서 수신한 주변 환경 영상을 입력한다. 여기서 주변 환경 영상은 RGB 카메라를 통해 소정 시간 동안 획득한 정지 영상 또는 동영상일 수 있다. 이때 동영상은 주변 환경 영상을 획득하는 시점에서 발생한 주변 소리를 포함한다.The surrounding environment image input unit 151 inputs the surrounding environment image received by the control unit 130. Here, the surrounding environment image may be a still image or a moving image acquired through the RGB camera for a predetermined time. In this case, the moving picture includes surrounding sounds generated at the time of acquiring the surrounding environment image.
감성 요소 추출부(152)는 입력된 주변 환경 영상의 공간 좌표에서 화소 간의 특징값을 이용하여 시간 복잡도, 공간 복잡도, 화소 성분 및 사운드 성분 중 적어도 하나를 포함하는 감성 요소를 추출한다. The emotion element extracting unit 152 extracts an emotion element including at least one of time complexity, spatial complexity, pixel component, and sound component using the feature value between pixels in the spatial coordinates of the input peripheral environment image.
공간 컨텍스트 정보 추출부(153)는 감성 요소 추출부(152)에서 추출한 감성 요소와 제어부(130)에서 수신한 주관적 감성 평가 및/또는 생체 신호에서 공간 컨텍스트 정보를 기 설계한 완전 연결 서포트 벡터 회귀 네트워크를 이용하여 추출하고, 추출한 공간 컨텍스트 정보에 대응하는 감성 상태를 추론한다. 여기서 공간 컨텍스트 정보란 사용자가 주변 환경 영상을 획득하는 시점에서 발생할 수 있는 상황 정보에 따라 변화하는 감성 정보를 의미한다.The spatial context information extraction unit 153 extracts the spatial context information from the sensory elements extracted from the sensory element extraction unit 152 and the spatial context information from the subjective sensibility evaluation and / And extracts the emotional state corresponding to the extracted spatial context information. Here, the spatial context information means emotional information that changes according to context information that can be generated at a time when a user acquires a peripheral environment image.
감성맵 생성부(154)는 추론한 감성상태를 위치 좌표로 표현하여 n차원의 감성 추론맵으로 생성하고, 추론한 감성상태 및 생성한 감성 추론맵을 저장부(130)에 저장한다.The emotion map generation unit 154 expresses the emotion state inferred by the position coordinates, generates the emotion state map as an n-dimensional emotion inference map, stores the emotion state inferred, and stores the generated emotion inference map in the storage unit 130.
도 2 및 도 3은 본 발명의 일 실시 예에 따른 감성 추정 장치를 이용하여 감성을 추정하는 방법을 예시한 흐름도이다.2 and 3 are flowcharts illustrating a method of estimating emotion using the emotion estimation apparatus according to an embodiment of the present invention.
도 2를 참조하면, 단계 S210에서 감성 추론 장치(100)는 카메라 센서로부터 주변 환경 영상을 획득한다. 여기서 주변 환경 영상은 RGB 카메라를 통해 소정 시간 동안 획득한 정지 영상 또는 동영상일 수 있다. 이때 동영상은 주변 환경 영상을 획득하는 시점에서 발생한 주변 소리를 포함한다.Referring to FIG. 2, in step S210, the emotion inferencing apparatus 100 acquires a surrounding image from a camera sensor. Here, the surrounding environment image may be a still image or a moving image acquired through the RGB camera for a predetermined time. In this case, the moving picture includes surrounding sounds generated at the time of acquiring the surrounding environment image.
단계 S220에서 감성 추론 장치(100)는 획득한 주변 환경 영상의 공간 좌표에서 화소 간의 특징값을 이용하여 시간 복잡도, 공간 복잡도, 화소 성분 및 사운드 성분 중 적어도 하나를 포함하는 감성 요소를 추출한다. In step S220, the emotion inference apparatus 100 extracts an emotion element including at least one of time complexity, spatial complexity, pixel component, and sound component using the feature value between pixels in the spatial coordinates of the obtained peripheral environment image.
도 3을 참조하면, 단계 S221에서 감성 추론 장치(100)는 입력된 주변 환경 영상을 그레이 스케일로 변환하여 현재 프레임과 이전 프레임의 차 영상을 산출하고, 산출한 차 영상에서 임계값 이상인 화소 수를 전체 화소 수로 나누어 시간 복잡도를 추출한다. Referring to FIG. 3, in step S221, the emotion inferencing apparatus 100 converts the inputted peripheral environment image into gray scale, calculates a difference image between the current frame and the previous frame, and calculates the number of pixels equal to or larger than the threshold value in the calculated difference image The time complexity is divided by the total number of pixels.
단계 S222에서 감성 추론 장치(100)는 입력된 주변 환경 영상의 단일 프레임에 경계성분을 검출하는 마스크를 수평 및 수직 방향으로 적용하여 경계 성분 영상을 생성하고, 생성한 경계 성분 영상의 화소 밝기값을 임계값을 기준으로 0 또는 255로 대체하여, 화소 밝기값이 255에 해당하는 화소 수를 전체 화소 수로 나누어 공간 복잡도를 추출한다. 공간 복잡도를 추출하는 방법은 도 4에서 보다 상세하게 설명하도록 한다.In step S222, the emotion inferencing apparatus 100 generates a boundary component image by applying a mask that detects a boundary component to a single frame of the input peripheral environment image in the horizontal and vertical directions, and calculates a pixel brightness value of the generated boundary component image The threshold value is replaced by 0 or 255, and the spatial complexity is extracted by dividing the number of pixels corresponding to the pixel brightness value of 255 by the total number of pixels. A method of extracting the spatial complexity will be described in more detail in FIG.
단계 S223에서 감성 추론 장치(100)는 RGB 컬러 영상 타입의 주변 환경 영상을 HSI 모델로 변환하고, 하기 식 1을 통해 긍정 및 부정 감성 상태를 유발하는 색상 범위의 화소를 검출하여 화소 성분을 추출한다.In step S223, the emotion inferencing apparatus 100 converts the surrounding environment image of the RGB color image type into the HSI model, and extracts pixel components by detecting pixels in a color range causing positive and negative emotion states through the following equation (1) .
Figure PCTKR2017014040-appb-I000001
(1)
Figure PCTKR2017014040-appb-I000001
(One)
상기 식 1에서 hue는 HSI 모델의 색상값, histo는 영상 내에 존재하는 해당 hue값의 개수, W는 영상의 너비, H는 영상의 높이를 나타내며, 상기 영상의 높이와 너비의 곱으로 나누어 -1 내지 1 사이의 값으로 정규화한다. 화소 성분을 추출하는 방법은 도 5 및 도 6에서 보다 상세하게 설명하도록 한다.In Equation (1), hue represents the color value of the HSI model, histo represents the number of corresponding hue values present in the image, W represents the width of the image, and H represents the height of the image, which is divided by the product of the height and width of the image, To < RTI ID = 0.0 > 1. ≪ / RTI > The method of extracting pixel components will be described in more detail with reference to FIGS. 5 and 6. FIG.
단계 S224에서 감성 추론 장치(100)는 주변 환경 영상이 동영상일 경우에 영상을 획득하는 시점에서 발생한 사운드의 진폭(Amplitude) 또는 주파수(Frequency)을 분석하여 사운드 성분를 추출한다. 사운드 성분을 추출하는 방법은 도 7 내지 도 9에서 보다 상세하게 설명하도록 한다.In step S224, the emotion inferencing apparatus 100 extracts a sound component by analyzing the amplitude or frequency of sound generated at the time of acquiring an image when the surrounding environment image is a moving image. A method of extracting a sound component will be described in more detail in FIG. 7 to FIG.
다시 도 2를 참조하면, 단계 S230에서 감성 추론 장치(100)는 사용자가 주변 환경 영상을 획득한 시점에서 느끼는 주관적 감정 평가를 사용자 인터페이스 입력부를 통해 입력 받는다.Referring back to FIG. 2, in step S230, the emotion inferencing apparatus 100 receives a subjective emotion evaluation, which is felt at the time when the user acquires the surrounding environment image, through the user interface input unit.
단계 S240에서 감성 추론 장치(100)는 사용자가 주변 환경 영상을 획득한 시점에서 발생한 생체 신호를 생체 인식 센서로부터 획득한다. In step S240, the emotion inferencing apparatus 100 acquires a bio-signal generated at the time when the user acquires the surrounding environment image from the biometric sensor.
단계 S250에서 감성 추론 장치(100)는 추출한 감성 요소와 주관적 감성 평가 및/또는 생체 신호에서 감성과 연관된 공간 컨텍스트 정보를 기 설계한 완전 연결 서포트 벡터 회귀 네트워크를 이용하여 추출하고, 추출한 공간 컨텍스트 정보와 대응하는 감성 상태를 추론한다. 공간 컨텍스트 정보를 추출하는 방법은 도 10 및 도 11에서 보다 상세하게 설명하도록 한다.In step S250, the emotion inference apparatus 100 extracts the extracted emotion element and the spatial context information related to emotion in the subjective sensibility evaluation and / or the bio-signal using a fully connected support vector regression network, extracts the extracted spatial context information, Infer the corresponding emotional state. A method of extracting the spatial context information will be described in more detail in FIGS. 10 and 11. FIG.
단계 S260에서 감성 추론 장치(100)는 추론한 감성 상태를 위치 좌표로 표현하여 n차원의 감성 추론맵으로 생성하고, 추론한 감성상태 및 생성한 감성 추론맵을 저장부(130)에 저장한다. 감성 추론맵은 도 12에서 보다 상세하게 설명하도록 한다.In step S260, the emotion inferencing apparatus 100 expresses the inferred emotion state as position coordinates to generate an n-dimensional emotion inference map, stores the inferred emotion state, and the generated emotion inference map in the storage unit 130. [ The emotion speculation map will be described in more detail in Fig.
도 4는 본 발명의 일 실시 예에 따른 감성 추론 장치가 공간 복잡도를 추출하는 방법을 예시한 도면이다.4 is a diagram illustrating a method of extracting spatial complexity by the emotion inferencing apparatus according to an embodiment of the present invention.
도 4를 참조하면, 감성 추론 장치(100)는 영상(400)이 입력되면 경계성분을 검출하는 마스크를 수평(410) 및 수직(420) 방향으로 적용하여 경계 성분 영상(430)을 생성한다. 생성한 경계 성분 영상의 화소 밝기값을 임계값을 기준으로 0 또는 255로 대체하여, 화소 밝기값이 255에 해당하는 화소 수를 전체 화소 수로 나누어 공간 복잡도를 추출할 수 있다. Referring to FIG. 4, the emotion inference apparatus 100 generates a boundary component image 430 by applying a mask for detecting a boundary component in the horizontal direction 410 and the vertical direction 420, when the image 400 is input. The spatial complexity can be extracted by replacing the pixel brightness value of the generated boundary component image with 0 or 255 based on the threshold value and dividing the number of pixels corresponding to the pixel brightness value 255 by the total number of pixels.
도 5 및 도 6은 본 발명의 일 실시 예에 따른 감성 추론 장치가 화소 성분을 추출하는 방법을 예시한 도면들이다.5 and 6 are diagrams illustrating a method of extracting pixel components by the emotion inferencing apparatus according to an exemplary embodiment of the present invention.
도 5를 참조하면, 감성 추론 장치(100)는 RGB 컬러 영상(500)이 입력되면, 영상을 HSI 모델로 변환하여 색상(HUE)에 해당하는 화소를 히스토그램 분포(510)로 나타낼 수 있다. 감성 추론 장치(100)는 색상을 감정 개념과의 관계로 나타내는 모델(520)을 이용하여 히스토그램 분포(510)에서 긍정 및 부정 감성을 유발하는 색상 범위의 화소를 검출할 수 있다.Referring to FIG. 5, when the RGB color image 500 is input, the emotion inferencing apparatus 100 may convert an image into an HSI model to represent a pixel corresponding to a color HUE as a histogram distribution 510. The emotion inference apparatus 100 can detect a pixel in a color range that causes positive and negative emotion in the histogram distribution 510 by using a model 520 that expresses colors in relation to an emotion concept.
도 6을 참조하면, 감성 추론 장치(100)는 일반적으로 색상이 사람의 감정적 반응에 대한 가장 영향력 있는 분류 방법인 플루칙의 감정의 수레바퀴(Plutchik`s wheel of Emotion) 이론(600)을 근거로 긍정 및 부정 감성을 유발하는 색상 범위의 화소를 검출할 수 있다. 플루칙의 감정의 수레바퀴 이론(600)에 따르면 사람은 기본적으로 분노(Anger), 공포(Fear), 슬픔(Sadness), 혐오(Disgust), 놀람(Surprise), 기대(Anticipation), 신뢰(Trust), 기쁨(Joy)과 같이 8개의 중요한 기본 감성이 있다고 주장한다. 이러한 기본 감성은 서로 다른 색상 강도로 표현될 수 있을 뿐만 아니라, 다른 감성을 형성하도록 서로 혼합될 수도 있다. 예를 들면, 플루칙의 감정의 수레바퀴 이론(600)에서 주장하는 기본 감성을 러셀(Russel)이 제안한 2차원 모델(610)에 매칭 하였을 때, 붉은색 계열과 푸른색 계열은 불쾌함을, 초록색 계열과 자주색 계열은 쾌함과 연관 있다는 것을 알 수 있다. 본 발명에서는 플루칙의 감정의 수레바퀴 이론(600)에 기반하여 색상과 인간의 감성을 매칭하였으나, 이에 국한하지 않는다. Referring to FIG. 6, the emotional reasoning device 100 is generally based on the Plutchik`s wheel of Emotion theory 600, in which the color is the most influential classification method for a person's emotional response. It is possible to detect pixels in a color range that cause positive and negative sensation. According to Flurich's Theory of Wheels (600), a person is basically anger, fear, sadness, disgust, surprise, anticipation, trust, ), And Joy (Joy). These basic emotions can be expressed not only with different color intensities but also with each other to form different emotions. For example, when we match the basic emotions asserted in Flirich's emotional wheel theory (600) to the two-dimensional model proposed by Russel (610), the red and blue lines indicate unpleasantness, Green and purple lines are associated with pleasure. In the present invention, color and human emotion are matched based on the float wheel theory 600, but not limited thereto.
도 7 내지 도 9는 본 발명의 일 실시 예에 따른 감성 추론 장치가 사운드 성분을 추출하는 방법을 예시한 도면들이다.7 to 9 are views illustrating a method of extracting a sound component by the emotion inferencing apparatus according to an embodiment of the present invention.
도 7을 참조하면, 사운드는 일정한 주기를 갖는 진동이기 때문에 진폭 및 주기를 갖는다. 일반적으로, 진폭이 크고 작음에 따라 소리를 크고 작게 느낄 수 있으며, 주기가 짧을수록 더 고주파(높은음)로 느끼게 된다. 이와 같이, 일상생활에서 들을 수 있는 소리는 이러한 파형들이 모여 더 복잡한 파형을 이룬 소리들의 형태로 나타난다. Referring to Fig. 7, the sound has an amplitude and a period because it is a vibration having a constant period. In general, the larger and smaller the amplitude, the larger and smaller the sound, and the shorter the period, the higher the frequency (higher) feel. Thus, the sounds that can be heard in everyday life come in the form of sounds with more complicated waveforms.
도 8을 참조하면, 감성 추정 장치(100)는 식 2를 이용하여 영상에 포함된 소리를 진폭(Amplitude) 관점에서 사운드 성분을 분석할 수 있다. 진폭은 취득된 소리의 크기를 나타낸다. 일반적으로, 인간의 귀는 작은 소리에 민감하고 큰 소리에 상대적으로 덜 민감한 경향이 있다. 이에 진폭을 잘 표현할 수 있는 로그 스케일의 dB(Decibel) 단위로 전환하는 방법이 있다. 소리의 크기 정보를 사용하기 위해서 취득된 N초간의 데이터의 진폭의 평균을 구하고, 이를 사운드 성분의 특징값으로 사용할 수 있다. 예를 들면, 안드로이드 환경에서의 진폭은 -215~215-1의 범위로 취득된다. Referring to FIG. 8, the emotion estimation apparatus 100 may analyze the sound component in terms of amplitude from the sound included in the image using Equation (2). The amplitude represents the magnitude of the acquired sound. In general, the human ear tends to be sensitive to small sounds and relatively less sensitive to loud sounds. There is a method of switching to the unit of dB (Decibel) of the log scale which can express the amplitude well. It is possible to obtain an average of the amplitudes of the data of N seconds acquired to use the size information of sound and use it as a feature value of the sound component. For example, the amplitude in the Android environment is obtained in the range of -2 15 to 2 15 -1.
Figure PCTKR2017014040-appb-I000002
(2)
Figure PCTKR2017014040-appb-I000002
(2)
도 9를 참조하면, 감성 추정 장치(100)는 영상에 포함된 소리를 주파수(Frequency) 관점에서 사운드 성분을 분석할 수 있다. 주파수는 소리의 주기가 일정 시간 동안 몇 번 반복되는지 나타내는 특징으로, 취득된 소리의 높낮이를 나타낸다. 감성 추정 장치(100)는 취득된 데이터에서 주파수를 얻기 위해 DFT(Discrete Fourier Transform)을 수행한다. DFT 연산은 여러 주파수가 섞여있는 파형에서 주파수별 함량을 계산하는 것으로서, 연산 결과로 어떤 주파수 대역(Hz)들이 어느 정도의 함량으로 소리를 구성하고 있는지 알 수 있다. 이를 이용하여 감성 추정 장치(100)는 도 9의 (A)와 같이 N초간의 취득한 데이터를 도 9의 (B)와 같이 DFT로 변환하고, 그 결과에서 가장 높은 빈도로 나타난 주파수 값(Hz)를 특징 값으로 사용할 수 있다. DFT 연산은 아래 식 3과 같이 정의된다.Referring to FIG. 9, the emotion estimation apparatus 100 may analyze the sound component in terms of frequency from the sound included in the image. The frequency is a characteristic of how many times the cycle of sound is repeated over a certain period of time and represents the height of the acquired sound. The sensitivity estimation apparatus 100 performs a Discrete Fourier Transform (DFT) to obtain a frequency from the acquired data. The DFT computation is to calculate the frequency-specific content of a waveform with a mixture of frequencies. As a result of the calculation, it is possible to know how certain frequencies (Hz) constitute the sound. Using this, the emotion estimation apparatus 100 converts the acquired data for N seconds into a DFT as shown in FIG. 9 (B) as shown in FIG. 9A, and outputs the frequency value (Hz) Can be used as feature values. The DFT operation is defined as Equation 3 below.
Figure PCTKR2017014040-appb-I000003
(3)
Figure PCTKR2017014040-appb-I000003
(3)
도 10 및 도 11은 본 발명의 일 실시 예에 따른 감성 추론 장치가 완전 연결 서포트 벡터 회귀 네트워크를 이용하여 공간 컨텍스트 정보를 추출하는 방법을 설명하기 위한 도면들이다.FIGS. 10 and 11 are diagrams for explaining a method of extracting spatial context information using a fully connected support vector regression network according to an embodiment of the present invention.
감성 추론 장치(100)는 주변 환경 영상에서 추출한 감성 요소를 바탕으로 완전 연결 서포트 벡터 회귀 네트워크를 이용하여 사용자의 감성 상태를 예측할 수 있다. 본 발명의 일 실시 예에 따른 감성 추론 장치(100)는 앞서 상술한 바와 같이 시간 복잡도(F1), 공간 복잡도(수평 엣지(F2), 수직 엣지(F3)), 화소 성분(색상(F4), 채도(F5), 강도(F6), 채도(F7)), 그리고 사운드 성분(진폭(F8), 주파수(F9) 와 같이 총 9가지의 특징을 감성 요소로 추출하고, 추출한 감성 요소를 기 설계한 완전 연결 서포트 벡터 회귀 네트워크의 입력값으로 이용하여 감성 상태를 예측한다. 여기서 완전 연결 서포트 벡터 회귀 네트워크는 복수의 서포트 벡터 회귀를 연결한 것으로 상황에 따라 서포트 벡터 회귀 개수를 추가하여 감성 상태를 추론할 수 있다. The emotion inference apparatus 100 can predict the emotional state of the user using the full connection support vector regression network based on the emotion elements extracted from the surrounding environment image. The emotion inferencing apparatus 100 according to an exemplary embodiment of the present invention includes the temporal complexity F1, spatial complexity (horizontal edge F2, vertical edge F3), pixel components (color F4, We extract nine features such as saturation (F5), intensity (F6), and saturation (F7)) and sound components (amplitude (F8) and frequency (F9)) as emotional elements and design the extracted emotional elements The full connection support vector regression network is a connection of multiple support vector regressions, which can be used to infer the emotional state by adding a support vector regression number depending on the situation .
도 10을 참조하면, 감성 추론 장치(100)는 2개의 서포트 벡터 회귀를 이용하여 감성 상태를 추론할 경우에 첫번째 서포트 벡터 회귀(SVR #F1)는 불쾌(Unpleasant) 및 쾌(Pleasant)의 특징을 나타내는 공간 컨텍스트 정보를 추론하고, 두번째 서포트 벡터 회귀(SVR #F2)는 흥분(Arousal) 및 편안함(Relaxation)의 특징을 나타내는 공간 컨텍스트 정보를 추론하여, 두 개의 추론 결과를 결합함으로써 2차원 상의 감성 상태를 추론할 수 있다. 10, when the emotion state is inferred using two support vector regression, the first support vector regression (SVR # F1) of the emotion inference apparatus 100 is characterized by the features of unpleasant and pleasant The second support vector regression SVR # F2 deduces the spatial context information indicating the feature of the arousal and the relaxation and combines the two inference results to generate the two-dimensional emotion state Can be deduced.
도 11을 참조하면, 감성 추정 장치(100)는 4개의 서포트 벡터 회귀를 이용하여 감성 상태를 추론할 경우에 정지 영상에서 획득할 수 있는 감성 요소 7가지 (상술한 F1 내지 F7)는 첫번째 및 두번째 서포트 벡터 회귀 (SVR #1 및 SVR #2)를 사용하여 감성 상태를 추론하고, 정지 영상이 아닌 동영상에서 획득할 수 있는 사운드 성분(상술한 F8 및 F9)은 세번째 및 네번째 서포트 벡터 회귀(SVR F3 및 SVR F4)를 사용하여 감성 상태를 추론할 수 있다. 이를 통해, 첫번째 및 두번째 서포트 벡터 회귀를 통해서 추론되는 제1 공간 컨텍스트 정보와 세번째 및 네번째 서포트 벡터 회귀를 통해서 추론되는 제2 공간 컨텍스트 정보를 결합하여 2차원 상의 감성 상태를 추론할 수 있다. 이때, 감성 추정 장치(100)는 식 4와 같이 제1 공간 컨텍스트 정보와 제2 공간 컨텍스트 정보에 서로 다른 가중치를 적용하여 감성 상태를 추론 할 수 있다. Referring to FIG. 11, the emotion estimation apparatus 100 has seven emotion elements (F1 to F7 described above) that can be obtained from a still image when the emotion state is inferred using four support vector regression, The sound components (F8 and F9 described above) that deduce the emotion state using the support vector regression (SVR # 1 and SVR # 2) and that can be obtained from the moving image other than the still image are the third and fourth support vector regression (SVR F3 And SVR F4) can be used to infer emotional states. Through this, it is possible to infer the two-dimensional emotion state by combining the first spatial context information deduced through the first and second support vector regression and the second spatial context information deduced through the third and fourth support vector regression. At this time, the emotion estimation apparatus 100 can deduce the emotion state by applying different weights to the first and second spatial context information as shown in Equation (4).
Figure PCTKR2017014040-appb-I000004
(4)
Figure PCTKR2017014040-appb-I000004
(4)
본 발명에서 추론된 결과는 2차원 상에 기반하여 예를 들었지만, 사용하는 서포트 벡터 회귀의 개수에 따라서 n차원적으로 감성 상태를 추론하는 것이 가능하다. Although the result deduced in the present invention is based on a two-dimensional image, it is possible to infer the emotion state n-dimensionally according to the number of the support vector regression to be used.
도 12는 본 발명의 일 실시 예에 따른 감성 추론 장치가 추론한 감성 상태를 2차원의 감성 추론맵으로 생성한 예를 나타내는 도면이다.12 is a diagram illustrating an example of generating a sensory state inferred by a sensory inferencing apparatus according to an exemplary embodiment of the present invention as a two-dimensional sensory inference map.
도 12를 참조하면, 감성 추론 장치(100)는 도 12의 (A)와 같은 주변 환경 영상이 입력되면, 입력된 주변 환경 영상에서 시간 복잡도(Time complexity), 공간 복잡도(수평 엣지(Horizontal Edge), 수직 엣지(Vertical Edge)), 화소 성분(Hue, Saturation, Intensity, Contrast), 및 사운드 성분(Amplitude, Frequency)과 같은 감성 요소와 완전 연결 서포트 벡터 회귀 네트워크를 통해 추론된 공간 컨텍스트 정보를 도 12의 (B)와 같이 감성 상태를 위치 좌표로 표현하는 2차원의 감성 추론맵으로 생성할 수 있다. 여기서, 감성 추론맵의 가로축은 불쾌(Unpleasant) 및 쾌(Pleasant)의 감성을 나타내고 세로축은 흥분(Arousal) 및 편안함(Relaxation)의 감성을 나타낸다. 감성 추론 장치(100)는 생성한 감성 추론맵을 사용자 인터페이스 출력부를 통해 출력할 수 있다.Referring to FIG. 12, when the surrounding environment image shown in FIG. 12 (A) is input, the emotion inferencing apparatus 100 generates time complexity (spatial complexity) (horizontal edge, , A vertical edge (Vertical Edge), a pixel component (Hue, Saturation, Intensity, Contrast), and a sound component (Amplitude, Frequency) and the spatial context information inferred through a fully connected support vector regression network, Dimensional sensory reasoning map expressing the sensibility state as position coordinates as shown in (B) of FIG. Here, the abscissa of the emotion speculation map represents unpleasant and pleasant sensibility, and the ordinate represents emotion of arousal and relaxation. The emotion inferencing apparatus 100 may output the generated emotion inferring map through the user interface output unit.
본 발명의 실시 예에 따른 감성 추론 장치를 통해 감성을 추론하는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method for inferring emotion through the emotion inferencing apparatus according to the embodiment of the present invention can be implemented in the form of a program command that can be executed through various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, and the like, alone or in combination. Program instructions to be recorded on a computer-readable medium may be those specially designed and constructed for the present invention or may be available to those skilled in the computer software arts. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like. The above-mentioned medium may also be a transmission medium such as a light or metal wire, wave guide, etc., including a carrier wave for transmitting a signal designating a program command, a data structure and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.The embodiments of the present invention have been described above. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is defined by the appended claims rather than by the foregoing description, and all differences within the scope of equivalents thereof should be construed as being included in the present invention.

Claims (12)

  1. 감성 추론 장치에 있어서,In the emotion inferencing apparatus,
    소정 시간 동안 카메라 센서로부터 획득한 주변 환경 영상, 사용자 인터페이스 입력부로부터 입력된 주관적 감성 평가 및 생체 인식 센서로부터 생성된 생체 신호를 수신하는 제어부; 및A control unit for receiving a peripheral environment image acquired from the camera sensor for a predetermined time, a subjective sensibility evaluation input from the user interface input unit, and a living body signal generated from the biometric sensor; And
    상기 주변 환경 영상에서 복수의 감성 요소를 추출하고, 상기 감성 요소, 상기 주관적 감성 평가 및 상기 생체 신호 중 적어도 하나를 이용하여 기 설계한 완전 연결 서포트 벡터 회귀 네트워크(Fully Connected SVR Network) 통해 공간 컨텍스트 정보를 추출하고, 상기 공간 컨텍스트 정보에 대응하는 사용자의 감성 상태를 추론하는 감성 추론부;를 포함하는 감성 추론 장치.A plurality of emotional elements are extracted from the peripheral environment image, and a space context information is provided through a fully connected SVR network designed using at least one of the emotion element, the subjective sensibility evaluation, and the bio- And a emotional reasoning unit for extracting the emotional state of the user and inferring the emotional state of the user corresponding to the spatial context information.
  2. 제1항에 있어서, 상기 감성 추론부는The method according to claim 1, wherein the emotion speculation unit
    소정 시간 동안 획득한 RGB 컬러 영상 타입의 주변 환경 영상을 입력하는 주변 환경 영상 입력부;A peripheral environment image input unit for inputting a peripheral environment image of RGB color image type acquired for a predetermined time;
    상기 주변 환경 영상의 공간 좌표에서 화소 간의 특징값을 이용하여 시간 복잡도, 공간 복잡도, 화소 성분 및 사운드 성분 중 적어도 하나를 포함하는 감성 요소를 추출하는 감성 요소 추출부;An emotional element extracting unit for extracting an emotional element including at least one of time complexity, spatial complexity, pixel component, and sound component using feature values between pixels in the spatial coordinates of the peripheral environment image;
    상기 감성 요소, 상기 주관적 감성 평가 및 상기 생체 신호 중 적어도 하나에서 공간 컨텍스트 정보를 추출하는 공간 컨텍스트 정보 추출부; 및A spatial context information extracting unit for extracting spatial context information from at least one of the emotional element, the subjective sensibility evaluation, and the bio-signal; And
    상기 추출한 공간 컨텍스트 정보를 이용하여 n차원의 감성 추론맵을 생성하는 감성맵 생성부;를 포함하는 감성 추론 장치.And an emotion map generation unit that generates an emotion reasoning map of n dimensions using the extracted spatial context information.
  3. 제2항에 있어서, 상기 감성 요소 추출부는3. The apparatus according to claim 2, wherein the emotion element extracting unit
    상기 주변 환경 영상을 그레이 스케일로 변환하여 현재 프레임과 이전 프레임의 차 영상을 산출하고, 상기 차 영상에서 임계값 이상인 화소 수를 전체 화소 수로 나누어 시간 복잡도를 추출하는 감성 추론 장치. And converting the peripheral environment image into gray scale to calculate a difference image between a current frame and a previous frame, and dividing the number of pixels equal to or larger than the threshold value in the difference image by the total number of pixels to extract a time complexity.
  4. 제2항에 있어서, 상기 감성 요소 추출부는3. The apparatus according to claim 2, wherein the emotion element extracting unit
    상기 주변 환경 영상의 단일 프레임에 경계성분을 검출하는 마스크를 수평 및 수직 방향으로 적용하여 경계 성분 영상을 생성하고, 상기 경계 성분 영상의 화소 밝기값을 임계값을 기준으로 0 또는 255로 대체하여, 화소 밝기값이 255에 해당하는 화소 수를 전체 화소 수로 나누어 공간 복잡도를 추출하는 감성 추론 장치. Generating a boundary component image by applying a mask for detecting a boundary component to a single frame of the peripheral environment image in the horizontal and vertical directions and replacing the pixel brightness value of the boundary component image with 0 or 255 based on the threshold value, And the spatial complexity is extracted by dividing the number of pixels corresponding to the pixel brightness value of 255 by the total number of pixels.
  5. 제2항에 있어서, 상기 감성 요소 추출부는3. The apparatus according to claim 2, wherein the emotion element extracting unit
    상기 주변 환경 영상을 HSI 모델로 변환하고, 하기 식 1을 통해 긍정 및 부정 감성을 유발하는 색상 범위의 화소를 검출하여 화소 성분을 추출하되, And extracting a pixel component by detecting a pixel in a color range causing positive and negative sensation through the following Equation 1,
    Figure PCTKR2017014040-appb-I000005
    (1)
    Figure PCTKR2017014040-appb-I000005
    (One)
    상기 식 1에서 hue는 HSI 모델의 색상값, histo는 영상 내에 존재하는 해당 hue값의 개수, W는 영상의 너비, H는 영상의 높이를 나타내며, 상기 영상의 높이와 너비의 곱으로 합을 나누어 -1 내지 1 사이의 값으로 정규화하는 감성 추론 장치.In Equation 1, hue denotes the color value of the HSI model, histo denotes the number of corresponding hue values present in the image, W denotes the width of the image, and H denotes the height of the image. Lt; RTI ID = 0.0 > -1 < / RTI >
  6. 제2항에 있어서, 상기 감성 요소 추출부는3. The apparatus according to claim 2, wherein the emotion element extracting unit
    상기 주변 환경 영상을 획득하는 시점에서 발생한 사운드의 진폭(Amplitude) 또는 주파수(Frequency)을 분석하여 사운드 성분을 추출하는 감성 추론 장치.And a sound component is extracted by analyzing an amplitude or a frequency of sound generated at the time of acquiring the peripheral environment image.
  7. 제2항에 있어서, 상기 공간 컨텍스트 정보 추출부는3. The apparatus of claim 2, wherein the spatial context information extractor
    상기 감성 요소, 상기 주관적 감성 평가 및 상기 생체 정보를 중 적어도 하나를 기 설계한 n개의 완전 연결 서포트 벡터 회귀 네트워크(Fully Connected SVR Network)에 입력하여 출력된 결과값으로부터 공간 컨텍스트 정보를 추출하고, 상기 공간 컨텍스트 정보에 대응하는 감성 상태를 추론하는 감성 추론 장치.Extracting spatial context information from n output values input to n fully connected SVR networks designed as at least one of the emotional element, the subjective sensibility evaluation, and the biometric information, And empirically inferences the emotional state corresponding to the spatial context information.
  8. 제1항에 있어서, 상기 감성맵 생성부는The method according to claim 1, wherein the emotion map generating unit
    상기 공간 컨텍스트 정보에 대응하는 사용자의 감성 상태를 기 설정한 완전 연결 서포트 벡터 회귀 네트워크의 개수의 따라 n차원의 감성 추론맵으로 생성하되, 상기 감성 추론맵은 상기 감성 상태를 위치 좌표로 표현하는 감성 추론 장치.Dimensional emotional reasoning map according to the number of fully connected support vector regression networks having predetermined emotional states of the user corresponding to the spatial context information, Reasoning device.
  9. 감성 추론 장치를 이용하여 감성을 추론하는 감성 추론 방법에 있어서, A method of inferring emotion using an emotion inference apparatus,
    소정 시간 동안 RGB 카메라를 통해 획득한 정지 영상 또는 동영상 형태의 주변 환경 영상을 획득하는 단계;Acquiring a still image or a moving image of a surrounding environment acquired through an RGB camera for a predetermined time;
    획득한 주변 환경 영상의 공간 좌표에서 화소 간의 특징값을 이용하여 시간 복잡도, 공간 복잡도, 화소 성분 및 사운드 성분 중 적어도 하나를 포함하는 감성 요소를 추출하는 단계;Extracting an emotional element including at least one of a time complexity, a spatial complexity, a pixel component, and a sound component using feature values between pixels in spatial coordinates of the obtained peripheral environment image;
    기 설계한 완전 연결 서포트 벡터 회귀 네트워크를 이용하여 상기 감성 요소 간에 공간 컨텍스트 정보를 추출하고 상기 공간 컨텍스트 정보에 대응하는 감성 상태를 추론하는 단계; 및Extracting spatial context information between the emotional elements using a fully connected support vector regression network designed in advance and inferring emotional state corresponding to the spatial context information; And
    추론된 결과를 n차원의 감성 추론맵으로 생성하는 단계;를 포함하는 감성 추론 방법.And generating an inferred result as an n-dimensional emotion inference map.
  10. 제9항에 있어서, 상기 감성 요소를 추출하는 단계에서 10. The method of claim 9, wherein extracting the emotional element
    상기 시간 복잡도는 상기 주변 환경 영상을 그레이 스케일로 변환하여 현재 프레임과 이전 프레임의 차 영상을 산출하고, 산출한 차 영상에서 임계값 이상인 화소 수를 전체 화소 수로 나누어 추출하고,The time complexity is calculated by calculating a difference image between a current frame and a previous frame by converting the surrounding image into a gray scale, extracting the number of pixels in the calculated difference image by a total number of pixels,
    상기 공간 복잡도는 상기 주변 환경 영상의 단일 프레임에 경계성분을 검출하는 마스크를 수평 및 수직 방향으로 적용하여 경계 성분 영상을 생성하고, 생성한 경계 성분 영상의 화소 밝기값을 임계값을 기준으로 0 또는 255로 대체하여, 화소 밝기값이 255에 해당하는 화소 수를 전체 화소 수로 나누어 추출하고,The spatial complexity may be determined by generating a boundary component image by applying a mask for detecting a boundary component to a single frame of the peripheral environment image in the horizontal and vertical directions and setting the pixel brightness value of the generated boundary component image to 0 255, the number of pixels corresponding to the pixel brightness value of 255 is divided by the total number of pixels,
    상기 화소 성분은 상기 주변 환경 영상을 HSI 모델로 변환하고, 하기 식 1을 이용하여 색상 성분 중 긍정 및 부정 감성 상태를 유발하는 색상 범위의 화소를 검출하여 추출하되, 하기 식 1에서 hue는 HSI 모델의 색상값, histo는 영상 내에 존재하는 해당 hue값의 개수, W는 영상의 너비, H는 영상의 높이를 나타내며, 상기 영상의 높이와 너비의 곱으로 합을 나누어 -1 내지 1 사이의 값으로 정규화하고, Wherein the pixel component converts the ambient environment image into an HSI model, and detects and extracts pixels of a color range causing positive and negative emotion states of the color components using the following Equation 1: hue = Histo is the number of corresponding hue values in the image, W is the width of the image, and H is the height of the image. The sum of the height and the width of the image is a value between -1 and 1 Normalize,
    Figure PCTKR2017014040-appb-I000006
    (1)
    Figure PCTKR2017014040-appb-I000006
    (One)
    상기 사운드 성분은 상기 주변 환경 영상을 획득하는 시점에서 발생한 사운드의 진폭(Amplitude) 또는 주파수(Frequency)을 분석하여 추출하는 감성 추론 방법.Wherein the sound component analyzes and extracts an amplitude or a frequency of sound generated at the time of acquiring the peripheral environment image.
  11. 제9항에 있어서, 상기 공간 컨텍스트 정보를 추출하는 단계는10. The method of claim 9, wherein extracting the spatial context information comprises:
    상기 감성 요소를 기 설계한 n개의 완전 연결 서포트 벡터 회귀 네트워크(Fully Connected SVR Network)의 입력값으로 사용하여 공간 컨텍스트 정보를 추출하되, Extracting spatial context information by using the emotion elements as input values of n fully connected SVR networks,
    사용자 인터페이스 입력부로부터 입력된 사용자의 주관적 감성 평가 및 생체 인식 센서로부터 생성된 생체 신호를 수신할 시 상기 감성 요소, 상기 주관적 감성 평가 및 생체 신호를 입력값으로 사용하여 공간 컨텍스트 정보를 추출하는 감성 추론 방법.A sensory reasoning method for extracting spatial context information by using the emotional element, the subjective sensibility evaluation, and the biological signal as input values when receiving the subjective sensibility evaluation of the user inputted from the user interface input unit and the biometric signal generated from the biometric sensor .
  12. 제7항 내지 제11항 중 어느 하나의 감성 추론 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.12. A computer program for executing the emotion inferencing method according to any one of claims 7 to 11 and recorded on a computer-readable recording medium.
PCT/KR2017/014040 2017-10-18 2017-12-01 Apparatus and method for estimating emotions by using surrounding environment images WO2019078407A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0135398 2017-10-18
KR1020170135398A KR102027494B1 (en) 2017-10-18 2017-10-18 Device and method for emotion estimation using surrounding environment image

Publications (1)

Publication Number Publication Date
WO2019078407A1 true WO2019078407A1 (en) 2019-04-25

Family

ID=66173764

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/014040 WO2019078407A1 (en) 2017-10-18 2017-12-01 Apparatus and method for estimating emotions by using surrounding environment images

Country Status (2)

Country Link
KR (1) KR102027494B1 (en)
WO (1) WO2019078407A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110023525A (en) * 2009-08-31 2011-03-08 에스케이텔레콤 주식회사 System, haptic server and method for providing of emotional state of user in video telephony
JP2015219698A (en) * 2014-05-16 2015-12-07 Kddi株式会社 Device, program, and method for estimating emotion on the basis of influence degree of parts
KR20160126750A (en) * 2015-04-24 2016-11-02 한국전자통신연구원 The obstacle detection appratus and method using difference image
KR101738278B1 (en) * 2015-12-31 2017-05-22 성균관대학교산학협력단 Emotion recognition method based on image
KR101744863B1 (en) * 2016-01-18 2017-06-20 주식회사 브이아이텍 Method and system for 2-D Emotion classification by using Image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110023525A (en) * 2009-08-31 2011-03-08 에스케이텔레콤 주식회사 System, haptic server and method for providing of emotional state of user in video telephony
JP2015219698A (en) * 2014-05-16 2015-12-07 Kddi株式会社 Device, program, and method for estimating emotion on the basis of influence degree of parts
KR20160126750A (en) * 2015-04-24 2016-11-02 한국전자통신연구원 The obstacle detection appratus and method using difference image
KR101738278B1 (en) * 2015-12-31 2017-05-22 성균관대학교산학협력단 Emotion recognition method based on image
KR101744863B1 (en) * 2016-01-18 2017-06-20 주식회사 브이아이텍 Method and system for 2-D Emotion classification by using Image

Also Published As

Publication number Publication date
KR20190043391A (en) 2019-04-26
KR102027494B1 (en) 2019-10-01

Similar Documents

Publication Publication Date Title
KR102089014B1 (en) Apparatus for generating image reconstructing brain activity of inspecting object and method thereof
CN113693613A (en) Electroencephalogram signal classification method and device, computer equipment and storage medium
Ozdemir et al. EEG based emotional state estimation using 2-D deep learning technique
Vasudevan et al. Introduction and analysis of an event-based sign language dataset
Ari et al. Wavelet ELM-AE based data augmentation and deep learning for efficient emotion recognition using EEG recordings
Gurumoorthy et al. EEG based emotion recognition using wavelets and neural networks classifier
WO2013077558A1 (en) Robot-based autism diagnosis device using electroencephalogram and method therefor
Conde et al. Weakly-supervised classification and detection of bird sounds in the wild. a birdclef 2021 solution
WO2019132588A1 (en) Image analysis device and method based on image feature and context
CN108509830A (en) A kind of video data handling procedure and equipment
Qayyum et al. Android based emotion detection using convolutions neural networks
WO2019078407A1 (en) Apparatus and method for estimating emotions by using surrounding environment images
WO2022124452A1 (en) Method and device for removing noise by using deep learning algorithm
WO2016186327A1 (en) Semantic analysis system for spatial behavior
WO2023282389A1 (en) Fat mass calculation method using head and neck image and device for same
WO2022010149A1 (en) Method and system for generating data set relating to facial expressions, and non-transitory computer-readable recording medium
Brattain et al. A multimodal sensor system for automated marmoset behavioral analysis
Mishra et al. Does elderly enjoy playing bingo with a robot? a case study with the humanoid robot nadine
KR101989964B1 (en) Method and System for detecting public emotion
KR101911891B1 (en) Reasoning Method and System of Empathic Emotion Based on Video Analysis
KR101807201B1 (en) Reasoning Method and System of Empathic Emotion Based on Video Analysis
WO2024025047A1 (en) Apparatus and method for evaluating design variables of user-customized voice-user interaction system by using biosignals
WO2018164298A1 (en) Emotion information providing device based on spatial and time information
KR20210043862A (en) Apparatus and method for generating feature information and method for transferring biomedical signal comprising the same
TWI789862B (en) Dog Brain Wave Emotion Recognition System

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17928827

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17928827

Country of ref document: EP

Kind code of ref document: A1