WO2020085581A1 - 영상평가시스템 및 영상평가방법 - Google Patents

영상평가시스템 및 영상평가방법 Download PDF

Info

Publication number
WO2020085581A1
WO2020085581A1 PCT/KR2019/000634 KR2019000634W WO2020085581A1 WO 2020085581 A1 WO2020085581 A1 WO 2020085581A1 KR 2019000634 W KR2019000634 W KR 2019000634W WO 2020085581 A1 WO2020085581 A1 WO 2020085581A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
data
captured image
score
section
Prior art date
Application number
PCT/KR2019/000634
Other languages
English (en)
French (fr)
Inventor
김진헌
장선희
Original Assignee
서경대학교 산학협력단
상명대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서경대학교 산학협력단, 상명대학교 산학협력단 filed Critical 서경대학교 산학협력단
Publication of WO2020085581A1 publication Critical patent/WO2020085581A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user

Definitions

  • the present invention relates to an image evaluation system and an image evaluation method, and more particularly, to an image evaluation system and an image evaluation method to objectively provide whether a video producer's intention matches an emotion of a viewer watching the image with a score. .
  • the video trend of the entertainment field including the game field can be said to be a field using VR (Virtual Reality) and AR (Augmented Reality) video. Since such VR and AR production takes a considerable amount of time and expense, it is hoped that the reaction of the video experiencer will appear as the planner intended, but it is difficult to accurately measure the reaction of the subject until the video is released.
  • VR Virtual Reality
  • AR Augmented Reality
  • the video producer wants the viewer to see the produced video and show the intended reaction. For example, in the case of horror movies, the producer thinks that the viewer will be the most surprised at 35 to 1 minute based on the screening time, and also sets the necessary sound and subsequent scenes at that time. As another example, in the case of a TV advertisement video, you may want to show a product image that is sold at the time of the peak that triggers curiosity and then triggers curiosity.
  • Most of the video evaluation methods used in the past have been conducted in a question-and-answer format after the subject has watched the content to the end in the form of a survey. This method has a problem in that the subject may not be able to remember all the moments in reality and the emotion felt by the subject may not be accurately known, so that the subject is displayed as an ambiguous answer rather than an accurate answer.
  • the present invention is to solve the above problems, and an object of the present invention is to present an image evaluation system and method for objectively expressing the emotions of an experienced user reacting while watching an image.
  • the object of the present invention is to quantify the degree to which the response of the subject matches the intention of the producer who provided the captured image data after receiving the captured image data and the emotion data representing the emotions of the subject who watched the captured image data.
  • the first step of receiving the section (between the tools) where the intended emotion appears from the producer and storing it as the data between tools, and using the emotion data input during the tools between the tools between the tools It can be achieved by a video evaluation method characterized in that it comprises a second step of calculating a value for the emotion and calculating a true score and a fourth step of providing a true score.
  • the object of the present invention is to quantify the degree to which the subject's reaction matches the intention of the producer who provided the captured image data after receiving the captured image data and the emotion data representing the emotions of the subject who watched the captured image data.
  • a memory unit for storing inter-tool data and emotion data for a section (between tool groups) in which emotions intended by a producer are displayed in the captured image data and the captured image data, and the intention while playing the captured image data True the score of the intended emotion included in the emotion data input during the inter-tool period by using the section recognition unit that recognizes and notifies the start and end periods between the tool units from the section data and the tool unit notified to the section recognition unit Calculate as score and input during the section excluding intentional sections
  • An emotion matching operation unit including a score calculation unit for calculating a score of the intended emotion included in the emotion data to be a false score, an image reproduction area in which the captured image data is reproduced, and an inter-tool display area for indicating whether or not it is between tools and the above It can also be achieved by an
  • an image produced by a producer can be objectively evaluated.
  • the VR content creator uses the present invention, it is possible to produce high-quality VR content customized for consumers, so it is possible to enter the global new market with low-cost content production and help to generate high profits.
  • 1 is an embodiment of a system for displaying an image and recording emotions felt by a subject while viewing the displayed image.
  • FIG. 2 is a flowchart illustrating a method for evaluating video content according to the present invention.
  • 3 is a graph showing emotional data before and after morphological processing.
  • FIG. 5 is a block diagram of an image evaluation system according to an embodiment of the present invention.
  • FIG. 7 is a graph showing the author's intention for a plurality of emotions in the captured image data having a running time of 103 seconds.
  • FIG. 8 is a bar graph of comparing the true value measured for each emotion of a specific subject belonging to the group and the group value represented by averaging each true score and experiencing the same image in a group of 10 people.
  • to on or to the top means to be located above or below the target portion, and does not necessarily mean to be located on the upper side based on the direction of gravity. Also, when a portion of an area, plate, or the like is said to be "on or above” another portion, this means that another portion is in contact with or spaced "on or above” another portion, as well as another portion in the middle. Also included.
  • one component when one component is referred to as “connected” or “connected” with another component, the one component may be directly connected to the other component, or may be directly connected, but in particular, It should be understood that, as long as there is no objection to the contrary, it may or may be connected via another component in the middle.
  • the present invention relates to a system or method for evaluating measured emotions
  • a technique for measuring emotions is outside the scope of the present invention.
  • Representative measurable emotions include surprise, cozy, attention, cognitive load, good stress, and bad stress.
  • FIG. 1 is an embodiment of a system for displaying an image and recording emotions that the subject sees and feels while viewing the displayed image.
  • the image and sensor data providing apparatus 100 a plurality of images produced by a manufacturer are stored. The stored image is processed in a GPU (Graphic Processing Unit) and then displayed to the user through a head mounted display (HMD).
  • the user's body is equipped with and equipped with a PPG sensor, GSR sensor, EEG sensor and Eye Tracking sensor.
  • the image signal processed by the GPU is displayed on a separate monitor (HMD Mirroring) through a splitter and is simultaneously stored in the image and sensor data providing device 100 as captured image data using an image capture board. .
  • the gaze information data input from the eye tracking sensor is stored in synchronization with the captured image data
  • the sensor signal output from the EEG sensor GSR / PPG sensor is also synchronized with the captured image data and stored in the image and sensor data providing device 100. do.
  • an image displayed on the HMD is captured using an image capture board and stored as captured image data using the captured image.
  • the image and sensor data providing apparatus 100 may be implemented as a generally speaking personal computer having a memory, a GPU, and an image capture board.
  • the EEG sensor is a sensor for measuring brain waves.
  • a product called MUSE provided by Interaxon was used.
  • This is an EEG measuring device that uses 4 channels, AF7, AF8, TP9, TP10, which can be sampled at 256Hz, uses wireless communication using Bluetooth, and is worn in the form of a head.
  • the GSR / PPG sensor is used to measure skin reaction and blood flow by connecting the Grove-GSR Sensor and Laxtha-RP520 to the Engineering board. Both devices can be sampled at frequencies in the desired range from 100 to 1000 Hz. It is measured by wearing it in a form that fits on the finger like a ring.
  • the eye tracking sensor used FOVE0 as a device for acquiring gaze information.
  • FOVEO is a device that Fove has added an eye tracking sensor with eye tracking function inside the HMD. It can sample the gaze information from tracking the gaze at 120Hz and measure it by wearing it in the same way as wearing HMD.
  • the technique of analyzing which emotions are expressed using sensor signals input from various sensors and converting them into emotion data for each emotion is outside the scope of the present invention. That is, the conversion (calculation) of emotion data representing emotions such as surprise, stability, and concentration using sensor data output from a plurality of sensors shown in FIG. 1 is already known in various ways and is outside the scope of the present invention.
  • the object is to objectively display how faithfully the subject expresses the intended emotion at the point in time intended by the image producer.
  • the emotion of 'surprise' can be calculated as surprise data using a sudden increase (or decrease) in the amount of change in the EEG sensor's raw EEG signal, and calculate surprise data from the EEG sensor value. Since the method is already known, it is not the scope of the present invention.
  • emotion data of surprise will be described, but it is needless to say that the same can be applied to other emotions.
  • FIG. 2 is a flowchart illustrating a video content evaluation method according to the present invention.
  • Captured image data and sensor data are provided from the image and sensor data providing apparatus 100 shown in FIG. 1.
  • the sensor data ST13 is converted into emotion data ST11 using a separate algorithm (not the scope of the present invention) and used.
  • As a preliminary task for performing image evaluation after capturing a captured image to a plurality of subjects, the section where the subject felt emotion is identified and stored as subject experience section data (ST31).
  • the parameters of the normalization function are obtained using the captured image data and the subject emotion interval data (ST33).
  • the emotion data provided in step ST11 is normalized using a normalization function (ST34), and morphological processing is performed (ST35).
  • the maker's emotion tool data After receiving the information about the section where the emotion is intended to occur from the image producer, it is stored as the maker's emotion tool data (ST360. Using the catcher image data, the emotion tool data and the morphological processing completed emotion data) True Score and False Score are calculated (ST37), and the result is provided as a result image (ST39).
  • emotion analysis can be performed based on a subject's biosignal, but there is a subject with a large change in biosignal when the same emotion occurs in a plurality of subjects and a subject who does not.
  • a and B it is assumed that A is a person having a large change in a biosignal and B is a person who is not. If we were equally surprised in the same section of A and B, A would have a large value and B would have a small value. If you proceed with the analysis with these results, it becomes unfair evaluation, and if you analyze video content based on this, you cannot get reliable results.
  • emotion data is normalized in the present invention.
  • Equation 1 a sigmoid function such as Equation 1 was used.
  • the emotion data normalization function model requires the window size, window travel distance, normalization function (assuming that the normalization function is used as sigmoid), the slope (e), and the intensity (e) of the signal analysis.
  • the range of w) should find 5 optimal parameters.
  • r is emotion data
  • S (r) means an output value of the sigmoid function and is output as a value between 0 and 1.
  • EEG signals used to measure surprise emotions the emotions of one moment are analyzed and the judgment is made based on the transition of the section without using only one signal. For example, assuming that the sampling rate is 500 hz, if you want to see the results in 1 second intervals, you write 500 data in a window and calculate the results. To draw a single result, how many sampled emotion data you want to see refers to the size of the window. In the case of the window movement distance, you can move 0.5 seconds or 0.1 seconds at intervals of 1 second, so the result will change accordingly. Finding the optimal distance by changing little by little for this movement is called Windong distance.
  • the captured image data is watched by a plurality of subjects, and then the sections where each subject feels a surprise while watching are identified and stored as experience section data. And if surprise data is measured in the section where the subject is surprised (this is called the 'experience section'), it is calculated as True Score using this, and the section that does not indicate that the subject is surprised (this is the 'non-experience section') If surprise data is measured in this), False Score is calculated using this.
  • the true score and false score are obtained through the average of the output values of the sigmoid function in the experience section and the average of the non-experience section.
  • the experience section means a section (in frame or time) in which the subject felt a surprise in the captured image data, and the section outside the experience indicated that the subject did not feel a surprise in the captured image data. It means the section.
  • True Score for each subject is calculated using the Brute Force method, which calculates the result of the number of cases in all cases by changing all parameters within a certain range (for example, 0 to 10) and small values (for example, 0.01). Each parameter of the normalized function that appears as the highest value and the False Score is the minimum value is obtained.
  • the Brute Force method takes a lot of time, but it has the advantage of being the most accurate because it counts the number of all cases. All parameters are modified little by little by indiscriminate assignment, and the model is trained with the goal of maximizing the true score and suppressing the false score. It uses normalized functions to select the function parameters so that the results are as close as possible to the emotions actually felt by the user.
  • a sigmoid is used as a normalization function, but it is not limited to this. Any normalization function that outputs emotion data as a value between 0 and 1 can be used. Of course, it is also possible to use the Hyperbolic Tangent function as an example. In addition, of course, the parameters of the normalization function can be obtained through, for example, a machine learning method in addition to the Brute Force method.
  • the normalized emotion data changes from time to time. Based on this, if the producer calculates whether the score matches the intended emotional section, this result can be said to be correct in terms of signal, but a person (such as a video producer) looks at the graph. There are difficulties in understanding. Because, assuming that there is a rapid decrease in the biosignal at a certain moment, it can be seen that the emotion changes in an instant from a signal point of view, but the emotion actually felt by a person may exist in the form of a fortune or a biosignal for a surprise even if the same surprise is felt. Reactions can occur at different time points for each subject. Due to these factors, the present invention performs morphological processing rather than expressing emotions according to the emotion analysis algorithm.
  • the morphological expansion operation which is frequently used in the morphological processing of images, is applied after the time when emotion occurs. This assumes that strong emotions last a little longer, and performs expansion operations proportional to the magnitude of the emotion signal.
  • the biosignals of various people reflect the time when emotions are felt for each individual, the time the induced emotion is maintained, and the change time of the emotion. Due to these various factors, it is not easy to quantify the emotion analyzed using bio signals. The reason is that even if the same emotion is felt, the triggered emotion will be recorded as a high score in the case of a long-lasting subject, and as a person who is not, it will be recorded as a small value. If you visualize and express this as it is, it may be correct from a signal point of view, but for those who want to analyze emotions through the results, there is a possibility that misunderstandings such as the thought that the induced emotions rarely felt by those who did not last long.
  • the expression method performed the morphology expansion operation, which is frequently used in the morphological processing of images, to increase the number of iterations as the intensity was strong.
  • 3 is a graph showing morphological processing, (a) is input normalized processing emotion data, and (b) is a graph showing emotional data that has been completed until morphological processing.
  • Equation 2 The morphological expansion operation equation is as shown in Equation 2. Equation 2 is replaced with the largest value among the surrounding values, and the shape of the graph expands as it is repeatedly calculated. The more intense the emotion, the more repetitive computation is to be performed.
  • the video content producer registers a section (frame unit or time unit) where surprise emotion appears in the video content. For example, the interval between 1:05 time and 1:07 time is set to the section that you want to be very surprised and register the degree of surprise (1:05 ⁇ 1:07, 100% surprise).
  • a matching score is calculated by comparing the emotions experienced by the actual subject while viewing the content.
  • the first score is True Score, which is a score indicating that the emotion is detected within the intention emotion section (hereinafter referred to as 'emotion tool period') set by the content creator. If the true score is high, it means that the subject actually caused the emotion in the section intended by the producer, which means that the content was produced as the creator intended. Conversely, if the number of advantages is low, it can be said that the content was not produced as intended. More specifically, when the emotion data that is normalized and morphological processing is input in the section intended by the image producer, the average value divided by the section is accumulated as True Score.
  • False Score This is a score indicating that a surprise emotion appears in a section other than the intentional emotion section set by the content creator (hereinafter, referred to as an 'outside emotions section'). If the False score is high, it means that a lot of surprise emotion was triggered in the section that the producer did not intend. This may or may not directly affect the content by causing unexpected emotions. More specifically, when normalized and morphological processing emotion data is input in a section not intended by the image producer, the average value is calculated as a false score. Finally, the producers can quantitatively evaluate the content through these two points.
  • FIG. 4 is an explanatory diagram for a specific example of calculating True Score and False Score.
  • the entire video consisted of 60 seconds of running time, and the planner assumed that the intention was to surprise in the Z1 and Z2 sections.
  • the Z1 section is formed in 10 seconds
  • the cumulative value of the surprise data measured during the Z1 section is 3.5
  • the Z2 section is formed in 5 seconds
  • the cumulative value of the surprise data measured during the Z2 section is assumed to be 2.1. It is assumed that the cumulative value of the surprise data measured in the interval is 2.5.
  • the image evaluation system according to the present invention includes a memory unit 10, an emotion matching operation unit 20, a normalization processing unit 21, a morphology processing unit 23, a normalization function parameter calculation unit 25, and an image. It is composed of a generating unit 30 and a display unit 35.
  • the normalization processing unit 21 is a module that normalizes the emotion data of the subject to a value between 0 and 1 by using the normalization function of the emotion data input as described above.
  • the morphology processing unit 23 is a module for processing the emotion data output from the normalization processing unit 21 so that the afterglow (duration time) is reflected according to the intensity.
  • the normalization function parameter calculation unit 25 uses the experience section data in which information about the section is recorded by receiving the captured image data and in which section of the captured image from the plurality of subjects who watched it, as described above. It is a module that calculates the parameters of the normalization function.
  • the normalization processing unit 21, the morphology processing unit 23, and the normalization function parameter calculation unit 25 are generally provided as software modules, but can be implemented by hardware if necessary.
  • the memory unit 10 inputs from the image producer through the camera and image data provided by the image and sensor data providing apparatus 100 and the experience section data and input devices received from a plurality of subjects through an input device not shown in the drawing. Stores data between tools of receiving.
  • the captured image data, inter-tool data, and morphologically processed emotion data are input to the emotion matching operation unit 20.
  • the emotional match calculation unit 20 is composed of a section recognition unit and a score calculation unit.
  • the section recognition unit counts the frame unit or the playback time while playing the input captured image data, and notifies the score calculation unit of the start and end of frames belonging to the inter-tool data or the start and end time of the playback time.
  • the score calculation unit accumulates the emotion data that is input when the video corresponding to the unintended section is played back, and stores it in the False storage unit. do. When the video playback is over, the accumulated score stored in the False storage unit is divided by using the total number of frames constituting the unintentional section or the entire total playback time, and the False score of the subject is calculated.
  • the True score of the subject is calculated.
  • the image generating unit composes the image in the image forming unit using the captured image data, inter-tool data, morphologically processed emotion data, and the false and true scores calculated by the score calculator, and displays it on the display unit 30. .
  • the emotional match operation unit 20 is also used to calculate the parameters of the normalization function.
  • the section recognition unit counts the frame unit or the playback time while playing the input captured image data, and notifies the score calculation unit of the start and end of the frames belonging to the experience section data or the start and end times of the playback time.
  • the score calculation unit accumulates the emotion data that is input when the video corresponding to the non-experience section is played back, and stores it in the False storage section. When the video corresponding to the experience section is played, the input emotion data is accumulated and stored in the True storage section. do. When the video playback ends, dividing the cumulative value stored in the False storage unit using the total number of frames constituting the non-experience section or the related total playback time, the False score of the subject is calculated.
  • the normalized function parameter calculating unit 25 calculates the true score and the false score of the multiple experiencers using the experience section, and the true score is represented by the highest value and the false score is calculated by the normal function parameter.
  • the result of the appraisal of the measurer (subject) and the intentional appraisal of the planner can be easily observed on a device (computer) equipped with a program for explaining the above-described process.
  • a device computer
  • a program for explaining the above-described process.
  • the analyzed results cannot be viewed from the outside.
  • a video that shows the results of the analysis of the emotion of the measurer and the intentional emotion of the planner was produced and provided.
  • 6 is an example of a result image produced by the image generation unit according to the present invention. If the result image shown in FIG. 6 is used, the analyzed result can be checked anytime and anywhere through the extracted image, and the result can be confirmed by a video without a program from outside.
  • the produced video has three characteristics that are different from the normal video.
  • the gaze history is indicated based on the gaze information collected when the subject views the image (the part indicated by the green square in FIG. 6).
  • LED lighting type area marked with (4), inter-tool display area
  • 7 is a producer of surprise, cozy, attention, cognitive load, good stress, and bad stress on the captured image data having a 103 second running time. It is a graph showing the tools between As shown in FIG. 7, it can be seen that the intention section of a producer who expects various intended emotions to appear in one image may be input. 8 is a bar graph in which the same image is experienced in a group of 10 people, and the true value measured for each emotion of a specific subject belonging to the group is compared with a group value represented by averaging each true score. It can be seen that as shown in FIGS. 7 and 8, several emotions appearing while watching a reproduced image can be numerically presented.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상평가시스템 및 영상평가방법에 관한 것이다. 본 발명에서는 영상 제작자로부터 특정 감정을 의도한 구간정보를 입력받고, 해당 영상을 시청하는 피험자로부터 해당 구간동안 입력되는 특정 감정을 수치화하여 제공하는 영상평가시스템 및 평가방법이 개시된다. 본 발명에 의해서 제작자가 제작한 영상을 객관적으로 평가할 수 있게 되었다.

Description

영상평가시스템 및 영상평가방법
본 발명은 영상평가시스템 및 영상평가방법에 관한 것으로서, 보다 구체적으로는 영상 제작자의 의도와 영상의 시청한 피험자의 감정의 일치 여부를 점수로 객관화하여 제공하는 영상평가시스템 및 영상평가방법에 관한 것이다.
최근 게임 분야를 포함한 오락 분야의 영상 추이는 VR(Virtual Reality)과 AR(Augmented Reality) 영상을 이용하는 분야라 할 수 있다. 이러한 VR 및 AR 제작에는 상당한 시간과 경비가 소요되므로 기획자가 의도한 바대로 영상 체험자의 반응이 나타나기를 바라지만 영상을 출시하기 전까지 피험자의 반응을 정확히 측정하기 어려운 실정이다.
영상 제작자는 시청자가 제작된 영상을 보고 의도한 바와 같은 반응을 보여주기를 원한다. 예를 들어 공포 영화의 경우 제작자는 상영시점을 기준으로 35분에서 1분간 시청자가 엄청 가장 놀랄 것이라고 생각하고 그 시기에 필요한 사운드도 설정하고 후속 장면을 설정하게 된다. 또 다른 예로는 TV 광고 영상의 경우 궁금증을 유발하다가 궁금점이 유발되는 최고점의 시기에 판매하는 상품 이미지를 보여주기를 원할 것이다. 종래 사용되던 영상평가방법은 대부분이 설문조사의 형태로 피험자가 해당 콘텐츠를 끝까지 시청한 후 문답형식으로 진행되어 왔다. 이러한 방법은 피험자가 실제로 모든 순간을 기억하지 못할 수 있고 피험자가 느낀 감정을 본인도 정확하게 알 수 없기 때문에 정확한 답변이 아닌 모호한 답변으로 표시되는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하고자 하는 것으로서, 영상을 시청하면서 반응하는 체험자의 감정을 객관적으로 표현하는 영상평가시스템 및 방법을 제시하는 것을 목적으로 한다.
본 발명의 상기 목적은 캡쳐영상데이터 및 상기 캡쳐영상데이터를 시청한 피험자가 느끼는 감정을 나타내는 감정데이터를 입력받은 후 상기 피험자의 반응이 상기 캡쳐영상데이터를 제공한 제작자의 의도와 일치하는 정도를 수치화하여 제공하는 영상평가방법으로서, 제작자로부터 의도한 감정이 나타나는 구간(의도구간)을 입력받은 후 의도구간데이터로 저장하는 제1단계와, 의도구간데이터로부터 의도구간 동안 입력되는 감정데이터를 이용하여 의도된 감정에 대한 값을 산출하여 True 점수로 계산하는 제2단계 및 True 점수를 제공하는 제4단계를 포함하는 것을 특징으로 하는 영상평가방법에 의해 달성 가능하다.
본 발명이 상기 목적은 캡쳐영상데이터 및 상기 캡쳐영상데이터를 시청한 피험자가 느끼는 감정을 나타내는 감정데이터를 입력받은 후 피험자의 반응이 상기 캡쳐영상데이터를 제공한 제작자의 의도와 일치하는 정도를 수치화하여 제공하는 영상 평가 시스템으로서, 캡쳐영상데이터, 캡쳐영상데이터에서 제작자가 의도한 감정이 나타나는 구간(의도구간)에 대한 의도구간데이터 및 감정데이터를 저장하는 메모리부와, 캡쳐영상데이터를 재생하면서 상기 의도구간데이터로부터 상기 의도구간의 시작과 종료 구간을 인식하고 이를 통지하는 구간인식부 및 상기 구간인식부로 통지되는 상기 의도구간을 이용하여 의도구간 동안 입력되는 감정데이터에 포함된 의도된 감정의 점수를 True 점수로 계산하고, 의도구간을 제외한 구간(의도외 구간) 동안 입력되는 감정데이터에 포함된 의도된 감정의 점수를 False 점수로 계산하는 점수계산부를 포함하는 감정일치연산부와, 캡쳐영상데이터가 재생되는 영상재생영역, 의도구간인지 여부를 표시하는 의도구간표시영역 및 상기 재생되는 캡쳐영상데이터의 구간에 해당하는 실시간 의도된 감정을 단계적으로 제공하는 감정레벨표시영역를 포함하는 영상을 생성하는 영상생성부를 포함하는 것을 특징으로 하는 영상평가시스템에 의해서도 달성 가능하다.
본 발명에 따른 영상평가시스템 및 방법을 이용하면 제작자가 제작한 영상을 객관적으로 평가할 수 있다. 특히 VR 콘텐츠 제작자가 본 발명을 이용할 경우 소비자 맞춤형 고품질 VR 콘텐츠 제작이 가능해지므로 저비용 콘텐츠 제작으로 글로벌 신시장에 진출할 수 있으며, 고수익을 창출하는데 도움을 줄 수 있게 되었다.
또한, 영상을 이용하는 다양한 문화 융합 콘텐츠를 제작할 때 본 발명을 이용하면 피험자의 반응을 사전에 정확하게 파악할 수 있기 때문에 저비용으로도 효율적으로 영상 콘텐츠 제작이 가능해지게 되었다.
도 1은 영상을 디스플레이하고, 디스플레이된 영상을 피검자가 보면서 느끼는 감정을 기록하는 시스템의 일 실시예도.
도 2는 본 발명에 따른 영상 콘텐츠 평가 방법을 설명하는 흐름도.
도 3은 형태학적 처리 전후의 감정데이터를 보여주는 그래프.
도 4는 True Score와 False Score를 계산하는 구체적인 일례에 대한 설명도.
도 5는 본 발명에 따른 일 실시예의 영상 평가 시스템 블럭도.
도 6은 본 발명에 따른 영상 생성부에서 제작된 결과 영상의 일예.
도 7은 103초 상영시간을 갖는 캡쳐영상데이터에 복수 개 감정에 대한 제작자의 의도구간을 나타내는 그래프.
도 8은 동일한 영상을 10명으로 구성된 그룹에서 체험시키고, 각각의 True 점수를 평균하여 나타낸 그룹값과 해당 그룹에 속하는 특정 피험자의 각 감정에 대해 측정된 True 점수를 비교하여 나타낸 막대 그래프.
[부호의 설명]
10: 메모리부 20: 감정일치연산부
21: 정규화처리부 23: 형태학처리부
25: 정규화함수파라미터산출부 30: 영상생성부
35: 디스플레이부 100: 영상및센서데이터제공장치
본 발명에서 사용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에서, "~ 상에 또는 ~ 상부에" 라 함은 대상 부분의 위 또는 아래에 위치함을 의미하는 것이며, 반드시 중력 방향을 기준으로 상 측에 위치하는 것을 의미하는 것은 아니다. 또한, 영역, 판 등의 부분이 다른 부분 "상에 또는 상부에" 있다고 할 때, 이는 다른 부분 "바로 상에 또는 상부에" 접촉하여 있거나 간격을 두고 있는 경우뿐 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명은 측정된 감정을 평가하는 시스템 내지는 방법에 관한 것이므로 감정을 측정하는 기술은 본 발명의 범위를 벗어나는 것이다. 측정 가능한 대표적인 감정으로는 놀람(surprise), 안정(cozy), 집중(attention), 인지부하력(cognitive load), 좋은 스트레스(eustress) 및 나쁜 스트레스(distress) 등이 있다.
도 1은 영상을 디스플레이하고, 디스플레이된 영상을 피검자가 보면서 느끼는 감정을 기록하는 시스템의 일 실시예이다. 영상및센서데이터제공장치(100)에는 제작자가 제작한 복수 개 영상이 저장 구비된다. 저장된 영상은 GPU(Graphic Processing Unit)에서 처리된 후 HMD(Head Mounted Display)를 통하여 사용자에게 디스플레이된다. 사용자 신체에는 PPG센서, GSR센서, EEG 센서 및 Eye Tracking 센서가 부착 및 구비된다. GPU에서 처리된 영상 신호는 분배기(spliter)를 통해 별도의 모니터(HMD Mirroring)에 디스플레이됨과 동시에 영상캡쳐보드(capture board)를 이용하여 캡쳐영상데이터로 영상및센서데이터제공장치(100)에 저장된다. 이때, 캡쳐영상데이터와 동기화되어 Eye Tracking 센서로부터 입력되는 시선정보데이터가 저장되며, EEG 센서GSR/PPG센서로부터 출력되는 센서신호도 캡쳐영상데이터와 동기화되면서 영상및센서데이터제공장치(100)에 저장된다. 도 1에 제시된 시스템에서는 영상캡쳐보드를 이용하여 HMD에서 디스플레이되는 이미지를 캡쳐하고 캡쳐된 이미지를 이용하여 캡쳐영상데이터로 저장한다. 영상및센서데이터제공장치(100)는 메모리와 GPU 및 영상캡쳐보드를 갖는 일반적으로 말하는 개인용 컴퓨터로 구현할 수 있다.
EEG센서는 뇌파를 측정하기 위한 센서이다. 본 발명에서는 Interaxon사에서 제공되는 MUSE라는 제품을 사용하였다. 이는 AF7, AF8, TP9, TP10 총 4채널을 사용하는 뇌파 측정 장비이며, 256Hz로 샘플링 가능하고 블루투스를 이용한 무선통신을 사용하며, 머리에 쓰는 형태로 착용하여 측정한다.
GSR/PPG 센서는 피부 반응과 혈류량을 측정하기 위한 장비는 Grove-GSR Sensor와 Laxtha-RP520을 Arduino 보드에 연결하여 사용하였다. 이 두 장비는 100~ 1000Hz 내 원하는 범위의 주파수로 샘플링 가능하다. 반지와 같이 손가락에 끼우는 형태로 착용하여 측정한다.
Eye Tracking 센서는 시선 정보를 취득하기 위한 장비로서 FOVE0를 이용하였다. FOVEO는 Fove사에서 HMD 내부에 시선 추적 기능을 갖는 Eye Tracking 센서를 추가한 장비이다. 이는 시선을 추적하여 나온 시선 정보를 120Hz로 샘플링 할 수 있으며, HMD착용과 동일한 방식으로 착용하여 측정한다.
다양한 센서로부터 입력되는 센서신호를 이용하여 어떠한 감정을 나타내는 것인지 분석하고 각 감정에 대한 감정데이터로 변환하는 기술은 본 발명의 범위를 벗어나는 것이다. 즉, 도 1에 제시된 복수 개 센서로부터 출력되는 센서데이터를 이용하여 놀람, 안정, 집중 등의 감정을 나타내는 감정데이터로 변환(산출)하는 것은 이미 여러가지 방식이 알려져 있으며 본 발명의 범위를 벗어나는 것이다. 본 발명에서는 영상 제작자가 의도한 시점에서 피험자가 의도한 감정을 얼마나 충실하게 표출하는지를 객관적으로 표시하는 것을 대상으로 하는 것이다. 예를 들어, '놀람'이라는 감정은 EEG 센서로부터 출력되는 뇌파신호(raw signal)의 변화량의 급격한 증가(또는 감소)를 이용하여 놀람데이터로 산출할 수 있으며, EEG 센서값으로부터 놀람 데이터를 산출하는 방식은 이미 공지되어 있는 것이므로 본 발명의 대상 범위는 아닌 것이다. 이하에서는 놀람이라는 감정데이터만을 대상으로 설명하겠으나 다른 종류의 감정에도 동일하게 적용할 수 있음은 물론이다.
도 2는 본 발명에 따른 영상 콘텐츠 평가 방법을 설명하는 흐름도이다. 도 1에 제시된 영상및센서데이터제공장치(100)로부터 캡쳐영상데이터와 센서데이터가 제공된다. 센서데이터(ST13)는 별도의 알고리즘(본 발명의 범위가 아님)을 이용하여 감정데이터(ST11)로 변환하여 사용한다. 영상 평가를 수행하기 위한 사전 작업으로 캡쳐영상을 복수 명의 피험자에게 시청하도록 한 후, 해당 피험자가 감정을 느낀 구간을 파악하고 이를 피험자 체험구간데이터로 저장한다(ST31). 캡쳐영상데이터와 피험자감정구간데이터를 이용하여 정규화 함수의 파라미터를 구한다(ST33). ST11단계에서 제공되는 감정데이터를 정규화 함수를 이용하여 정규화하고(ST34), 형태학적 처리를 수행한다(ST35). 영상 제작자로부터 감정이 일어나도록 의도한 구간에 대한 정보를 입력받은 후 이를 제작자 감정의도구간데이터로 저장한다(ST360. 캐쳐영상데이터, 감정의도구간데이터 및 형태학적 처리가 완료된 감정데이터를 이용하여 True Score 및 False Score를 산출(ST37)하고, 이를 결과 영상으로 제공(ST39)한다.
1. 정규화 처리를 위한 함수 파라미터 산출
본원 발명자의 다양한 실험에 의하면 피험자의 생체 신호를 바탕으로 감정 분석을 할 수 있지만, 복수의 피험자에게 같은 감정이 발생하였을 때 생체 신호의 변화가 큰 피험자가 있고 그렇지 않은 피험자가 있다. 예를 들어 A와 B라는 피험자가 있을 때, A는 생체신호의 변화가 큰 사람이고, B는 그렇지 않은 사람이라고 가정한다. A와 B 같은 구간에서 동일하게 놀랐다고 하면, A는 큰 값을 가지게 될것이고 B는 작은 값을 가지게 될 것이다. 이러한 결과로 분석을 진행하면 공정하지 않은 평가가 되며, 이를 바탕으로 영상 콘텐츠를 분석할 경우 신뢰성 있는 결과를 얻을 수 없다. 따라서 생체신호를 바탕으로 나온 감정데이터를 동일한 범위 내로 정규화 하는 과정이 필요하지만, 사람마다 큰 편차를 보이는 생체 신호의 특성상 정규화 함수의 파라미터를 사람이 스스로 정의 내리기 어려운 부분이 있다. 이러한 문제를 해결하기 위하여 본 발명에서는 감정데이터를 정규화 처리하였다.
각 사람별 생체신호를 올바르게 정규화 하기 위한 방안으로 정규화 함수의 최적파라미터를 찾는 작업을 수행한다. 본 발명에서는 수학식 1과 같은 시그모이드 함수를 사용하였다.
Figure PCTKR2019000634-appb-M000001
감정데이터 정규화 함수 모델은 신호를 분석할 때 필요한 윈도우 크기, 윈도우 이동 거리, 정규화 함수(정규화 함수를 시그모이드(Sigmoid)로 사용하였다고 가정)의 중간점(m), 기울기(e), 강도(w)의 범위 총 5개의 최적 파라미터를 찾아내어야 한다. 수학식 1에서 r은 감정데이터이며, S(r)은 시그모이드 함수의 출력값을 의미하는 것으로 0~1 사이의 값으로 출력된다.
놀람 감정을 측정하기 위해 사용하는 뇌파신호의 경우 한 순간의 감정을 분석하는데 1개의 신호만들 사용하지 않고 구간의 추이를 보고 판단을 한다. 예를 들어, 샘플링 속도가 500hz 라고 가정할 때, 1초 간격으로 결과를 보고싶으면 500개의 데이터를 윈도우로 씌운 후 결과를 산출하는 것이다. 한 번의 결과를 뽑는데 몇 개의 샘플링된 감정데이터를 볼 것인지가 윈도우 크기를 의미하며, 윈도우 이동 거리의 경우에는 1초 간격으로 0.5초씩 이동할 수도 있고 0.1초씩 이동할 수도 있으니 그에 따른 결과도 바뀔 것이다. 이러한 이동에 대해 조금씩 변경해가면서 최적의 이동거리를 찾는 것을 윈동우 이동 거리라 한다.
먼저 캡쳐영상데이터를 복수 명의 피험자에 시청하게 한 후, 각 피험자가 시청하면서 놀람이라는 감정을 느낀 구간을 파악한 후 이를 체험구간데이터로 저장한다. 그리고 해당 피험자가 놀람을 느낀 구간(이를 '체험구간'이라 함)에서 놀람데이터가 측정되는 경우 이를 이용하여 True Score로 산출하고, 해당 피험자가 놀람을 느낀다고 표시하지 않은 구간(이를 '체험외 구간'이라 함)에서 놀람데이터가 측정되는 경우 이를 이용하여 False Score를 산출한다.
감정데이터를 시그모이드 함수를 이용하여 0~1로 정규화 시킨 후, 체험구간 내의 시그모이드 함수 출력값의 평균과 체험외 구간의 평균을 통해 True Score와 False Score를 구하게 된다. 전술한 바와 같이 체험구간이라 함은 캡쳐영상데이터에서 피험자가 놀람을 느꼈다고 표시한 구간(프레임 단위 또는 시간으로 표시함)을 의미하며, 체험외 구간은 캡쳐영상데이터에서 피험자가 놀람을 느꼈지 못했다고 표시한 구간을 의미한다.
모든 파라미터를 일정 범위 내(예로서, 0~10) 작은 값(예로서, 0.01)을 조금씩 변형시켜가며 모든 경우의 수에 관한 결과를 계산하는 Brute Force 방법을 사용하여 각 피험자에 대한 True Score는 최고치로 나타나고 False Score는 최소치가 되는 정규화 함수의 각 파라미터를 구한다. Brute Force 방법을 사용하는 데는 많은 시간이 소요되지만 모든 경우의 수를 계산하는 것이기 때문에 가장 정확하다는 장점이 있다. 모든 파라미터는 무차별 대입법으로 조금씩 수정하며 True Score를 최대화하고, False Score를 억제하는 것을 목표로 모델을 학습한다. 이는 정규화 함수를 사용하여 사용자가 실제로 느낀 감정과 최대한 유사한 결과를 내도록 함수 파라미터가 선택된다.
지금까지 설명으로 정규화 함수로 시그모이드를 사용하는 것으로 설명하였으나 반드시 이에 국한되지 않으며, 감정데이터를 0~1 사이의 값으로 출력하는 정규화 함수면 어떤 것이든 사용할 수 있다. 예로서, Hyperbolic Tangent 함수를 사용할 수도 있음은 물론이다. 또한, 정규화 함수의 파라미터는 Brute Force 방식 외에도 예를 들어 머신 러닝 방식 등을 통해서도 구할 수 있음은 물론이다.
2. 감정 시점과 여운에 관한 형태학적 처리
정규화 처리된 감정데이터는 시시각각 변하는데 이를 바탕으로 제작자가 의도한 감정 구간과의 일치 여부를 점수로 산출하게 되면 이 결과는 신호적인 측면에서는 옳다고 할 수 있지만, 사람(영상제작자 등)이 그래프를 보고 이해하는 데는 어려움이 있다. 왜냐하면 특정 순간에 생체 신호의 급격한 감소가 있었다고 가정하면, 신호적인 관점에서는 감정이 순식간에 변하는 것으로 볼 수 있으나 실제로 사람이 느끼는 감정은 여운의 형태로 존재할 수도 있고 같은 놀람을 느꼈더라도 놀람에 대한 생체 신호 반응은 각 피험자마다 다른 시점에서 발생할 수 있다. 이러한 요인들로 인해 감정 분석 알고리즘대로 감정을 표현하는 것보다는 본 발명에서는 형태학적 처리를 수행한다.
감정 시점과 여운에 관해서는 영상의 형태학적 처리에서 많이 사용되는 모폴로지 팽창 연산을 감정이 발생한 시점이후에 적용한다. 이는 강한 감정은 조금 더 오래 지속된다는 가정으로 감정 신호의 크기와 비례하여 팽창 연산을 수행한다.
다양한 사람의 생체신호에는 개인별로 감정을 느끼는 시점, 유발된 감정이 유지되는 시간, 감정의 변화시간 등이 반영되어있다. 이러한 다양한 요인들로 인해 생체신호를 이용하여 분석된 감정을 정량화하기란 쉽지 않다. 그 이유는 동일한 감정을 느끼더라도 유발된 감정이 오래가는 피험자의 경우 높은 점수로 기록될 것이고, 그렇지 않은 사람으니 경우는 작은 값으로 기록될 것이다. 이를 그대로 시각화하여 표현할 경우 신호적인 관점에서 맞을 수 있지만, 결과를 통해 감정을 분석하고자 하는 사람들에게는 유발된 감정이 오래가지 않는 사람이 감정을 거의 느끼지 못했다는 생각 등의 오해를 불러일으킬 소지가 있다. 이 때문에 감정이 짧은 시간 내(1초) 급격하게 바뀌지 않는다는 가정으로 감정이 발생한 시점에서 유발된 감정의 강도가 강할수록 감정이 오래 유지되도록 표현하여 모두가 비슷한 지속시간을 가지도록 하였다. 표현방법은 영상의 형태학적 처리에서 많이 사용되는 모폴로지(Morphology) 팽창 연산을 수행하여, 강도가 강할수록 반복횟수를 증가시켰다. 도 3은 형태학적 처리를 표시한 그래프로서, (a)는 입력된 정규화 처리된 감정데이터이며, (b)는 형태학적 처리까지 완료된 감정데이터를 도시한 그래프이다.
모폴로지 팽창 연산수식은 수학식 2와 같다. 수학식 2는 주위에 있는 값 중 가장 큰 값으로 대체되며 이를 반복 연산할수록 그래프의 모양은 팽창한다. 강한 강도를 가진 감정일수록 많은 반복연산을 수행하도록 한다.
Figure PCTKR2019000634-appb-M000002
3. 영상 제작자의 의도에 따른 매칭 스코어 산출
영상 콘텐츠 제작자는 제작자 의도에 다라 해당 영상 콘텐츠에서 놀람감정이 나타나는 구간(프레임 단위 또는 시간 단위)을 등록한다. 예를 들어, 시간 단위로 1:05시각부터 1:07시각 사이 구간은 매우 놀랐으면 좋겠다는 구간으로 설정하고 놀람의 정도를 등록한다( 1:05 ~ 1:07 , 100% 놀람). 등록을 마치면 실제 피험자가 콘텐츠를 보며 느꼈던 감정과 비교하여 매칭 스코어를 산출한다.
매칭 스코어는 전술한 바와 같이 두 가지가 존재한다. 첫 번째 점수는 True Score로 콘텐츠 제작자가 설정한 의도 감정 구간(이하, '감정의도구간'이라 함) 내에 해당 감정이 검출되는 것을 표시하는 점수이다. True Score가 높다면 제작자가 의도한 구간에서 피험자가 실제 해당 감정이 유발되었음을 의미하며, 이는 제작자가 의도한대로 콘텐츠가 제작되었음을 의미한다. 반대로 이점수가 낮다면 의도대로 콘텐츠가 제작되지 않았음을 의미한다고 볼 수 있다. 보다 구체적으로는 영상 제작자가 의도한 구간에서 정규화되고 형태학적 처리가 완료된 감정데이터가 입력되면 이를 누적한 후 구간으로 나눈 평균값을 True Score로 산출하는 것이다.
또 다른 매칭스코어는 False Score이다. 이는 콘텐츠 제작자가 설정한 의도 감정 구간 외의 구간(이하, '감정외도외 구간'이라 함)에서 놀람감정이 나타나는 것을 나타내는 점수이다. False 점수가 높다면 제작자가 의도하지 않은 구간에서 놀람 감정이 많이 유발되었음을 의미한다. 이는 예상외의 감정 유발로 콘텐츠에 직접적으로 영향을 미칠 수도 있고 그렇지 않을 수도 있다. 보다 구체적으로는 영상 제작자가 의도하지 않은 구간에서 정규화되고 형태학적 처리가 완료된 감정데이터가 입력되면 이를 평균값을 False Score로 산출하는 것이다. 최종적으로 제작자는 이 두 가지 점수를 통해 콘텐츠를 정량적으로 평가할 수 있다.
도 4는 True Score와 False Score를 계산하는 구체적인 일례에 대한 설명도이다. 전체 영상은 60초의 상영시간으로 구성되고, 기획자는 Z1 구간 및 Z2 구간에서 놀람을 의도하였다고 가정하였다. 또한 Z1구간은 10초로 형성되고, Z1 구간 동안 측정된 놀람데이터의 누적값은 3.5이며, Z2구간은 5초로 형성되고, Z2 구간 동안 측정된 놀람데이터의 누적값은 2.1이라 가정하고, 감정의도외 구간에 측정된 놀람데이터의 누적값은 2.5라고 가정하기로 한다. 도 4의 실시예에서 True Score는 '(3.5+2.1)/15 = 0.37로 계산되며, False Score는 '2.5/45 = 0.05'로 계산된다.
도 5는 본 발명에 따른 일 실시예의 영상 평가 시스템 블럭도이다. 도 5에 도시된 바와 같이 본 발명에 따른 영상 평가 시스템은 메모리부(10), 감정일치연산부(20), 정규화처리부(21), 형태학처리부(23), 정규화함수파라미터산출부(25), 영상생성부(30) 및 디스플레이부(35)로 구성된다.
정규화처리부(21)는 전술한 바와 같이 입력되는 감정데이터를 정규화 함수를 이용하여 피험자의 감정데이터를 0과 1사이값으로 정규화 처리하는 모듈이다. 형태학처리부(23)는 정규화처리부(21)로부터 출력되는 감정데이터를 강도에 따라 여운(지속 시간)이 반영되도록 처리하는 모듈이다. 정규화함수파라미터산출부(25)는 전술한 바와 같이 캡쳐영상데이터와 이를 시청한 복수 명의 피험자로부터 캡쳐된 영상의 어느 구간에서 감정을 느꼈는지를 입력받아 해당 구간에 대한 정보가 기록된 체험구간데이터를 이용하여 정규화 함수의 파라미터를 산출하는 모듈이다. 정규화처리부(21), 형태학처리부(23) 및 정규화함수파라미터산출부(25)는 일반적으로 소프트웨어 모듈로 구비되나 필요한 경우 하드웨어로 구현할 수 있음은 물론이다.
메모리부(10)는 영상및센서데이터제공장치(100)으로 제공받는 캠쳐영상데이터와, 도면에 도시되지 않은 입력장치를 통해 복수 명의 피험자로부터 입력받는 체험구간데이터 및 입력장치를 통해 영상 제작자로부터 입력받는 의도구간데이터를 저장한다. 캡쳐영상데이터, 의도구간데이터 및 형태학 처리된 감정데이터는 감정일치연산부(20)에 입력된다.
감정일치연산부(20)는 구간인식부와 점수계산부로 구성된다. 구간인식부는 입력된 캡쳐영상데이터을 재생하면서 프레임 단위 또는 재생 시간을 카운트하며, 의도구간데이터에 속하는 프레임의 시작과 종료 또는 재생 시간의 시작과 종료 시점을 점수계산부에 통지한다. 점수계산부는 의도외 구간에 해당되는 영상이 재생될 때는 입력되는 감정데이터를 누적하여 False 저장부에 저장하고, 의도 구간에 해당되는 영상이 재생될 때는 입력되는 감정데이터는 누적하여 True 저장부에 저장한다. 영상 재생이 종료되면, 의도외 구간을 구성하는 전체 프레임수 또는 관련된 전체 재생시간을 이용하여 False 저장부에 저장된 누적값을 나누면 해당 피험자의 False 점수가 계산된다. 유사하게 영상 재생이 종료되면, 의도 구간을 구성하는 전체 프레임수 또는 관련된 전체 재생시간을 이용하여 True 저장부에 저장된 누적값을 나누면 해당 피험자의 True 점수가 계산된다. 영상생성부는 캡쳐영상데이터, 의도구간데이터, 형태학 처리된 감정데이터 및 점수계산부에서 산출되는 False 점수와 True 점수를 이용하여 영상 형성부에서는 영상을 구성하고, 이를 디스플레이이부(30)에 표시하게 된다.
감정일치연산부(20)는 정규화함수의 파라미터를 산출하는데도 이용된다. 구간인식부는 입력된 캡쳐영상데이터을 재생하면서 프레임 단위 또는 재생 시간을 카운트하며, 체험구간데이터에 속하는 프레임의 시작과 종료 또는 재생 시간의 시작과 종료 시점을 점수계산부에 통지한다. 점수계산부는 체험외 구간에 해당되는 영상이 재생될 때는 입력되는 감정데이터를 누적하여 False 저장부에 저장하고, 체험 구간에 해당되는 영상이 재생될 때는 입력되는 감정데이터는 누적하여 True 저장부에 저장한다. 영상 재생이 종료되면, 체험외 구간을 구성하는 전체 프레임수 또는 관련된 전체 재생시간을 이용하여 False 저장부에 저장된 누적값을 나누면 해당 피험자의 False 점수가 계산된다. 유사하게 영상 재생이 종료되면, 체험 구간을 구성하는 전체 프레임수 또는 관련된 전체 재생시간을 이용하여 True 저장부에 저장된 누적값을 나누면 해당 피험자의 True 점수가 계산된다. 정규화함수파라미터산출부(25)는 체험구간을 이용한 복수 명 체험자의 True 점수와 False 점수를 산출하고, True 점수는 최고치로 나타나고 False 점수는 최저치로 나타나는 정규함수의 파라미터를 산출하게 되는 것이다.
4. 결과 영상 제공
측정자(피험자)의 감정 결과와 기획자의 의도 감정은 전술한 과정을 설명하는 프로그램이 구비된 장치(컴퓨터)에서는 쉽게 관찰이 가능하다. 하지만 측정자의 결과를 보기 위해 반드시 프로그램에 접속해야 하는 불편함이 있고, 외부에서는 분석된 결과를 볼 수 없다는 단점이 있다. 이러한 문제를 해결하기 위해서 측정자의 감정 분석 결과와 기획자의 의도 감정을 한눈에 볼 수 있는 영상을 제작하여 제공하였다. 도 6은 본 발명에 따른 영상 생성부에서 제작된 결과 영상의 일예이다. 도 6과 같은 결과 영상을 이용하면 추출된 영상을 통해 언제 어디서는 분석된 결과를 확인할 수 있고, 외부에서도 프로그램 없이 동영상으로 결과를 확인할 수 있다. 제작된 영상은 일반 영상과 다른 3가지 특징을 가지고 있다.
(1) 캡쳐영상데이터가 재생되는 영역(영역재생영역)에 피험자가 영상을 시청할 때 수집된 시선 정보를 바탕으로 시선 이력을 표기한다(도 6에서 녹색 사각형으로 표시된 부분).
(2) 피험자가 느낀 감정( (2)로 표기된 영역 )의 종류를 나타내고, 우측에는 강도를 하이파이의 이퀄라이저 형태로 표기( (3)으로 표기된 영역, 감정레벨표시영역 )한다.
(3) 해당 시점에서 기획자가 의도한 감정 구간인지 확인할 수 있도록 하기 위해 LED 점등 형태( (4)로 표기된 영역, 의도구간표시영역 )로 원의 불이 켜지면 해당 감정 유발 구간이며 불이 꺼지면 의도한 감정 구간이 아님을 쉽게 파악할 수 있도록 구현하였다.
지금까지는 놀람이라는 특정 감정만을 대상으로 설명하였으나 전술한 바와 같이 안정, 집중 등과 같은 유사한 감정을 한꺼번에 수치화하여 표현할 수 있다. 도 7은 103초 상영시간을 갖는 캡쳐영상데이터에 놀람(surprise), 안정(cozy), 집중(attention), 인지부하력(cognitive load), 좋은 스트레스(eustress) 및 나쁜 스트레스(distress)에 대한 제작자의 의도구간을 나타내는 그래프이다. 도 7에 도시된 바와 같이 하나의 영상에 여러 가지 의도된 감정이 나타날 것으로 예상한 제작자의 의도 구간을 입력할 수 있음을 알 수 있다. 도 8은 동일한 영상을 10명으로 구성된 그룹에서 체험시키고, 각각의 True 점수를 평균하여 나타낸 그룹값과 해당 그룹에 속하는 특정 피험자의 각 감정에 대해 측정된 True 점수를 비교하여 나타낸 막대 그래프이다. 도 7 및 도 8에 도시된 바와 같이 재생되는 영상을 시청하면서 나타나는 여러 개의 감정을 한꺼번에 수치화하여 제시할 수 있음을 알 수 있다.
상기에서 본 발명의 바람직한 실시예가 특정 용어들을 사용하여 설명되었지만 그러한 용어는 오로지 본 발명을 명확히 설명하기 위한 것일 뿐이며, 본 발명의 실시예 및 기술된 용어는 다음의 청구범위의 기술적 사상 및 범위로부터 이탈되지 않고서 여러가지 변경 및 변화가 가해질 수 있는 것은 자명한 일이다. 이와 같이 변형된 실시예들은 본 발명의 사상 및 범위로부터 개별적으로 이해되어져서는 안되며, 본 발명의 청구범위 안에 속한다고 해야 할 것이다.

Claims (7)

  1. 캡쳐영상데이터 및 상기 캡쳐영상데이터를 시청한 피험자가 느끼는 감정을 나타내는 감정데이터를 입력받은 후 상기 피험자의 반응이 상기 캡쳐영상데이터를 제공한 제작자의 의도와 일치하는 정도를 수치화하여 제공하는 영상평가방법으로서,
    상기 제작자로부터 의도한 감정이 나타나는 구간(의도구간)을 입력받은 후 의도구간데이터로 저장하는 제1단계와,
    상기 의도구간데이터로부터 의도구간 동안 입력되는 감정데이터를 이용하여 의도된 감정에 대한 값을 산출하여 True 점수로 계산하는 제2단계 및
    상기 True 점수를 제공하는 제4단계를 포함하는 것을 특징으로 하는 영상평가방법.
  2. 제1항에 있어서,
    1단계와 상기 제4단계 사이에 제공되는 단계로서,
    상기 의도구간데이터로부터 외도구간을 제외한 구간(의도외 구간) 동안 입력되는 감정데이터로부터 의도된 감정에 대한 값을 산출하여 False 점수로 계산하는 제3단계를 더 포함하고,
    상기 제4단계에서는 상기 False 점수도 더 제공하는 것을 특징으로 하는 영상평가방법.
  3. 제2항에 있어서, 상기 제2단계 이전에 수행되는 단계로서
    상기 감정데이터를 0과 1 사이 값으로 정규화하는 제1-2단계와,
    상기 제1-2단계에서 정규화된 감정데이터를 강도를 고려하여 지속시간으로 변환하는 형태학 처리를 수행하는 제1-3단계를 더 포함하고,
    제2단계이후 단계에서는 상기 제1-3단계에서 형태학 처리가 완료된 감정데이터를 이용하는 것을 특징으로 하는 영상평가방법.
  4. 제3항에 있어서,
    상기 제1-2단계는 정규화 함수를 이용하여 수행되는 것을 특징으로 하는 영상평가방법.
  5. 제4항에 있어서,
    상기 정규화 함수는 시그모이드 함수인 것을 특징으로 하는 영상평가방법.
  6. 캡쳐영상데이터 및 상기 캡쳐영상데이터를 시청한 피험자가 느끼는 감정을 나타내는 감정데이터를 입력받은 후 상기 피험자의 반응이 상기 캡쳐영상데이터를 제공한 제작자의 의도와 일치하는 정도를 수치화하여 제공하는 영상 평가 시스템으로서,
    상기 캡쳐영상데이터, 상기 캡쳐영상데이터에서 상기 제작자가 의도한 감정이 나타나는 구간(의도구간)에 대한 의도구간데이터 및 상기 감정데이터를 저장하는 메모리부와,
    상기 캡쳐영상데이터를 재생하면서 상기 의도구간데이터로부터 상기 의도구간의 시작과 종료 구간을 인식하고 이를 통지하는 구간인식부 및 상기 구간인식부로 통지되는 상기 의도구간을 이용하여 의도구간 동안 입력되는 감정데이터에 포함된 의도된 감정의 점수를 True 점수로 계산하고, 의도구간을 제외한 구간(의도외 구간) 동안 입력되는 감정데이터에 포함된 의도된 감정의 점수를 False 점수로 계산하는 점수계산부를 포함하는 감정일치연산부와,
    상기 캡쳐영상데이터가 재생되는 영상재생영역, 의도구간인지 여부를 표시하는 의도구간표시영역 및 상기 재생되는 캡쳐영상데이터의 구간에 해당하는 실시간 의도된 감정을 단계적으로 제공하는 감정레벨표시영역를 포함하는 영상을 생성하는 영상생성부를 포함하는 것을 특징으로 하는 영상평가시스템.
  7. 제6항에 있어서,
    상기 감정데이터로부터 출력되는 값을 0과 1사이값으로 정규화하여 출력하는 정규화처리부 및
    상기 정규화처리부로부터 입력되는 정규화된 감정데이터를 강도를 반영하여 지연시간을 조절하여 출력하는 형태학처리부를 더 포함하고,
    상기 감정일치연산부 및 상기 영상생성부는 상기 형태학처리부로부터 출력되는 감정데이터를 이용하는 것을 특징으로 하는 영상평가시스템.
PCT/KR2019/000634 2018-10-24 2019-01-16 영상평가시스템 및 영상평가방법 WO2020085581A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180127665A KR102081752B1 (ko) 2018-10-24 2018-10-24 영상평가시스템 및 영상평가방법
KR10-2018-0127665 2018-10-24

Publications (1)

Publication Number Publication Date
WO2020085581A1 true WO2020085581A1 (ko) 2020-04-30

Family

ID=69637987

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000634 WO2020085581A1 (ko) 2018-10-24 2019-01-16 영상평가시스템 및 영상평가방법

Country Status (2)

Country Link
KR (1) KR102081752B1 (ko)
WO (1) WO2020085581A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113974628A (zh) * 2021-10-29 2022-01-28 杭州电子科技大学 一种基于脑机模态共空间的情绪识别方法
CN113974625A (zh) * 2021-10-18 2022-01-28 杭州电子科技大学 一种基于脑机跨模态迁移的情绪识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007097047A (ja) * 2005-09-30 2007-04-12 Seiko Epson Corp コンテンツの編集装置、コンテンツの編集方法及びコンテンツの編集プログラム
KR20080072085A (ko) * 2001-02-06 2008-08-05 소니 가부시끼 가이샤 콘텐츠에 대한 시청자 평가를 수집하는 장치 및 방법
KR100946222B1 (ko) * 2001-11-13 2010-03-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 감성적 텔레비전 모니터링 및 제어

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101578802B1 (ko) * 2010-11-17 2015-12-21 네이버 주식회사 사용자의 키워드에 대한 관심 지속 정도에 기초하여 광고를 제공하는 시스템 및 방법
AU2012256402A1 (en) 2011-02-27 2013-07-11 Affectiva, Inc, Video recommendation based on affect

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080072085A (ko) * 2001-02-06 2008-08-05 소니 가부시끼 가이샤 콘텐츠에 대한 시청자 평가를 수집하는 장치 및 방법
KR100946222B1 (ko) * 2001-11-13 2010-03-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 감성적 텔레비전 모니터링 및 제어
JP2007097047A (ja) * 2005-09-30 2007-04-12 Seiko Epson Corp コンテンツの編集装置、コンテンツの編集方法及びコンテンツの編集プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM E GON ET AL.: "Design of Emotion Recognition Model Using Fuzzy Logic", PROCEEDINGS OF KFIS SPRING CONFERENCE 2000, vol. 10, no. 1, May 2000 (2000-05-01), pages 268 - 282 *
LEE, IN KUN ET AL.: "A Design of Artificial Emotion Model", TRANSACTIONS OF KOREAN INSTITUTE OF INTELLIGENT SYSTEMS, vol. 17, no. 5, October 2007 (2007-10-01), pages 648 - 653, XP055709044 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113974625A (zh) * 2021-10-18 2022-01-28 杭州电子科技大学 一种基于脑机跨模态迁移的情绪识别方法
CN113974625B (zh) * 2021-10-18 2024-05-03 杭州电子科技大学 一种基于脑机跨模态迁移的情绪识别方法
CN113974628A (zh) * 2021-10-29 2022-01-28 杭州电子科技大学 一种基于脑机模态共空间的情绪识别方法

Also Published As

Publication number Publication date
KR102081752B1 (ko) 2020-02-26

Similar Documents

Publication Publication Date Title
Walter et al. The biovid heat pain database data for the advancement and systematic validation of an automated pain recognition system
Patel et al. A wearable multi-modal bio-sensing system towards real-world applications
CN101453943B (zh) 图像记录装置和图像记录方法
CN110363129B (zh) 基于微笑范式和音视频行为分析的孤独症早期筛查系统
KR101722708B1 (ko) 인체 미동에 의한 hrc 기반 사회 관계성 측정 방법 및 시스템
US20220148728A1 (en) System and method for analyzing stress of user and managing individual mental health, using hmd device having biosignal sensors mounted therein
US20160029965A1 (en) Artifact as a feature in neuro diagnostics
WO2020159093A1 (ko) 생체 데이터를 이용한 하이라이트 영상 생성 방법 및 그 장치
US20180279935A1 (en) Method and system for detecting frequency domain cardiac information by using pupillary response
US20180242898A1 (en) Viewing state detection device, viewing state detection system and viewing state detection method
WO2018088187A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2020085581A1 (ko) 영상평가시스템 및 영상평가방법
WO2017200244A1 (ko) 시청각 콘텐츠와 생체신호 분석을 활용한 정신증상 평가 시스템
WO2021040181A1 (ko) 선호도 결정 방법 및 이를 이용한 선호도 결정용 디바이스
CN116211306A (zh) 基于眼动和心电信号的心理健康自评估系统
WO2023012818A1 (en) A non-invasive multimodal screening and assessment system for human health monitoring and a method thereof
Landowska Emotion monitor-concept, construction and lessons learned
Shi et al. Attention evaluation with eye tracking glasses for EEG-based emotion recognition
WO2023106555A1 (ko) 등록된 확장현실 기기 사용자의 집중도를 관리 및 제어하는 방법, 장치 및 시스템
US20150078728A1 (en) Audio-visual work story analysis system based on tense-relaxed emotional state measurement and analysis method
CN111341444A (zh) 智能绘画评分方法及系统
CN115813343A (zh) 儿童行为异常评估方法和系统
Jo et al. Rosbag-based multimodal affective dataset for emotional and cognitive states
CN108966013A (zh) 一种基于全景视频的观众反应评估方法及系统
KR102565852B1 (ko) 얼굴표정 분석기반 자폐 스펙트럼 장애 평가 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19876277

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19876277

Country of ref document: EP

Kind code of ref document: A1