KR102347151B1 - 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법 - Google Patents

색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법 Download PDF

Info

Publication number
KR102347151B1
KR102347151B1 KR1020200013320A KR20200013320A KR102347151B1 KR 102347151 B1 KR102347151 B1 KR 102347151B1 KR 1020200013320 A KR1020200013320 A KR 1020200013320A KR 20200013320 A KR20200013320 A KR 20200013320A KR 102347151 B1 KR102347151 B1 KR 102347151B1
Authority
KR
South Korea
Prior art keywords
video
emotion
image
evaluation
properties
Prior art date
Application number
KR1020200013320A
Other languages
English (en)
Other versions
KR20210099445A (ko
Inventor
황민철
장징
조아영
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020200013320A priority Critical patent/KR102347151B1/ko
Publication of KR20210099445A publication Critical patent/KR20210099445A/ko
Application granted granted Critical
Publication of KR102347151B1 publication Critical patent/KR102347151B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/627
    • G06K9/00711
    • G06K9/4652
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

동영상의 속성 정보를 이용한 감성 평가 방법 및 장치에 대해 기술한다. 감성 평가 방법:은 음향을 포함하는 다수의 영상 클립을 감성 별로 분류하여 라벨링하는 단계; 상기 영상 클립으로부터 영상 속성을 추출하여 학습 데이터를 준비하는 단계; 상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 모델 파일을 생성하는 단계; 별도로 입력된 영상 데이터에 대해 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법에 의해 상기 입력 영상 데이터의 감성을 판단하는 단계;를 포함한다.

Description

색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법{emotion cognition method of video by using color attributes and apparatus adopting the method}
본 개시는 영상 속성을 이용한 감성 인식 방법 및 장치에 관한 것으로 상세하게는 동영상에 포함된 영상의 속성을 이용하여 동영상에 내재된 감성을 평가하는 방법에 관련된다.
최근 유튜브와 같은 미디어의 이용이 증가함에 따라 비디오와 같은 시청각 데이터의 중요성이 높아지고 있다. 특히 영상 클립과 같은 동영상은 시청자에게 이미지나 사운드만 제공하는 것보다 더 많은 정보를 제공할 수 있다 [1,2]. 그리고 비디오는 이미지나 사운드에 비해서 시청각 정보가 함께 주어지기 때문에 감성에 미치는 영향이 더 크다. 따라서 콘텐츠 크리에이터들은 비디오 형태의 콘텐츠를 적극 활용하고 있으며 대중의 공감을 얻기 위해 콘텐츠에 감성을 표현해왔다. 그러나 감성 콘텐츠의 중요성이 높아짐에도 불구하고 콘텐츠가 표현하고자 하는 감성이 어떠한 감성인지 인식하는 방법은 여전히 주관적으로 측정 된다. 보다 정확한 감성의 인식을 위해서도 객관적이고도 과학적인 방법의 접근이 필요하다.
Schaefer, Alexandre, Frιdιric Nils, Xavier Sanchez, and Pierre Philippot. "Assessing the effectiveness of a large database of emotion-eliciting films: A new tool for emotion researchers." Cognition and Emotion 24, no. 7 (2010): 1153-1172. Newhagen, John E., and Byron Reeves. "The evening's bad news: Effects of compelling negative television news images on memory." Journal of Communication 42, no. 2 (1992): 25-41. Mo, Shasha, Jianwei Niu, Yiming Su, and Sajal K. Das. "A novel feature set for video emotion recognition." Neurocomputing 291 (2018): 11-20 Multimedia Retrieval, Henk M. Blanken, Arjen P. de Vries, Henk Ernst
본 개시의 한 유형에 따르면, 동영상 콘텐츠에 내재된 감성을 객관적으로 평가할 수 있는 동영상 속성을 이용한 감성 평가 방법 및 이를 측정하는 장치가 제시된다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법은,
다수의 영상 클립을 감성 별로 분류하여 라벨링하는 단계;
상기 영상 클립으로부터 영상 속성을 추출하여 학습 데이터를 준비하는 단계;
상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 모델 파일을 생성하는 단계;
별도로 입력된 비교 영상 데이터에 대해, 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법을 적용하여 상기 비교 영상 데이터의 감성을 판단하는 단계;를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서,
상기 모델은 MLP 모델일 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서,
상기 영상 속성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서, 상기 학습 데이터는 준비하는 단계에서 상기 영상 클립의 영상 속성과 함께 음향 속성도 같이 추출될 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서, 상기 음향 속성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서,
상기 톤은 음향 신호를 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따라 상기 방법을 수행하는 감성 평가 장치:는
상기 모델 파일을 저장하는 메모리;
입력 영상 데이터의 감성을 판단 감성 평가 앱이 실행되는 프로세서;
상기 입력 영상 데이터를 입력 받아 상기 프로세스로 전달하는 영상 처리 장치; 를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 장치에서,
상기 영상 처리 장치에는 동영상 소스로부터의 동영상을 중간에서 캡쳐 하는 영상 캡쳐 장치가 연결될 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 장치에서,
상기 모델은 MLP 모델일 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 장치에서,
상기 영상 속성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 시스템에서, 상기 학습 데이터에 상기 영상 클립의 영상 속성과 함께 음향 속성이 포함되어, 학습 데이터를 이용한 학습에 의해 얻어진 모델 파일은 상기 영상 속성과 음향 속성에 대해 훈련된 웨이트를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서, 상기 음향 속성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 장치에서,
상기 음향 속성은 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 장치에서,
상기 톤은, 상기 음향 신호를 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함할 수 있다.
도1은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정을 보인다.
도2는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 감성적 영상 DB 구축 과정을 보여 준다.
도3은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 영상 별 물리적 속성 추출 과정을 보여 준다.
도4는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 감성 연관 속성 추출 과정을 보여 준다.
도5는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 감성 예측을 위한 학습 및 검증 과정을 보여준다.
도6은 러셀의 Russell의 Valence-Arousal의 2차원 모델을 도시한다.
도7은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 MLP 모델의 9개 감성의 정확도 검증 방법은 교차검증(Cross-Validation) 결과를 보인다.
도8은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 적용하는 감성 평가 시스템의 개략적 블럭 다이어그램이다.
도9내지 도24는 영상 및 음향 속성 또는 특성에 대한 ANOVA 분석 결과를 보인다.
도25는 하나 또는 그 이상의 실시 예에 따라 훈련된 모델의 정확도와 손실 값의 계산 결과를 보인다.
이하, 첨부도면을 참조하여 본 발명 개념의 바람직한 실시 예들을 상세히 설명하기로 한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되어 지는 것으로 해석되어져서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되어 지는 것으로 해석되는 것이 바람직하다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명 개념은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.
제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "갖는다" 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.
어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
이하에서 하나 또는 그 이상의 실시 예에 따라, 영상의 물리적 속성을 이용하여 해당 영상이 품고 있는 감성을 평가하는 방법 및 장치를 상세히 설명한다.
실시 예에 따른 방법은 도1에 도시된 바와 같이 아래의 5 단계를 포함하며, 이를 수행하는 장치는 이러한 방법을 수행하기 위한 하드웨어 및 소프트 웨어를 갖춘다.
단계 1:
이 과정에서는 학습을 위한 영상 클립을 수집하는 단계로서 다양한 영상 클립의 수집, 이에 대한 주관적 판단 및 이에 따른 라벨링이 수행된다.
단계 2 : 감성 별 영상 물리적 속성 추출
특정 감성으로 라벨링된 영상 클립으로부터 물리적 속성을 추출하는데, 여기에서는 영상 속성 및 이에 수반하는 것으로 본 실시 예에서 선택적 요소인 음향 속성 추출이 병행된다.
단계 3 : 감성 요인 연관 속성 도출
추출된 영상 속성을 분석하여 감성 요인에 연관된 속성을 학습 데이터로 도출한다. 여기에서, 단계 2에서 및 음향 속성이 선택적 요소 선택된 경우 상기 음향 속성에 대한 분석도 병행되며 그리고 학습 데이터에 포함된다.
단계 4 : 감성 예측을 위한 학습 및 인식 정확도 검증
이 과정에서는 상기 학습 데이터에 대해 합성곱 신경망 기법으로 훈련을 행하여 감성 평가 모델 파일(훈련 모델)을 생성한다. 여기에서 모델 파일은 머신 러닝을 통해 감성 평가를 위해 훈련된다. 이 훈련 모델에 의해 추정된 결과가 주관적 평가 결과와 비교하여 머신 러닝 결과의 정확도를 평가한다.
단계 5 : 훈련된 모델을 이용한 영상 감성 추론 시스템 적용 또는 구축
최종적으로 훈련된 모델(모델 파일)을 이용한 영상 컨텐츠의 감성 평과를 위한 시스템을 구축한다. 이 시스템은 본체, 키보드, 모니터 등을 포함하는 일반적인 컴퓨터 시스템을 기반으로 하며 여기에선 영상 입력을 위한 입력 장치가 포함될 수 있으며, 여기에는 영상 프로바이더와 디스플레이 또는 투사기의 중간에서 영상 컨텐츠를 캡쳐할 수 있는 동영상 캡쳐 보드를 구비할 수 있다.
상기와 같은 5단계는 아래와 같이 구체적으로 실시 될 수 있으며, 이를 통해 영상 컨텐츠의 물리적 속성에서 감성 요인을 도출하여 객관적이고 자동적인 콘텐츠 감성 인식이 가능한 기술을 확립하였다.
이를 위해 본 실험에서는 콘텐츠의 물리적 속성 중에서 감성 유발 요인이 될 수 있는 유효 변수를 통계적 방법으로 분석하고 머신러닝 기법을 적용하여 감성 예측 정확도를 검증하였다. 이하에서 실제 실험 과정을 각 단계로 상세히 설명한다.
가. 감성적 영상 (클립) 수집
이 단계는 도2에 도시된 바와 같이, 감성 영상 데이터베이스 구축. 즉 특정 감성을 내포하고 있는 다양한 감성의 영상 클립(video clip)를 다양한 영상 컨텐츠(video contents)로 부터 발췌 수집한다. 구체적으로 이 과정에서, 감성 영상 클립을 수집하고 주관평가를 통해 특정 감성을 표현하고 있다고 검증된 영상 클립만을 감성 별로 선별된다. 여기에서, 감성 영상 클립 수집 과정에서 8개의 감성 애니메이션 컨텐츠를 선택하였고 이를 이용하여 105개로 분리된 10초짜리 영상 클립을 얻었다. 수집된 영상 클립에서 표현하고 있는 감성이 어떠한 감성인지 검증하기 위해 8명의 감성 인식 전문가를 대상으로 주관평가를 실시하였다. 총 실험 시간은 40분으로 10초 영상 클립을 보여준 후 10초가 주관 평가하는 과정을 반복하였다.
해당 비디오의 감성에 대한 평가가 일관성이 있는지 확인하기 위하여 8명 모두 6번의 반복 평가를 수행하였다. 그 결과 개인의 반복 평가 결과가 6번 중에서 4번 이상 일치하고, 4번 이상 일치하는 결과를 보인 평가자가 8명 중에 6명 이상인 경우에만 해당 비디오가 특정 감성을 표현하고 있는 것으로 선별되었다. 즉 하나의 영상에 대한 48번 (8명*6번)의 감성 평가 결과 중에서 24번 (6명*4번)이상 일치하는 경우에만 감성 비디오로 선별되었다. 이렇게 선별된 78개의 영상 클립이 이 후 특징 추출에 사용되었다. 감성 평가에 대한 구체적인 방법과 점수 산정 근거에 대한 설명은 아래와 같다.
8명의 평가자들은 105개의 10초짜리 영상 클립에 대해 각각 영상에서 표현하는 감성이 9개 감성 중에서 어떤 감성에 가까운지 평가하였다. 본 실험에서 정의하는 9개 감성은 Russell의 Valence-Arousal의 2차원 모델을 근거로 [James, A. Russell, 1989] 불쾌-각성, 각성, 쾌-각성, 불쾌, 중립, 쾌, 불쾌-이완, 이완, 쾌-이완으로 정의하였다. Russell의 2차원 모델은 각성(Arousal) 수준과 긍정(Valence) 수준에 따라 9개 도메인으로 정의되며, 해당 도메인에 대한 감성은 도6에 도시된 바와 같다. 각 영상이 9개 감성 중에 어떤 감성에 해당되는지 구분하기 위하여 각성 수준과 긍정 수준에 대한 점수를 7점 리커트 척도로 평가하여 각 점수를 축에 매핑 했을 때 어떤 도메인에 해당하는지에 따라 영상의 감성이 구분되도록 하였다. 감성 별 점수의 기준은 구체적으로 다음과 같다:
1) 불쾌 각성: valence 점수가 -3점 또는 -2점이고, arousal 점수가 +2점 또는 +3점인 경우
2) 각성 : valence 점수가 -1점, 0점 또는 +1점이고, arousal 점수가 +2점 또는 +3점인 경우
3) 쾌각성 : valence 점수가 +2점 또는 +3점이고, arousal 점수가 +2점 또는 +3점인 경우
4) 불쾌 : valence 점수가 -3점 또는 -2점이고, arousal 점수가 -1점, 0점 또는 +1점인 경우
5) 중립 : valence 점수가 -1점, 0점 또는 +1점이고, arousal 점수가 -1점, 0점 또는 +1점인 경우
6) 쾌 : valence 점수가 +2점 또는 +3점이고, arousal 점수가 -1점, 0점 또는 +1점인 경우
7) 불쾌이완 : valence 점수가 -3점 또는 -2점이고, arousal 점수가 -3점 또는 -2점인 경우
8) 이완 : valence 점수가 +2점 또는 +3점이고, arousal 점수가 -3점 또는 -2점인 경우
9) 쾌이완 : valence 점수가 -1점, 0점 또는 +1점이고, arousal 점수가 -3점 또는 -2점인 경우
나. 영상의 물리적 속성 기반 특징 추출
이 단계는 도3에 도시된 바와 같이, 데이터베이스에 저장된 78개의 감성적 영상 클립에 대하여 각각 이미지 특징 10가지와, 소리 특징 14가지를 추출하는 단계이다. 여기에서 상기 소리 특징 14가지는 선택적 요소이며, 본 실시 예에서는 이를 선택하였다. 비디오가 포함하고 있는 시각적 및 선택적 요소인 청각적 물리 속성들 중에서 10가지의 색상 속성과 14가지의 소리의 속성은 다음과 같다.
색상 속성은 이미지가 포함하고 있는 색상 성분을 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow)의 각각의 색상 모델을 기반으로 추출했으며, 소리는 피치(frequency), 음량(power), 톤(MFCC;Mel-Frequency Cepstral Coefficients, 12 coefficient)을 추출했다. 본 실시 예에서는 상기 색상(영상) 속성 및 음향 속성을 공히 학습 데이터로 이용했으나 다른 실시 예에 따르면 어느 하나의 속성만을 학습 데이터로 이용될 수 있다. 이하에서는 색상 속성과 음향 속성을 공히 이용하는 실시 예가 설명된다.
다. 감성 요인 도출 단계
이 단계에서 도4에 도시된 바와 같이, 추출된 물리적 속성 중에서 감성 요인을 통계분석을 통해 도출하는 단계이다. 앞서 추출된 비디오의 24개 물리적 속성 기반 특징들을 9개 감성으로 구분하고 해당 감성의 주요 요인이 되는 유효 특징을 도출하기 위해 3개 이상의 감성 수준에 따라 차이를 분석하는 통계 기법인 ANOVA 분석을 실시하고 사후 검증을 했다.
도9내지 도24는 영상 및 음향 속성 또는 특성에 대한 ANOVA 분석 결과를 보인다. 위와 같은 통계 분석 결과, 유의확률(p-value) < 0.001 이하로 유의한 차이가 나는 유효 파라미터로서는 Gray, RGB, HSV, LAB, frequency, power, MFCC(Mel-frequency cepstral coefficients)의 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs)로 도출되었다.
라. 감성 예측을 위한 학습 및 인식 정확도 검증
이 단계는 도5에 도시된 바와 같이, 기계학습(machine learning)을 사용하여 앞서 도출된 감성 요인 특징 데이터 (학습 데이터)와 주관설문을 통해 수집된 9개 감성 라벨을 분류기(classifier)에 학습시키고 학습된 결과로 감성 인식 정확도를 도출하는 단계이다. 이 때 감성 학습을 위해 사용된 분류기는 MLP(Multi Layer Perceptron) 모델을 사용하였으며, 학습 결과로 얻어진 정확도는 95%로 나타났다. 본 실험에서는 가장 많이 사용되는 SVM(support vector machine), KNN(k-nearest neighbor), MLP(multi- layer perceptron) 등의 분류기(classifier) 중에서 가장 정확도가 높은 모델인 MLP 모델을 사용하였다.
상기 MLP 계층 들은 다음과 같다.
1) 입력층 (Input Layer)
 본 실험에서 사용된 MLP 레이어의 입력층은 18개의 특징 데이터(raw data)와 9개의 감성 라벨(label)의 정보를 저장하는 다차원 텐서(tensor)이다. 이러한 텐서는 18개의 특징변수들을 저장하며, 18차원의 구조를 가진다. 
2) 은닉층 (Hidden Layer)
 다층 구조 신경망에서 입력층(input layer)과 출력층(output layer) 사이에 존재하는 층으로, 입력층으로부터 전달되는 변수 값들의 선형 결합(linear combination)을 비선형 함수로 처리하여 출력층 또는 다른 은닉층으로 전달한다. 다층 구조 신경망에서는 여러층의 은닉층을 둘 수 있으며, 은닉층에는 여러 개의 은닉 단위(hidden unit)를 둘 수 있다.
 3) 활성화 함수(Activation Function)
 활성화 함수는 ReLU(Rectified Linear Unit)로서 신경망에 비선형성을 부여한다.
4) 분류함수 계층
 분류에서 2 개 이상의 클래스가 있는 경우 분류함수, 예를 들어 소프트맥스(Softmax) 함수를 이용해 출력 레이어를 형성한다. 소프트맥스 함수는 클래스에 대한 이산확률분포를 예측하는 방법을 제공한다.
 MLP 모델의 훈련은 상기와 같은 구조의 모델에 대해 프로그래밍 기법에 의해 수행되며, 이 과정에서 역전파(Backpropagation)에 의한 출력층의 가중치 갱신(update)이 수행된다. 잘 알려진 바와 같이 역전파 알고리즘은 오차에 비례하여 출력층(Output layer)의 가중치(weight)를 갱신하고, 그 다음 은닉층(Hidden layer)의 가중치를 갱신한다. 위와 같은 모델에 대한 훈련이 완료되면, 목적하는 파일 형태의 훈련된 MLP 모델을 얻게 된다.
상기와 같은 MLP 모델의 9개 감성의 정확도 검증 방법은 교차검증(Cross-Validation)을 사용하여 확인하였으며, 도7은 그 결과를 보인다.
검증 결과 f1-score가 각 감성별로 높고, 각 감성별 차이가 없으므로 MLP 모델의 학습 결과가 좋은 것으로 나타났다.
이하 본 실험에서 사용된 MLP 감성 인식 모델에 대해 설명한다.
예측을 위한 모델의 생성을 위한 컴퓨터 언어로는 Python3을 선택했고, 예측 모델 생성에는 Keras를 선택했다. 아래는 소스 코드를 설명한다.
<소스 코드1>
Figure 112020011783118-pat00001
소스코드 1은 입력 데이터셋을 로드하는 단계이다. 입력 데이터는 저장된 특징, 학습 데이터(training data)들이 로딩된다. X는 특징 변수(파라미터) 이고 y는 9개의 감성 label 있다. train_test_split를 사용하면 X, y 자동으로 학습 데이터(training data)와 테스트 데이터(test data)를 7:3로 나눴다.
<소스 코드2>
Figure 112020011783118-pat00002
소스코드 2는 데이터 셋 정규화 단계이다. 수집된 데이터는 비대칭 데이터기 때문에 비대칭 데이터는 다수 클래스 데이터에서 일부만 사용하는 언더 샘플링이나 소수 클래스 데이터를 증가시키는 오버 샘플링을 사용하여 데이터 비율을 맞추면 정밀도(precision)가 향상된다. 그래서 RandomOverSampler는 데이터 비율을 맞추는 방법이이다. class_name는 9개 감성 그룹의 이름을 정의한다.
preprocessing.scale는 데이터는 표준화를 시키는 방법이다. 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다. 데이터 표준화한 후에 학습을 향상될 수 있다.
<소스 코드3>
Figure 112020011783118-pat00003
소스코드 3은 MLP 모델을 구축하기 위해 필요한 하이퍼 파라미터들을 설정하는 단계이다. LayerInput은 입력 노드의 형태를 정의하는 파라미터이다. LayerOutput은 출력 노드의 개수를 정의하는 파라미터이다. Layer는 각 은닉층의 노드 개수를 정의하는 파라미터이다. 따라서 첫번째 은닉층(Layer1)은 256개의 노드가 입력층의 노드들과 연결되며, 두번째 은닉층(Layer2)에서는 512개의 노드가 첫번째 은닉층의 노드들과 연결된다. 마찬가지로 세번째, 네번째 은닉층에서는 각각 1024, 2048개의 노드들이 이전 은닉층과 연결된다.
fit_epochs는 에포크의 수 즉, 훈련의 총 반복 횟수를 정의하는 파라미터이다. fit_batch_size는 한 번 훈련할 때 사용되는 데이터 샘플의 크기를 설정하는 파라미터이다. 따라서 한 번의 훈련할 때 720개(LayerInput=18*40)의 데이터를 사용하여 훈련하며, 총 100 번(fit_epochs=100) 반복할 때까지 훈련을 수행한다.
<소스 코드4>
Figure 112020011783118-pat00004
소스코드 4는 MLP 모델 구축 단계이다. keras.Sequential() 함수를 이용해 model을 초기화하고 model.add() 함수를 사용하여 4개의 은닉층(Layer1, Layer2, Layer3, Layer4)과 출력층(LayerOutput)을 모델에 추가한다.
Keras의 model.add() 함수에 입력된 input_dim 파라미터는 입력 데이터의 차원을 설정하는 파라미터로, input_dim=Layer Input은 입력층(LayerInput)의 차원크기(18차원)으로 설정되었음을 의미한다. kernel_initializer 파라미터가 "uniform"으로 설정된 것은 균등분포(uniform distribution) 형태의 학습 가중치(weight)를 사용한다는 것을 의미한다. activation 파라미터는 어떤 활성화 함수를 사용할지 설정하는 파라미터이다.
<소스 코드5>
Figure 112020011783118-pat00005
소스코드 5는 모델의 훈련 파라미터를 설정하는 단계이다. model.compile() 함수에서 loss 파라미터는 손실함수를 정의하는 파라미터이다. loss= 'categorical_crossentropy', 이는 손실 값(=cost)을 다중 클래스에 관한 "crossentropy"로 측정하겠다는 의미이다. optimizer 파라미터는 손실 값을 줄이기 위해 사용할 최적화함수를 정의하는 파라미터이다. optimizer='adam', 이는 손실 값을 줄이고 local maximum에 다다르도록 가중치(weights) 값들을 조정할 때, adam이라는 기법을 사용한다는 의미이다. metrics 파라미터는 모델의 성능을 평가하기 위한 척도를 설정하는 파라미터이다. metrics=['accuracy'], 이는 정확도를 기준으로 모델의 성능을 평가를 하겠다는 것이다. 모델 성능 즉, 좋은 모델인지 아닌지 평가하는 기준에는 accuracy, precision, recall, f1-score 등이 있다.
Figure 112020011783118-pat00006
<소스 코드6>
소스코드 6은 기 구축된 모델을 활용하여 감성을 인식하는 단계이다. model.fit() 함수를 사용하여 구축된 모델을 사용하여 데이터 훈련을 수행한다. 이 때 소스코드 3에서 설정한 훈련 반복횟수와 한 번 훈련 시에 사용되는 학습 데이터의 크기를 epochs와 batch_size 파라미터로 지정하여 훈련에 적용한다. validation_split 파라미터는 전체 데이터에서 학습 데이터(training data)로 사용될 데이터의 크기와 검증을 위한 테스트 데이터(test data)로 사용될 데이터의 크기의 비율을 설정하는 파라미터이다. validation_split=0.2는 학습 데이터의 비율을 80%, 테스트 데이터의 비율을 20%로 나누겠다는 의미이다.
pre_cls_train 객체는 model.predict_classes() 함수에 학습 데이터(X_train)를 파라미터로 입력하여 얻어진 학습 데이터의 결과이고 pre_cls_test 객체는 model.predict_classes() 함수에 테스트 데이터(X_test)를 파라미터로 입력하여 얻어진 테스트 데이터의 결과이다. 즉, pre_cls_train에는 학습 데이터가 분류된 감성의 라벨이 저장되며, pre_cls_test에는 테스트 데이터가 분류된 감성의 라벨이 저장된다. 이러한 출력 결과를 confusion_matrix()함수에 파라미터로 지정하여 모델이 인식한 결과(pre_cls_train 또는 pre_cls_test)가 실제 값(y_train, y_test)과 비교하였을 때 얼마나 정확한지 매트릭스(matrix) 형태로 시각화여 출력한다.
<소스 코드7>
Figure 112020011783118-pat00007
소스 코드 7은 모델의 감성 인식 정확도를 검증하는 단계이다. model.evluate()함수를 사용하여 손실 값과 감성 인식 정확도를 계산한다. eval_train_loss는 학습 데이터의 손실 값이며, eval_train_acc는 학습 데이터의 정확도이다. 또한 eval_test_loss는 테스트 데이터의 손실 값이며, eval_test_acc는 테스트 데이터의 정확도이다. 도25는 정확도와 손실 값의 계산 결과를 보인다.
상기와 같은 과정을 거쳐 잘 훈련된 모델을 얻을 수 있으며, 따라서 이를 이용한 도8에 도시된 바와 같이 감성 평가 시스템의 구현이 가능하게 된다. 이러한 시스템은 제대로 만들어진 영상 컨텐츠에 전체 또는 국부적 각 장면 마다의 감성 평가가 가능할 것이다. 또한, 특정한 목적으로 촬영되는 영상에 대해서는 감성 평가가 가능할 것이며 이를 통해 촬영지의 감성적 현장 분위기의 판단이 가능할 것이다. 이러한 피검 대상 영상은 상기 모델을 적용하는 평가 시스템에 입력될 것인데, 전술한 바와 같이 영상 소스와 영상 표시기 또는 표시 매체의 사이에서 영상을 캡쳐할 수 도 있고, 아니면, 영상 자체를 상기 시스템에 직접 입력할 수 있다. 상기 영상 소스에는 컨텐츠 프로바이더, 카메라 등의 어떠한 영상 소스가 포함될 이다. 상기 평가 시스템은 영상 컨텐츠가 진행되는 동안 연속적으로 각 장면 단위 별로 감성의 평가를 수행 할 수 있다.
입력된 영상의 선택된 정보를 상기와 같이 훈련된 모델에 적용하여 해당 감성 상태를 확률적으로 판단된다. 입력된 영상의 이미지의 프레임 및 이에 대응하는 음향 정보로부터 얻은 각 유효 정보를 분류함수계층의 분류함수, 예를 들어 최종의 softmax 알고리즘을 통해 원하는 레이블(감성 상태)의 수 만큼의 요소를 가지는 벡터가 나온다. 이 벡터의 값 중에서 최대값이 특정 감성의 판단 기준이 되는 최종 예측 값이 되며, 이 벡터 값과 해당 영상의 레이블, 즉 감성 상태가 출력된다.
도8에 도시된 바와 같이, 본 개시에 따른 감성 평가 시스템은 상기 방법에 의해 얻어진 최종 모델 파일(훈련된 모델)을 저장하는 메모리; 판별 대상 영상 소스로 부터 비교 영상 데이터를 처리하는 영상 처리 장치; 감성 평가 앱을 로딩하여, 상기 영상 소스로부터 입력된 영상 데이터에 대해 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법을 거쳐 완전 연결층을 형성하고, 상기 완전 연결층에 대한 다중분류 활성함수를 이용해 상기 입력 영상의 정보를 담은 출력층(출력벡터)을 형성하는 프로세서; 상기 프로세서에 의한 상기 입력 영상의 감성 정보를 출력하는 디스플레이;를 포함할 수 있다.
이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims (14)

  1. 다수의 감성적 영상 클립을 수집하고, 상기 영상 클립에 대해 주관적 평가를 수행하여 영상 클립의 물리적 속성에 따른 감성을 쾌, 불쾌, 각성, 이완 등의 감성으로 분류하고 해당 영상 클립을 라벨링하는 단계;
    감성 별로 라벨링된 상기 영상 클립으로부터 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함하는 영상 속성을 추출하여 학습 데이터를 준비하는 단계;
    상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 영상 데이터의 감성 평가를 위한 MLP 모델 파일을 생성하는 단계;
    별도로 입력된 비교 영상 데이터에 대해 상기 MLP 모델파일을 적용한 합성곱 신경망 기법에 의해 상기 비교 영상 데이터에 내재된 감성을 상기 MLP 모델 파일에 기초해 판단하는 단계;를 포함하는 동영상 속성을 이용한 감성 평가 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 학습 데이터는 준비하는 단계에서 상기 영상 클립의 영상 속성과 함께 음향 속성도 같이 추출되는, 동영상 속성을 이용한 감성 평가 방법.
  6. 제5항에 있어서,
    상기 음향 속성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 방법.
  7. 제6항에 있어서,
    상기 톤은 음향 신호를 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 방법.
  8. 제1항에 기재된 방법을 수행하는 동영상 속성을 이용한 감성 평가 장치에 있어서,
    상기 모델 파일을 저장하는 메모리;
    별도로 입력된 비교 영상 데이터의 감성을 판단 감성 평가 앱이 실행되는 프로세서;
    상기 비교 영상 데이터를 입력 받아 상기 프로세서로 전달하는 영상 처리 장치; 를 포함하는 동영상 속성을 이용한 감성 평가 장치.
  9. 제8항에 있어서,
    상기 영상 처리 장치에는 동영상 소스로부터의 동영상을 중간에서 캡쳐하는 영상 캡쳐 장치가 연결되는, 동영상 속성을 이용한 감성 평가 장치.
  10. 삭제
  11. 삭제
  12. 제8항에 있어서,
    상기 학습 데이터에 상기 영상 클립의 영상 속성과 함께 음향 속성이 포함되어, 상기 학습 데이터를 이용한 학습에 의해 얻어진 모델 파일은 상기 영상 속성과 음향 속성에 대해 훈련된 웨이트를 포함하는, 동영상 속성을 이용한 감성 평가 장치.
  13. 제12항에 있어서,
    상기 음향 속성은 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 장치.
  14. 제13항에 있어서,
    상기 톤은, 상기 음향 속성을 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 장치.
KR1020200013320A 2020-02-04 2020-02-04 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법 KR102347151B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200013320A KR102347151B1 (ko) 2020-02-04 2020-02-04 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200013320A KR102347151B1 (ko) 2020-02-04 2020-02-04 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210099445A KR20210099445A (ko) 2021-08-12
KR102347151B1 true KR102347151B1 (ko) 2022-01-04

Family

ID=77314618

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200013320A KR102347151B1 (ko) 2020-02-04 2020-02-04 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102347151B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383426B (zh) * 2023-05-30 2023-08-22 深圳大学 基于属性的视觉情感识别方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480669B1 (ko) 2014-03-24 2015-01-26 충남대학교산학협력단 얼굴 표정을 이용한 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100903348B1 (ko) * 2007-11-28 2009-06-23 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
KR20190007816A (ko) * 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480669B1 (ko) 2014-03-24 2015-01-26 충남대학교산학협력단 얼굴 표정을 이용한 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법

Also Published As

Publication number Publication date
KR20210099445A (ko) 2021-08-12

Similar Documents

Publication Publication Date Title
CN110267119B (zh) 视频精彩度的评价方法及相关设备
Jermsittiparsert et al. Pattern recognition and features selection for speech emotion recognition model using deep learning
CN111582397A (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN112861945B (zh) 一种多模态融合谎言检测方法
CN113748439A (zh) 电影的成功商数的预测
Joy et al. Speech emotion recognition using neural network and MLP classifier
Papakostas et al. Recognizing emotional states using speech information
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
KR102347151B1 (ko) 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
da Silva et al. Evaluation of a sliding window mechanism as DataAugmentation over emotion detection on speech
Behrouzi et al. Multimodal movie genre classification using recurrent neural network
Liu et al. Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism
Yu et al. Speaking style based apparent personality recognition
KR102321420B1 (ko) 음향 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
Muthumari et al. A novel model for emotion detection with multilayer perceptron neural network
Sergio et al. Scene2Wav: a deep convolutional sequence-to-conditional SampleRNN for emotional scene musicalization
Ferdiana et al. Cat sounds classification with convolutional neural network
CN112560811B (zh) 端到端的音视频抑郁症自动检测研究方法
Müller et al. A Deep and Recurrent Architecture for Primate Vocalization Classification.
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
Ajitha et al. Emotion Recognition in Speech Using MFCC and Classifiers
Goossens Deep learning approach to the influence of vocal behaviour on the decision-making process in the entrepreneurial context
CN117038055B (zh) 一种基于多专家模型的疼痛评估方法、系统、装置及介质
KR20220091163A (ko) 색상 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법
KR102564182B1 (ko) 인공지능 모델을 활용하여 영상 데이터 기반 얼굴 표정 영상 추출 및 이를 활용한 콘텐츠 생성 방법, 장치 및 시스템

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant