KR102347151B1

KR102347151B1 - 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Info

Publication number: KR102347151B1
Application number: KR1020200013320A
Authority: KR
Inventors: 황민철; 장징; 조아영
Original assignee: 상명대학교산학협력단
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2022-01-04
Also published as: KR20210099445A

Abstract

동영상의 속성 정보를 이용한 감성 평가 방법 및 장치에 대해 기술한다. 감성 평가 방법:은 음향을 포함하는 다수의 영상 클립을 감성 별로 분류하여 라벨링하는 단계; 상기 영상 클립으로부터 영상 속성을 추출하여 학습 데이터를 준비하는 단계; 상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 모델 파일을 생성하는 단계; 별도로 입력된 영상 데이터에 대해 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법에 의해 상기 입력 영상 데이터의 감성을 판단하는 단계;를 포함한다.

Description

색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법{emotion cognition method of video by using color attributes and apparatus adopting the method}

본 개시는 영상 속성을 이용한 감성 인식 방법 및 장치에 관한 것으로 상세하게는 동영상에 포함된 영상의 속성을 이용하여 동영상에 내재된 감성을 평가하는 방법에 관련된다.

최근 유튜브와 같은 미디어의 이용이 증가함에 따라 비디오와 같은 시청각 데이터의 중요성이 높아지고 있다. 특히 영상 클립과 같은 동영상은 시청자에게 이미지나 사운드만 제공하는 것보다 더 많은 정보를 제공할 수 있다 [1,2]. 그리고 비디오는 이미지나 사운드에 비해서 시청각 정보가 함께 주어지기 때문에 감성에 미치는 영향이 더 크다. 따라서 콘텐츠 크리에이터들은 비디오 형태의 콘텐츠를 적극 활용하고 있으며 대중의 공감을 얻기 위해 콘텐츠에 감성을 표현해왔다. 그러나 감성 콘텐츠의 중요성이 높아짐에도 불구하고 콘텐츠가 표현하고자 하는 감성이 어떠한 감성인지 인식하는 방법은 여전히 주관적으로 측정 된다. 보다 정확한 감성의 인식을 위해서도 객관적이고도 과학적인 방법의 접근이 필요하다.

Schaefer, Alexandre, Frιdιric Nils, Xavier Sanchez, and Pierre Philippot. "Assessing the effectiveness of a large database of emotion-eliciting films: A new tool for emotion researchers." Cognition and Emotion 24, no. 7 (2010): 1153-1172. Newhagen, John E., and Byron Reeves. "The evening's bad news: Effects of compelling negative television news images on memory." Journal of Communication 42, no. 2 (1992): 25-41. Mo, Shasha, Jianwei Niu, Yiming Su, and Sajal K. Das. "A novel feature set for video emotion recognition." Neurocomputing 291 (2018): 11-20 Multimedia Retrieval, Henk M. Blanken, Arjen P. de Vries, Henk Ernst

본 개시의 한 유형에 따르면, 동영상 콘텐츠에 내재된 감성을 객관적으로 평가할 수 있는 동영상 속성을 이용한 감성 평가 방법 및 이를 측정하는 장치가 제시된다.

하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법은,

다수의 영상 클립을 감성 별로 분류하여 라벨링하는 단계;

상기 영상 클립으로부터 영상 속성을 추출하여 학습 데이터를 준비하는 단계;

상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 모델 파일을 생성하는 단계;

별도로 입력된 비교 영상 데이터에 대해, 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법을 적용하여 상기 비교 영상 데이터의 감성을 판단하는 단계;를 포함할 수 있다.

하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서,

상기 모델은 MLP 모델일 수 있다.

상기 영상 속성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함할 수 있다.

하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서, 상기 학습 데이터는 준비하는 단계에서 상기 영상 클립의 영상 속성과 함께 음향 속성도 같이 추출될 수 있다.

하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 방법에서, 상기 음향 속성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.

상기 톤은 음향 신호를 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함할 수 있다.

하나 또는 그 이상의 실시 예에 따라 상기 방법을 수행하는 감성 평가 장치:는

상기 모델 파일을 저장하는 메모리;

입력 영상 데이터의 감성을 판단 감성 평가 앱이 실행되는 프로세서;

상기 입력 영상 데이터를 입력 받아 상기 프로세스로 전달하는 영상 처리 장치; 를 포함할 수 있다.

하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 장치에서,

상기 영상 처리 장치에는 동영상 소스로부터의 동영상을 중간에서 캡쳐 하는 영상 캡쳐 장치가 연결될 수 있다.

상기 모델은 MLP 모델일 수 있다.

하나 또는 그 이상의 실시 예에 따른 영상 속성을 이용한 감성 평가 시스템에서, 상기 학습 데이터에 상기 영상 클립의 영상 속성과 함께 음향 속성이 포함되어, 학습 데이터를 이용한 학습에 의해 얻어진 모델 파일은 상기 영상 속성과 음향 속성에 대해 훈련된 웨이트를 포함할 수 있다.

상기 음향 속성은 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.

상기 톤은, 상기 음향 신호를 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함할 수 있다.

도1은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정을 보인다.
도2는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 감성적 영상 DB 구축 과정을 보여 준다.
도3은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 영상 별 물리적 속성 추출 과정을 보여 준다.
도4는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 감성 연관 속성 추출 과정을 보여 준다.
도5는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 감성 예측을 위한 학습 및 검증 과정을 보여준다.
도6은 러셀의 Russell의 Valence-Arousal의 2차원 모델을 도시한다.
도7은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 형성하는 과정에서 MLP 모델의 9개 감성의 정확도 검증 방법은 교차검증(Cross-Validation) 결과를 보인다.
도8은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 감성 평가 모델을 적용하는 감성 평가 시스템의 개략적 블럭 다이어그램이다.
도9내지 도24는 영상 및 음향 속성 또는 특성에 대한 ANOVA 분석 결과를 보인다.
도25는 하나 또는 그 이상의 실시 예에 따라 훈련된 모델의 정확도와 손실 값의 계산 결과를 보인다.

이하, 첨부도면을 참조하여 본 발명 개념의 바람직한 실시 예들을 상세히 설명하기로 한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되어 지는 것으로 해석되어져서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되어 지는 것으로 해석되는 것이 바람직하다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명 개념은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.

제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.

본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "갖는다" 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.

어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.

이하에서 하나 또는 그 이상의 실시 예에 따라, 영상의 물리적 속성을 이용하여 해당 영상이 품고 있는 감성을 평가하는 방법 및 장치를 상세히 설명한다.

실시 예에 따른 방법은 도1에 도시된 바와 같이 아래의 5 단계를 포함하며, 이를 수행하는 장치는 이러한 방법을 수행하기 위한 하드웨어 및 소프트 웨어를 갖춘다.

단계 1:

이 과정에서는 학습을 위한 영상 클립을 수집하는 단계로서 다양한 영상 클립의 수집, 이에 대한 주관적 판단 및 이에 따른 라벨링이 수행된다.

단계 2 : 감성 별 영상 물리적 속성 추출

특정 감성으로 라벨링된 영상 클립으로부터 물리적 속성을 추출하는데, 여기에서는 영상 속성 및 이에 수반하는 것으로 본 실시 예에서 선택적 요소인 음향 속성 추출이 병행된다.

단계 3 : 감성 요인 연관 속성 도출

추출된 영상 속성을 분석하여 감성 요인에 연관된 속성을 학습 데이터로 도출한다. 여기에서, 단계 2에서 및 음향 속성이 선택적 요소 선택된 경우 상기 음향 속성에 대한 분석도 병행되며 그리고 학습 데이터에 포함된다.

단계 4 : 감성 예측을 위한 학습 및 인식 정확도 검증

이 과정에서는 상기 학습 데이터에 대해 합성곱 신경망 기법으로 훈련을 행하여 감성 평가 모델 파일(훈련 모델)을 생성한다. 여기에서 모델 파일은 머신 러닝을 통해 감성 평가를 위해 훈련된다. 이 훈련 모델에 의해 추정된 결과가 주관적 평가 결과와 비교하여 머신 러닝 결과의 정확도를 평가한다.

단계 5 : 훈련된 모델을 이용한 영상 감성 추론 시스템 적용 또는 구축

최종적으로 훈련된 모델(모델 파일)을 이용한 영상 컨텐츠의 감성 평과를 위한 시스템을 구축한다. 이 시스템은 본체, 키보드, 모니터 등을 포함하는 일반적인 컴퓨터 시스템을 기반으로 하며 여기에선 영상 입력을 위한 입력 장치가 포함될 수 있으며, 여기에는 영상 프로바이더와 디스플레이 또는 투사기의 중간에서 영상 컨텐츠를 캡쳐할 수 있는 동영상 캡쳐 보드를 구비할 수 있다.

상기와 같은 5단계는 아래와 같이 구체적으로 실시 될 수 있으며, 이를 통해 영상 컨텐츠의 물리적 속성에서 감성 요인을 도출하여 객관적이고 자동적인 콘텐츠 감성 인식이 가능한 기술을 확립하였다.

이를 위해 본 실험에서는 콘텐츠의 물리적 속성 중에서 감성 유발 요인이 될 수 있는 유효 변수를 통계적 방법으로 분석하고 머신러닝 기법을 적용하여 감성 예측 정확도를 검증하였다. 이하에서 실제 실험 과정을 각 단계로 상세히 설명한다.

가. 감성적 영상 (클립) 수집

이 단계는 도2에 도시된 바와 같이, 감성 영상 데이터베이스 구축. 즉 특정 감성을 내포하고 있는 다양한 감성의 영상 클립(video clip)를 다양한 영상 컨텐츠(video contents)로 부터 발췌 수집한다. 구체적으로 이 과정에서, 감성 영상 클립을 수집하고 주관평가를 통해 특정 감성을 표현하고 있다고 검증된 영상 클립만을 감성 별로 선별된다. 여기에서, 감성 영상 클립 수집 과정에서 8개의 감성 애니메이션 컨텐츠를 선택하였고 이를 이용하여 105개로 분리된 10초짜리 영상 클립을 얻었다. 수집된 영상 클립에서 표현하고 있는 감성이 어떠한 감성인지 검증하기 위해 8명의 감성 인식 전문가를 대상으로 주관평가를 실시하였다. 총 실험 시간은 40분으로 10초 영상 클립을 보여준 후 10초가 주관 평가하는 과정을 반복하였다.

해당 비디오의 감성에 대한 평가가 일관성이 있는지 확인하기 위하여 8명 모두 6번의 반복 평가를 수행하였다. 그 결과 개인의 반복 평가 결과가 6번 중에서 4번 이상 일치하고, 4번 이상 일치하는 결과를 보인 평가자가 8명 중에 6명 이상인 경우에만 해당 비디오가 특정 감성을 표현하고 있는 것으로 선별되었다. 즉 하나의 영상에 대한 48번 (8명*6번)의 감성 평가 결과 중에서 24번 (6명*4번)이상 일치하는 경우에만 감성 비디오로 선별되었다. 이렇게 선별된 78개의 영상 클립이 이 후 특징 추출에 사용되었다. 감성 평가에 대한 구체적인 방법과 점수 산정 근거에 대한 설명은 아래와 같다.

8명의 평가자들은 105개의 10초짜리 영상 클립에 대해 각각 영상에서 표현하는 감성이 9개 감성 중에서 어떤 감성에 가까운지 평가하였다. 본 실험에서 정의하는 9개 감성은 Russell의 Valence-Arousal의 2차원 모델을 근거로 [James, A. Russell, 1989] 불쾌-각성, 각성, 쾌-각성, 불쾌, 중립, 쾌, 불쾌-이완, 이완, 쾌-이완으로 정의하였다. Russell의 2차원 모델은 각성(Arousal) 수준과 긍정(Valence) 수준에 따라 9개 도메인으로 정의되며, 해당 도메인에 대한 감성은 도6에 도시된 바와 같다. 각 영상이 9개 감성 중에 어떤 감성에 해당되는지 구분하기 위하여 각성 수준과 긍정 수준에 대한 점수를 7점 리커트 척도로 평가하여 각 점수를 축에 매핑 했을 때 어떤 도메인에 해당하는지에 따라 영상의 감성이 구분되도록 하였다. 감성 별 점수의 기준은 구체적으로 다음과 같다:

1) 불쾌 각성: valence 점수가 -3점 또는 -2점이고, arousal 점수가 +2점 또는 +3점인 경우

2) 각성 : valence 점수가 -1점, 0점 또는 +1점이고, arousal 점수가 +2점 또는 +3점인 경우

3) 쾌각성 : valence 점수가 +2점 또는 +3점이고, arousal 점수가 +2점 또는 +3점인 경우

4) 불쾌 : valence 점수가 -3점 또는 -2점이고, arousal 점수가 -1점, 0점 또는 +1점인 경우

5) 중립 : valence 점수가 -1점, 0점 또는 +1점이고, arousal 점수가 -1점, 0점 또는 +1점인 경우

6) 쾌 : valence 점수가 +2점 또는 +3점이고, arousal 점수가 -1점, 0점 또는 +1점인 경우

7) 불쾌이완 : valence 점수가 -3점 또는 -2점이고, arousal 점수가 -3점 또는 -2점인 경우

8) 이완 : valence 점수가 +2점 또는 +3점이고, arousal 점수가 -3점 또는 -2점인 경우

9) 쾌이완 : valence 점수가 -1점, 0점 또는 +1점이고, arousal 점수가 -3점 또는 -2점인 경우

나. 영상의 물리적 속성 기반 특징 추출

이 단계는 도3에 도시된 바와 같이, 데이터베이스에 저장된 78개의 감성적 영상 클립에 대하여 각각 이미지 특징 10가지와, 소리 특징 14가지를 추출하는 단계이다. 여기에서 상기 소리 특징 14가지는 선택적 요소이며, 본 실시 예에서는 이를 선택하였다. 비디오가 포함하고 있는 시각적 및 선택적 요소인 청각적 물리 속성들 중에서 10가지의 색상 속성과 14가지의 소리의 속성은 다음과 같다.

색상 속성은 이미지가 포함하고 있는 색상 성분을 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow)의 각각의 색상 모델을 기반으로 추출했으며, 소리는 피치(frequency), 음량(power), 톤(MFCC;Mel-Frequency Cepstral Coefficients, 12 coefficient)을 추출했다. 본 실시 예에서는 상기 색상(영상) 속성 및 음향 속성을 공히 학습 데이터로 이용했으나 다른 실시 예에 따르면 어느 하나의 속성만을 학습 데이터로 이용될 수 있다. 이하에서는 색상 속성과 음향 속성을 공히 이용하는 실시 예가 설명된다.

다. 감성 요인 도출 단계

이 단계에서 도4에 도시된 바와 같이, 추출된 물리적 속성 중에서 감성 요인을 통계분석을 통해 도출하는 단계이다. 앞서 추출된 비디오의 24개 물리적 속성 기반 특징들을 9개 감성으로 구분하고 해당 감성의 주요 요인이 되는 유효 특징을 도출하기 위해 3개 이상의 감성 수준에 따라 차이를 분석하는 통계 기법인 ANOVA 분석을 실시하고 사후 검증을 했다.

도9내지 도24는 영상 및 음향 속성 또는 특성에 대한 ANOVA 분석 결과를 보인다. 위와 같은 통계 분석 결과, 유의확률(p-value) < 0.001 이하로 유의한 차이가 나는 유효 파라미터로서는 Gray, RGB, HSV, LAB, frequency, power, MFCC(Mel-frequency cepstral coefficients)의 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs)로 도출되었다.

라. 감성 예측을 위한 학습 및 인식 정확도 검증

이 단계는 도5에 도시된 바와 같이, 기계학습(machine learning)을 사용하여 앞서 도출된 감성 요인 특징 데이터 (학습 데이터)와 주관설문을 통해 수집된 9개 감성 라벨을 분류기(classifier)에 학습시키고 학습된 결과로 감성 인식 정확도를 도출하는 단계이다. 이 때 감성 학습을 위해 사용된 분류기는 MLP(Multi Layer Perceptron) 모델을 사용하였으며, 학습 결과로 얻어진 정확도는 95%로 나타났다. 본 실험에서는 가장 많이 사용되는 SVM(support vector machine), KNN(k-nearest　neighbor), MLP(multi- layer perceptron) 등의 분류기(classifier) 중에서 가장 정확도가 높은 모델인 MLP 모델을 사용하였다.

상기 MLP 계층 들은 다음과 같다.

1) 입력층 (Input Layer)

　본 실험에서 사용된 MLP 레이어의 입력층은 18개의 특징 데이터(raw data)와 9개의 감성 라벨(label)의 정보를 저장하는 다차원 텐서(tensor)이다. 이러한 텐서는 18개의 특징변수들을 저장하며, 18차원의 구조를 가진다.　

2) 은닉층 (Hidden Layer)

　다층 구조 신경망에서 입력층(input layer)과 출력층(output layer) 사이에 존재하는 층으로, 입력층으로부터 전달되는 변수 값들의 선형 결합(linear combination)을 비선형 함수로 처리하여 출력층 또는 다른 은닉층으로 전달한다. 다층 구조 신경망에서는 여러층의 은닉층을 둘 수 있으며, 은닉층에는 여러 개의 은닉 단위(hidden unit)를 둘 수 있다.

　3) 활성화 함수(Activation Function)

　활성화 함수는 ReLU(Rectified Linear Unit)로서 신경망에 비선형성을 부여한다.

4) 분류함수 계층

　분류에서 2 개 이상의 클래스가 있는 경우 분류함수, 예를 들어 소프트맥스(Softmax) 함수를 이용해 출력 레이어를 형성한다. 소프트맥스 함수는 클래스에 대한 이산확률분포를 예측하는 방법을 제공한다.

　MLP 모델의 훈련은 상기와 같은 구조의 모델에 대해 프로그래밍 기법에 의해 수행되며, 이 과정에서 역전파(Backpropagation)에 의한 출력층의 가중치 갱신(update)이 수행된다. 잘 알려진 바와 같이 역전파 알고리즘은 오차에 비례하여 출력층(Output layer)의 가중치(weight)를 갱신하고, 그 다음 은닉층(Hidden layer)의 가중치를 갱신한다. 위와 같은 모델에 대한 훈련이 완료되면, 목적하는 파일 형태의 훈련된 MLP 모델을 얻게 된다.

상기와 같은 MLP 모델의 9개 감성의 정확도 검증 방법은 교차검증(Cross-Validation)을 사용하여 확인하였으며, 도7은 그 결과를 보인다.

검증 결과 f1-score가 각 감성별로 높고, 각 감성별 차이가 없으므로 MLP 모델의 학습 결과가 좋은 것으로 나타났다.

이하 본 실험에서 사용된 MLP 감성 인식 모델에 대해 설명한다.

예측을 위한 모델의 생성을 위한 컴퓨터 언어로는 Python3을 선택했고, 예측 모델 생성에는 Keras를 선택했다. 아래는 소스 코드를 설명한다.

<소스 코드1>

소스코드 1은 입력 데이터셋을 로드하는 단계이다. 입력 데이터는 저장된 특징, 학습 데이터(training data)들이 로딩된다. X는 특징 변수(파라미터) 이고 y는 9개의 감성 label 있다. train_test_split를 사용하면 X, y 자동으로 학습 데이터(training data)와 테스트 데이터(test data)를 7:3로 나눴다.

<소스 코드2>

소스코드 2는 데이터 셋 정규화 단계이다. 수집된 데이터는 비대칭 데이터기 때문에 비대칭 데이터는 다수 클래스 데이터에서 일부만 사용하는 언더 샘플링이나 소수 클래스 데이터를 증가시키는 오버 샘플링을 사용하여 데이터 비율을 맞추면 정밀도(precision)가 향상된다. 그래서 RandomOverSampler는 데이터 비율을 맞추는 방법이이다. class_name는 9개 감성 그룹의 이름을 정의한다.

preprocessing.scale는 데이터는 표준화를 시키는 방법이다. 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다. 데이터 표준화한 후에 학습을 향상될 수 있다.

<소스 코드3>

소스코드 3은 MLP 모델을 구축하기 위해 필요한 하이퍼 파라미터들을 설정하는 단계이다. LayerInput은 입력 노드의 형태를 정의하는 파라미터이다. LayerOutput은 출력 노드의 개수를 정의하는 파라미터이다. Layer는 각 은닉층의 노드 개수를 정의하는 파라미터이다. 따라서 첫번째 은닉층(Layer1)은 256개의 노드가 입력층의 노드들과 연결되며, 두번째 은닉층(Layer2)에서는 512개의 노드가 첫번째 은닉층의 노드들과 연결된다. 마찬가지로 세번째, 네번째 은닉층에서는 각각 1024, 2048개의 노드들이 이전 은닉층과 연결된다.

fit_epochs는 에포크의 수 즉, 훈련의 총 반복 횟수를 정의하는 파라미터이다. fit_batch_size는 한 번 훈련할 때 사용되는 데이터 샘플의 크기를 설정하는 파라미터이다. 따라서 한 번의 훈련할 때 720개(LayerInput=18*40)의 데이터를 사용하여 훈련하며, 총 100 번(fit_epochs=100) 반복할 때까지 훈련을 수행한다.

<소스 코드4>

소스코드 4는 MLP 모델 구축 단계이다. keras.Sequential() 함수를 이용해 model을 초기화하고 model.add() 함수를 사용하여 4개의 은닉층(Layer1, Layer2, Layer3, Layer4)과 출력층(LayerOutput)을 모델에 추가한다.

Keras의 model.add() 함수에 입력된 input_dim 파라미터는 입력 데이터의 차원을 설정하는 파라미터로, input_dim=Layer Input은 입력층(LayerInput)의 차원크기(18차원)으로 설정되었음을 의미한다. kernel_initializer 파라미터가 "uniform"으로 설정된 것은 균등분포(uniform distribution) 형태의 학습 가중치(weight)를 사용한다는 것을 의미한다. activation 파라미터는 어떤 활성화 함수를 사용할지 설정하는 파라미터이다.

<소스 코드5>

소스코드 5는 모델의 훈련 파라미터를 설정하는 단계이다. model.compile() 함수에서 loss 파라미터는 손실함수를 정의하는 파라미터이다. loss= 'categorical_crossentropy', 이는 손실 값(=cost)을 다중 클래스에 관한 "crossentropy"로 측정하겠다는 의미이다. optimizer 파라미터는 손실 값을 줄이기 위해 사용할 최적화함수를 정의하는 파라미터이다. optimizer='adam', 이는 손실 값을 줄이고 local maximum에 다다르도록 가중치(weights) 값들을 조정할 때, adam이라는 기법을 사용한다는 의미이다. metrics 파라미터는 모델의 성능을 평가하기 위한 척도를 설정하는 파라미터이다. metrics=['accuracy'], 이는 정확도를 기준으로 모델의 성능을 평가를 하겠다는 것이다. 모델 성능 즉, 좋은 모델인지 아닌지 평가하는 기준에는 accuracy, precision, recall, f1-score 등이 있다.

<소스 코드6>

소스코드 6은 기 구축된 모델을 활용하여 감성을 인식하는 단계이다. model.fit() 함수를 사용하여 구축된 모델을 사용하여 데이터 훈련을 수행한다. 이 때 소스코드 3에서 설정한 훈련 반복횟수와 한 번 훈련 시에 사용되는 학습 데이터의 크기를 epochs와 batch_size 파라미터로 지정하여 훈련에 적용한다. validation_split 파라미터는 전체 데이터에서 학습 데이터(training data)로 사용될 데이터의 크기와 검증을 위한 테스트 데이터(test data)로 사용될 데이터의 크기의 비율을 설정하는 파라미터이다. validation_split=0.2는 학습 데이터의 비율을 80%, 테스트 데이터의 비율을 20%로 나누겠다는 의미이다.

pre_cls_train 객체는 model.predict_classes() 함수에 학습 데이터(X_train)를 파라미터로 입력하여 얻어진 학습 데이터의 결과이고 pre_cls_test 객체는 model.predict_classes() 함수에 테스트 데이터(X_test)를 파라미터로 입력하여 얻어진 테스트 데이터의 결과이다. 즉, pre_cls_train에는 학습 데이터가 분류된 감성의 라벨이 저장되며, pre_cls_test에는 테스트 데이터가 분류된 감성의 라벨이 저장된다. 이러한 출력 결과를 confusion_matrix()함수에 파라미터로 지정하여 모델이 인식한 결과(pre_cls_train 또는 pre_cls_test)가 실제 값(y_train, y_test)과 비교하였을 때 얼마나 정확한지 매트릭스(matrix) 형태로 시각화여 출력한다.

<소스 코드7>

소스 코드 7은 모델의 감성 인식 정확도를 검증하는 단계이다. model.evluate()함수를 사용하여 손실 값과 감성 인식 정확도를 계산한다. eval_train_loss는 학습 데이터의 손실 값이며, eval_train_acc는 학습 데이터의 정확도이다. 또한 eval_test_loss는 테스트 데이터의 손실 값이며, eval_test_acc는 테스트 데이터의 정확도이다. 도25는 정확도와 손실 값의 계산 결과를 보인다.

상기와 같은 과정을 거쳐 잘 훈련된 모델을 얻을 수 있으며, 따라서 이를 이용한 도8에 도시된 바와 같이 감성 평가 시스템의 구현이 가능하게 된다. 이러한 시스템은 제대로 만들어진 영상 컨텐츠에 전체 또는 국부적 각 장면 마다의 감성 평가가 가능할 것이다. 또한, 특정한 목적으로 촬영되는 영상에 대해서는 감성 평가가 가능할 것이며 이를 통해 촬영지의 감성적 현장 분위기의 판단이 가능할 것이다. 이러한 피검 대상 영상은 상기 모델을 적용하는 평가 시스템에 입력될 것인데, 전술한 바와 같이 영상 소스와 영상 표시기 또는 표시 매체의 사이에서 영상을 캡쳐할 수 도 있고, 아니면, 영상 자체를 상기 시스템에 직접 입력할 수 있다. 상기 영상 소스에는 컨텐츠 프로바이더, 카메라 등의 어떠한 영상 소스가 포함될 이다. 상기 평가 시스템은 영상 컨텐츠가 진행되는 동안 연속적으로 각 장면 단위 별로 감성의 평가를 수행 할 수 있다.

입력된 영상의 선택된 정보를 상기와 같이 훈련된 모델에 적용하여 해당 감성 상태를 확률적으로 판단된다. 입력된 영상의 이미지의 프레임 및 이에 대응하는 음향 정보로부터 얻은 각 유효 정보를 분류함수계층의 분류함수, 예를 들어 최종의 softmax 알고리즘을 통해 원하는 레이블(감성 상태)의 수 만큼의 요소를 가지는 벡터가 나온다. 이 벡터의 값 중에서 최대값이 특정 감성의 판단 기준이 되는 최종 예측 값이 되며, 이 벡터 값과 해당 영상의 레이블, 즉 감성 상태가 출력된다.

도8에 도시된 바와 같이, 본 개시에 따른 감성 평가 시스템은 상기 방법에 의해 얻어진 최종 모델 파일(훈련된 모델)을 저장하는 메모리; 판별 대상 영상 소스로 부터 비교 영상 데이터를 처리하는 영상 처리 장치; 감성 평가 앱을 로딩하여, 상기 영상 소스로부터 입력된 영상 데이터에 대해 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법을 거쳐 완전 연결층을 형성하고, 상기 완전 연결층에 대한 다중분류 활성함수를 이용해 상기 입력 영상의 정보를 담은 출력층(출력벡터)을 형성하는 프로세서; 상기 프로세서에 의한 상기 입력 영상의 감성 정보를 출력하는 디스플레이;를 포함할 수 있다.

이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims

다수의 감성적 영상 클립을 수집하고, 상기 영상 클립에 대해 주관적 평가를 수행하여 영상 클립의 물리적 속성에 따른 감성을 쾌, 불쾌, 각성, 이완 등의 감성으로 분류하고 해당 영상 클립을 라벨링하는 단계;
감성 별로 라벨링된 상기 영상 클립으로부터 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함하는 영상 속성을 추출하여 학습 데이터를 준비하는 단계;
상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 영상 데이터의 감성 평가를 위한 MLP 모델 파일을 생성하는 단계;
별도로 입력된 비교 영상 데이터에 대해 상기 MLP 모델파일을 적용한 합성곱 신경망 기법에 의해 상기 비교 영상 데이터에 내재된 감성을 상기 MLP 모델 파일에 기초해 판단하는 단계;를 포함하는 동영상 속성을 이용한 감성 평가 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 학습 데이터는 준비하는 단계에서 상기 영상 클립의 영상 속성과 함께 음향 속성도 같이 추출되는, 동영상 속성을 이용한 감성 평가 방법.
제5항에 있어서,
상기 음향 속성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 방법.
제6항에 있어서,
상기 톤은 음향 신호를 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 방법.
제1항에 기재된 방법을 수행하는 동영상 속성을 이용한 감성 평가 장치에 있어서,
상기 모델 파일을 저장하는 메모리;
별도로 입력된 비교 영상 데이터의 감성을 판단 감성 평가 앱이 실행되는 프로세서;
상기 비교 영상 데이터를 입력 받아 상기 프로세서로 전달하는 영상 처리 장치; 를 포함하는 동영상 속성을 이용한 감성 평가 장치.
제8항에 있어서,
상기 영상 처리 장치에는 동영상 소스로부터의 동영상을 중간에서 캡쳐하는 영상 캡쳐 장치가 연결되는, 동영상 속성을 이용한 감성 평가 장치.
삭제
삭제
제8항에 있어서,
상기 학습 데이터에 상기 영상 클립의 영상 속성과 함께 음향 속성이 포함되어, 상기 학습 데이터를 이용한 학습에 의해 얻어진 모델 파일은 상기 영상 속성과 음향 속성에 대해 훈련된 웨이트를 포함하는, 동영상 속성을 이용한 감성 평가 장치.
제12항에 있어서,
상기 음향 속성은 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 장치.
제13항에 있어서,
상기 톤은, 상기 음향 속성을 세그먼트화한 f2(pause rate), f4(dynamic range of STE (Short Time Energy)), f5(maximum values of STE), f6(average values of MFCCs), f7(dynamic range of pitch), f10(maximum values of MFCCs) 중 적어도 어느 하나를 포함하는 동영상 속성을 이용한 감성 평가 장치.