KR20220091165A - 음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법 - Google Patents

음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법 Download PDF

Info

Publication number
KR20220091165A
KR20220091165A KR1020200182429A KR20200182429A KR20220091165A KR 20220091165 A KR20220091165 A KR 20220091165A KR 1020200182429 A KR1020200182429 A KR 1020200182429A KR 20200182429 A KR20200182429 A KR 20200182429A KR 20220091165 A KR20220091165 A KR 20220091165A
Authority
KR
South Korea
Prior art keywords
empathy
image
video
data
evaluation
Prior art date
Application number
KR1020200182429A
Other languages
English (en)
Inventor
장징
황민철
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020200182429A priority Critical patent/KR20220091165A/ko
Publication of KR20220091165A publication Critical patent/KR20220091165A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Neurosurgery (AREA)
  • Analytical Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)

Abstract

동영상의 속성 정보를 이용한 공감 평가 방법 및 장치에 대해 기술한다. 공감 평가 방법:은 음향을 포함하는 다수의 영상 클립을 공감 별로 분류하여 라벨링하는 단계; 상기 영상 클립으로부터 음향 특성을 추출하여 학습 데이터를 준비하는 단계; 상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 모델 파일을 생성하는 단계; 별도로 입력된 음향 데이터에 대해 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법에 의해 상기 입력 음향 데이터의 공감을 판단하는 단계;를 포함한다.

Description

음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법{empathy evaluation method of advertising video by using sound physical elements and apparatus adopting the method}
본 개시는 영상 클립의 음향 속성을 이용한 공감도 평가 방법 및 장치에 관한 것으로 상세하게는 광고 영상에 포함된 음향의 속성을 이용하여 동영상에 대한 공감 여부를 평가하는 방법에 관련된다.
영상 컨텐츠에서 영상 속 음향은 듣는 이의 긴장을 완화시키거나 슬픈 감정을 느끼게도 한다. 이러한 음향은 인간의 감정과 지각, 상상력 등에 민감하게 영향을 끼친다. 따라서 영상 컨텐츠의 제작자, 예를 들어 광고 디자이너는 인간에게 미치는 음향의 물리적 속성을 이해하는 것이 중요하다.
광고 영상은 인터넷, 공중파, 케이블 등의 다양한 매체를 통해 시청자에게 다양한 제품에 대한 정보를 제공한다. 다양한 매체를 통해 제공되는 영상 광고는 시청자의 관심을 유도하고, 이러한 공감을 통해 상품의 구매력을 증대 시킨다.
광고영상 디자이너는 영상을 디자인할 때, 이러한 시청자의 공감에 목표를 두가 영상 컨텐츠를 제작한다. 이러한 영상광고 등의 영상 콘텐츠에 대한 시청자의 공감 여부, 즉 공감(empathy) 또는 비공감(non-empathy)의 판단 또는 평가는 개개인의 주관적인 평가에 의존한다. 성공적인 광고 영상의 제작을 위해서는 객관적이고도 과학적인 접근 또는 평가 방법이 요구된다.
시청자에게 크게 공감되는 광고 영상의 제작을 위해서는 객관적이고도 과학적인 접근 또는 평가 방법이 요구된다.
Miu, A. C., and Baltes, F. R. (2012). Empathy manipulation impacts music-induced emotions: A psychophysiological study on opera. PloS one, 7(1), e30618. Balte Escalas, J. E., and Stern, B. B. (2003). Sympathy and empathy: Emotional responses to advertising dramas. Journal of Consumer Research, 29(4), 566-578. Tokaji, A. (2003). Research for d eterminant factors and features of emotional responses of "kandoh"(the state of being emotionally moved). Japanese Psychological Research, 45(4), 235-249. J.W. Picone, Signal modeling techniques in speech recognition. Proc. IEEE 81, 1215-1247 (1993)
본 개시의 한 유형에 따르면, 동영상(video)의 물리적 특성을 이용하여 동영상에 내재된 감성에 대해 객관적이고 과학적인 공감도를 평가할 수 있는 평가 방법 및 이를 측정하는 장치가 제시된다.
본 개시의 한 유형에 따르면, 동영상의 음향 특성을 이용하여 객관적 공감도를 평가하는 방법 및 이를 측정하는 장치가 제시된다.
본 개시에 따르면, 음향 특성과 함께 시선 추적에 따른 영상 특성을 이용하여 동영상에 대한 객관적 공감도 평가 방법 및 이를 측정하는 장치가 제시된다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법은,
수집된 영상 클립에서 음향 데이터를 추출하는 단계;
상기 음향 데이터로부터 주파수 영역의 음향 특성을 추출하는 단계;
상기 주파수 영역부터 파워 스펙트럼을 추출하는 단계;
상기 스펙트럼으로부터 주파수가 다른 다수의 복수 밴드의 주파수 성분을 추출하는 단계;
상기 복수 밴드의 신호에 개별 색상을 적용하여 RGB 영상 데이터로 변환하여 학습 데이터로 저장하는 단계;
상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 모델 파일을 생성하는 단계;
별도로 입력된 비교 영상으로부터 추출된 비교 음향 데이터에 대해, 상기 모델 파일의 훈련된 웨이트를 이용한 합성곱 신경망 기법을 적용하여 상기 비교 영상의 공감 여부를 판단하는 단계;를 포함할 수 있다.
하나 또는 그 이상의 실시 예는,
상기 파워 스펙트럼으로부터 주파수가 다른 다수의 복수 밴드의 주파수 성분을 추출하는 단계에서 삼각 필터를 적용하며, 복수 밴드의 주파수 성분에 대해 DCT(Discrete Cosine Transform)을 적용할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 톤은 저주파 스펙트럼 평균값과 표준편차, 중간 주파 스펙트럼 평균값, 고주파 스펙트럼 평균값과 표준편차 중 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서,
상기 영상 클립의 영상 특성을 학습 대상 영상으로 추출하는 단계;
추출된 영상 특성을 학습 데이터로 이용하여 훈련된 웨이트를 포함하는 음향 특성 모델 파일을 생성하는 단계; 그리고
별도로 입력된 음향 데이터를 이용한 합성곱 신경망 기법에 의해 상기 입력 음향 데이터의 공감을 판단하는 단계:가 더 포함될 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서,
상기 영상 클립에서 ROI (region of interest) 영상을 추출하고 ROI 영상의 영상 특성을 추출하여 학습 데이터를 준비하는 단계;
상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 영상 특성 모델 파일을 생성하는 단계;를 더 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 학습 대상 영상을 추출하는 단계:는
상기 광고 영상을 영상 디스플레이를 통해 상기 시청자에게 상기 광고 영상을 제시하는 단계;
상기 영상 디스플레이에 대한 상기 시청자의 시선을 추적하는 단계; 그리고
상기 영상 디스플레이에 대한 상기 시청자의 시선이 향하는 관심 영역(ROI)의 ROI 영상을 추출하여 임의 크기의 학습 대상 영상으로 저장하는 단계;를 포함한다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 ROI 영상을 추출하는 단계에서, 상기 시청자의 시선이 향하는 상기 영상 디스플레이에서의 좌표(x, y)를 추출하고, 그리고
상기 좌표가 포함되는 소정 크기의 ROI 영역을 선정하여 이 영역에 대응하는 ROI 영상을 상기 광고 영상에서 연속 추출한다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 모델은 K-NN 모델일 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 영상 특성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 학습 데이터는 준비하는 단계에서 상기 ROI 영상의 영상 특성과 함께 음향 특성도 같이 추출될 수 있다.
하나 또는 그 이상의 실시 예에 따라 상기 방법을 수행하는 공감 평가 장치:는
상기 모델 파일을 저장하는 메모리;
비교 대상인 입력 영상 데이터의 공감을 판단 공감 평가 프로그램이 실행되는 프로세서;
상기 입력 영상 데이터를 입력 받아 상기 프로세스로 전달하는 영상 처리 장치; 를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 장치에서,
상기 영상 처리 장치에는 동영상 소스로부터의 동영상을 중간에서 캡쳐 하는 영상 캡쳐 장치가 연결될 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 장치에서, 상기 모델 파일은 K-NN 모델을 적용할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 장치에서,
상기 영상 특성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 시스템에서, 상기 학습 데이터에 상기 ROI 영상의 영상 특성과 함께 음향 특성이 포함되어, 학습 데이터를 이용한 학습에 의해 얻어진 모델 파일은 상기 영상 특성과 음향 특성에 대해 훈련된 웨이트를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 음향 특성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 장치에서, 상기 톤은 저주파 스펙트럼 평균값과 표준편차, 중간 주파 스펙트럼 평균값, 고주파 스펙트럼 평균값과 표준편차 중 적어도 어느 하나를 포함할 수 있다.
도1은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정을 보인다.
도2는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정에서 공감적 영상 DB 구축 과정을 보여 준다.
도3은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정에서 시선 추적 데이터 이용해서 관심 영역 영상 DB 구축 과정을 보여 준다.
도4a는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정에서 영상 별 물리적 속성 추출 과정을 보여 준다.
도4b는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정에서 음향 특성 추출 과정을 보여 준다.
도5는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정에서 공감 연관 속성 추출 과정을 보여 준다.
도6는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 형성하는 과정에서 공감 예측을 위한 학습 및 검증 과정을 보여준다.
도7은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 전체 영상에 관심 영역을 추출 과정을 보여준다.
도8a, 8b는 하나 또는 그 이상의 실시 예에 따라 수집된 영상 클립 및 이로 부터 추출된 ROI 영상들을 예시한다.
도9은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 공감 영상 자극(stimuli)에 대한 공감도 관한 주관평가 평균값 결과를 보인다.
도10은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 비 공감 영상 자극에 대한 공감도 관한 주관평가 평균값 결과를 보인다.
도11은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 이미지 변수들이 상관관계 지수를 보인다.
도12는 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델에 이미지 유의한 변수들이 비공감과 공감 광고 두 그룹에 대한 평균값과 표준편차를 도시한다.
도13a는 하나 또는 그 이상의 실시 예에 따른 원형(raw) 음향 데이터의 파형도이다.
도13b는 도13a의 도시된 음향 데이터에 대한 노이즈 제거 후의 파형도이다.
도14a는 노이즈가 제거된 음향 데이터에 대한 FFT 과정을 거친 원형 주파수스펙트럼을 보인다.
도14b는 시간 도메인과 시간 도멘인에 대한 주파수 도메인의 관계를 보이는 그래프이다.
도15은 하나 또는 그 이상의 실시 예에 따라 음향 데이터에 대한 FFT 처리결과를 보이는 스펙트럼을 도시한다.
도16은 하나 또는 그 이상의 실시 예에 적용되는 것으로 달팽이관이 감지하는 진동수를 기반으로 만든 삼각 필터를 예시한다.
도17은 삼각 필터를 거친 mel 스펙트럼을 예시한다.
도18은 이산 코사인 변화(discrete cosine transform, DCT)은 서로 다른 주파수에서 진동하는 코사인 함수의 합이라는 관점에서 데이터 점의 유한 시퀀스를 표현한다. 본 음향 신호 DCT 적용한 후에 나온 결과를 보인다.
도19은 영상 특성 회색(gray) 에 대한 T-test 분석 결과로서 낮은 공감 및 높은 공감에 대한 평균 및 표준편차를 비교해 보인다.
도20는 영상 특성 색조(hue) 에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도21는 영상 특성 포화(saturation) 에 대한 T-test 분석 결과로서 낮은 공감 및 높은 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도22은 영상 특성 알파(alpha) 에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도23은 영상 특성 베타(beta) 에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도24은 음량 특성 저주파 스펙트럼 평균값에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도25는 음량 특성 저주파 스펙트럼 표준편차에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도26은 음량 특성 미더 주파 스펙트럼 평균값에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도27은 음량 특성 고주파 스펙트럼 평균값에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도28는 음량 특성 고주파 스펙트럼 표준편차에 대한 T-test 분석 결과로서 비공감 및 공감에 대한 두 평균의 차이 및 표준편차를 비교해 보인다.
도29은 하나 또는 그 이상의 실시 예에 따라 영상 특성 기반 공감 평가 모델을 적용하는 공감 평가 시스템의 개략적 블록다이어그램이다.
이하, 첨부도면을 참조하여 본 발명 개념의 바람직한 실시 예들을 상세히 설명하기로 한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되어 지는 것으로 해석되어져서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되는 것으로 해석되는 것이 바람직하다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명 개념은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.
제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함한다” 또는 “갖는다” 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.
어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
이하에서 하나 또는 그 이상의 실시 예에 따라, 영상의 물리적 속성을 이용하여 해당 영상이 품고 있는 공감을 평가하는 방법 및 장치를 상세히 설명한다.
실시 예에 따른 방법은 도1에 도시된 바와 같이 아래의 5 단계를 포함하며, 이를 수행하는 장치는 이러한 방법을 수행하기 위한 하드웨어 및 소프트 웨어를 갖춘다.
단계 1 : 영상 클립 수집
이 과정에서는 머신 러닝을 위한 다양한 영상 클립을 수집하는 단계로서 다양한 경로를 통해 다양한 광고 영상의 수집이 이루어 지며, 이 과정에서 각 광고 영상에 대한 다수 시청자들에 의한 주관적 판단 및 이에 따른 공감 또는 비공감 라벨링이 수행된다.
단계 2 : ROI 영상 DB 구축
디스플레이에 표시되는 영상 클립에서, 디스플레이를 바라 보는 시청자의 시선 추적을 통해 시청자 영상 클립에서 대한 관심 영역(region of interest)을 인식하고 이에 대응하는 ROI 영상을 추출하여, 이를 머신러닝용 학습 데이터를 추출하기 위한 ROI 영상 데이터베이스(DB)를 구축한다.
단계 3 : 공감 요인 연관 속성 도출
이 과정에서 ROI 영상의 이미지 속성이 분석되며, 본 실시 예에 따라 음향 특성도 분석하여 공감 요인에 연관된 속성을 학습 데이터로 도출하여 저장한다. 여기에서, 음향 특성인 선택적 요소이며, 이를 통해 보다 향상된 공감 판단이 가능하게 된다.
단계 4 : 공감 예측을 위한 학습 및 인식 정확도 검증
이 과정에서는 상기 학습 데이터에 대해 합성곱 신경망 기법으로 훈련을 행하여 공감 평가 모델 파일(훈련 모델)을 생성한다. 여기에서 모델 파일은 머신 러닝을 통해 공감 평가를 위해 훈련된다. 이 훈련 모델에 의해 추정된 결과가 주관적 평가 결과와 비교하여 머신 러닝 결과의 정확도가 평가될 수 있다.
단계 5 : 훈련된 모델을 이용한 영상 공감 추론 시스템 적용 또는 구축
최종적으로 훈련된 모델(모델 파일)을 이용한 영상 컨텐츠의 공감 평가를 위한 시스템을 구축한다. 이 시스템은 본체, 키보드, 모니터 등을 포함하는 일반적인 컴퓨터 시스템을 기반으로 하며 여기에선 공감 판단을 위한 비교 영상 입력을 위한 입력 장치가 포함될 수 있으며, 여기에는 영상 프로바이더와 디스플레이 또는 투사기의 중간에서 영상 컨텐츠를 캡쳐할 수 있는 동영상 캡쳐 보드를 구비할 수 있다.
상기와 같은 5단계는 아래와 같이 구체적으로 실시 될 수 있으며, 이를 통해 영상 컨텐츠의 물리적 속성에서 공감 요인을 도출하여 객관적이고 자동적인 콘텐츠 공감 인식이 가능한 기술이 확립될 수 있다.
이를 위해 본 실험에서는 영상 콘텐츠의 물리적 속성 중에서 공감 유발 요인이 될 수 있는 유효 변수를 통계적 방법으로 분석하고 머신러닝 기법을 적용하여 공감 예측 정확도를 검증하였다. 이하에서 실제 실험 과정을 각 단계로 상세히 설명한다.
가. 공감적 영상 클립 수집
이 단계는 도2에 도시된 바와 같이, 공감 영상 데이터베이스 구축. 즉 특정 공감을 내포하고 있는 것으로 광고 영상을 포함하는 다양한 동영상 클립(video clip)을 다양한 동영상 컨텐츠(video contents)로 부터 발췌 수집한다.
나. ROI 영상 추출
이 과정에서, 수집된 영상 클립으로부터 관심 영역 ROI 영상이 추출된다. 도7에 예시적으로 도시된 바와 같이, 영상 클립이 프레임 단위로 디스플레이에 표시(왼쪽)되고, 다양하게 형태로 공지된 시선 추적 방법(eye tracking method)에 의해 이를 시청하는 시청자의 시선이 추적된다. 공지된 시선 추적 방법에 따른 시선 추적 과정을 통해서 디스플레이에 대한 시선 위치 좌표(x, y)가 검출하고, 이 좌표가 포함되는 소정 크기 ROI 영상, 도7의 왼쪽 영상에서의 적색 박스로 표시된 바와 같이, 예를 들어 100x100 픽셀 크기의 ROI 영상을 상기 시선 위치 좌표(x, y)를 이용해 영상 클립으로부터 시순차적으로 연속 추출한다.
이러한 과정은 수집된 모든 영상 클립에 대해 수행되는데, 도8a은 수집된 영상 클립을 예시하며, 도8b는 상기 영상 클립들로부터 추출된 ROI 영상들을 예시한다.
이 과정에서 영상 클립에 대한 주관평가를 통해 특정 공감을 표현하고 있다고 검증된 영상에 대해서 수행된다.
주관평가 분석 방법에서, 본 실시예에서는: 도9및 도10에 도시한 바와 같이, 24개의 영상 클립 (자극)에서 1-12번 자극은 공감 자극으로 정의하고 13-24번 자극은 비 공감자극을 정의를 했다. 주관평가 척도는 "매우 그렇지 않다"에서 부터 "매우 그렇다"에 까지의 7척도를 적용하였다.
이러한, 주관적 평가에 5가지 공감도(감성적 공감도, 인식적 공감도, 동일시 공감도, 전체적인 공감도, 직관적 공감도) 점수를 평균값을 구해서 도9,10를 보인다.
다. 영상의 물리적 속성 기반 특징 추출
이 단계에서는, 도4에 도시된 바와 같이, ROI 영상 DB에 저장된 12개의 공감적 영상 클립에 대하여 각각 이미지 특징 10가지와, 소리 특징 18가지를 추출하는 단계이다. 여기에서 상기 소리 특징 18가지는 선택적 요소이며, 본 실시 예에서는 이를 선택하였다. 비디오가 포함하고 있는 시각적 및 선택적 요소인 청각적 물리 속성들 중에서 10가지의 색상 속성과 18가지의 음향의 속성은 다음과 같다.
색상 속성은 이미지가 포함하고 있는 색상 성분을 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow)의 각각의 색상 모델을 기반으로 추출했으며, 음향 특성으로서는 저주파 스펙트럼 평균값과 표준편차, 중간 주파 스펙트럼 평균값, 고주파 스펙트럼 평균값과 표준편차를 추출하였으며, 이 중 적어도 어느 하나를 사용하였다.
도4를 참조하면 음향 변수 추출 과정을 좀 더 살펴보면 다음과 같다.
음향 변수를 추출함에 있어서, 단순히 주파수를 형상 벡터로 사용하는 것보다 달팽이관의 특성에 맞는 형상을 선택하는 것이 더 효과적일 것이다.
1) 샘플링 단계
첫 번째 단계에서, 광고 등의 영상 클립의 오디오 파트(파일)에서 MFCC를 사용하여 소정의 샘플링 레이트로 스펙트로그램을 추출한다. 예를 들어 샘플링 속도 = 20~40ms, 해밍 창의 폭은 4.15s이고, 슬라이딩 크기는 50ms이며, dB 전력 눈금에서 출력 스펙트럼 밀도를 계산한다. 스펙트럼의 중간 크기(intermediate size)스펙트럼의 중간 크기가 371 × 501 픽셀이다)가 371 × 501 픽셀이다.
2) 주파수 스펙트럼 균형화(노이즈 제거).
이 단계에서 주파수 스펙트럼의 균형을 맞춘다. 이 단계는 고주파를 증폭시키기 위해 신호에 사전 강조 필터(Pre-emphasizing filter)를 적용하는 것이다. 사전 강조 필터는 고주파수(high frequency)의 크기(intensity)가 저주파수(low frequency)의 크기에 비해 작기 때문에 주파수 스펙트럼의 균형을 맞추다. 여기에는 다음 식에서와 같은 1차 필터를 신호 x에 적용할 수 있다.
y(t)=x(t)-αx(t-1)
본 실시 예에서 필터 계수(α)에 대한 일반적인 값이 0.95 또는 0.97이다. 도13a, 13b는 그 전후의 결과를 보인다.
3) NN-point FFT 계산.
이제 각 프레임에 NN 포인트 FFT를 실시하여 주파수 스펙트럼(STFT: Short-Time Fourier-Transform)을 계산한다. 여기서 NN (number of segments)은 일반적으로 256 또는 512, NFFT (FFT의 세그멘트 수)= 512, 그리고 다음 방정식을 이용하여 파워 스펙트럼을 계산할 수 있다. 도 15는 이 과정을 실행한 후에 나온 결과를 보인다.
Figure pat00001
xi는 x신호의 i번째 frame이며, N은 256 이다.
4) 삼각 필터를 파워 스펙트럼에 적용
필터 뱅크 계산의 마지막 단계는 삼각 필터(Triangular Mel-weighted Filter Bank, 일반적으로 40개 필터, n 필터 = 40개)를 파워 스펙트럼에 적용하여 주파수 대역을 추출하는 것이다. 멜 스케일(mel Scale)은 낮은 주파수에서는 더 차별적이고 더 높은 주파수에서는 덜 차별적이 됨으로써 소리의 비선형적인 인간의 귀 인식을 모방하는 것을 목표로 한다. 우리는 다음 방정식을 사용하여 헤르츠(f)와 멜(m) 사이를 전환할 수 있다. 도 17는 이 과정을 적용해서 나온 결과를 보인다.
Figure pat00002
Figure pat00003
5) DCT(Discrete Cosine Transform)을 적용
따라서 필터 뱅크 계수를 장식하고 필터 뱅크를 압축적으로 표현하기 위해 이산 코사인 변환(DCT)을 적용할 수 있다. 도 18는 이 과정을 적용한 결과를 보인다.
6) 주파수 스펙트럼의 RGB 영상(images) 변환(계산)
3가지 주파수 척도(scale)의 스펙트럼 표현은 각각 고음, 중음, 저주파 특성의 효과를 관찰할 수 있도록 RGB 영상으로 변환하였다. 예를 들어 음성 주파수 대역에서 고주파 밴드(high frequency band, 15,000~22,500Hz)에는 적색, 중간 주파수 밴드(middle frequency band, 7,500 Hz~15,000 Hz)에는 녹색, 저주파 밴드(low frequency band, 0~7,500 hz)에는 파란색을 적용하여 RGB 영상을 생성 또는 추출한다.
RGB 영상에서 빨간색(R), 녹색(G) 또는 파란색(B) 구성 요소를 사용하여, 각각 높은 진폭, 중간, 낮은 진폭 수준을 가진 소리 구성 요소의 중요성이 음향 특성으로서 계산된다.
하나 또는 그 이상의 실시 예에 따른 영상 특성을 이용한 공감 평가 방법에서, 상기 음향 특성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함할 수 있다.
본 실시 예에서는 상기 색상(영상) 속성 및 음향 특성을 공히 학습 데이터로 이용했으나 다른 실시 예에 따르면 어느 하나의 속성만을 학습 데이터로 이용될 수 있다. 이하에서는 색상 속성과 음향 특성을 공히 이용하는 실시 예가 설명된다.
라. 공감 요인 도출 단계
이 단계에서 도5에 도시된 바와 같이, 추출된 물리적 속성 중에서 공감 요인을 통계분석을 통해 도출하는 단계이다. 앞서 추출된 비디오의 11개 물리적 속성 기반 특징들을 9개 공감으로 구분하고 해당 공감의 주요 요인이 되는 유효 특징을 도출하기 위해 3개 이상의 공감 수준에 따라 차이를 분석하는 통계 기법인 T-test 분석을 실시하고 사후 검증을 수행하였다.
도11내지 도17는 영상 및 음향 특성(특성)에 대한 T-test 분석 결과를 보인다. 위와 같은 통계 분석 결과, 유의확률(p-value) < 0.001 이하로 유의한 차이가 나는 유효 파라미터로서는 Gray, Hue, Saturation, Alpha, Beta, Low power mean, Low power, Middle power mean, High power mean, High power std로 도출되었다.
라. 공감 예측을 위한 학습 및 인식 정확도 검증
이 단계는 도6에 도시된 바와 같이, 기계학습(machine learning)을 사용하여 앞서 도출된 공감 요인 특징 데이터 (학습 데이터)와 주관설문을 통해 수집된 9개 공감 라벨을 분류기(classifier)에 학습시키고 학습된 결과로 공감 인식 정확도를 도출하는 단계이다.
본 실시 예에서 공감 학습을 위해 사용된 분류기는 K-NN(K-Nearest Neighbor) 모델이 사용되었으며, 학습 결과로 얻어진 정확도는 93.66%로 나타났다. 본 실험에서는 가장 많이 사용되는 SVM(support vector machine), KNN(k-nearest Neighbor), MLP(multi- layer perceptron) 등의 분류기(classifier) 가 테스트 되었고, 본 실시 예를 통하여 K-NN 모델이 가장 높은 정확도를 보였다.
상기 K-NN 모델의 계층 들은 다음과 같다.
1) 입력층 (Input Layer)
본 실험에서 사용된 K-NN 레이어의 입력층은 11개의 특징 데이터(raw data)와 2개의 공감 라벨(label)의 정보를 저장하는 다차원 텐서(tensor)이다. 이러한 텐서는 11개의 특징변수들을 저장하며, 11차원의 구조를 가진다.?
2) 거리척도의 단위문제 - 표준화
K를 정하기 전에 선행되어야 하는 작업이 있다. 바로 표준화.
K-NN에서 가깝다는 개념은 유클리드 거리(Euclidean Distance)로 정의하는데, 유클리드 거리를 계산할 때는 단위가 매우 중요하다.
서로 다른 좌표(x, y)를 가지는 두 포인트 A, B 간의 유클리드의 거리는 아래와 같이 계산한다.
Figure pat00004
3) 최적의 k 찾기
Train Data를 기준으로 Validation Data를 잘 분류하는 k가 얼마인지 확인해서 정하면 된다.
K-NN 모델의 훈련은 상기와 같은 구조의 모델에 대해 프로그래밍 기법에 의해 수행되며, 이 과정에서 K-NN에서 가깝다는 개념은 유클리드 거리(Euclidean Distance)로 정의하는데, 유클리드 거리를 계산할 때는 표준화를 시키고 Train Data를 기준으로 Validation Data를 잘 분류하는 k가 얼마인지 확인해서 정하면 된다. 훈련된 모델이 pickle형태 파일로 생성한다. 위와 같은 모델에 대한 훈련이 완료되면, 목적하는 파일 형태의 훈련된 K-NN 모델을 얻게 된다.
이하 본 실험에서 사용된 K-NN 공감 인식 모델에 대해 설명한다.
예측을 위한 모델의 생성을 위한 컴퓨터 언어로는 Python3을 선택했고, 아래는 소스 코드를 설명한다.
<소스 코드1>
Figure pat00005
소스코드 1은 입력 데이터 셋을 로드하는 단계이다. 입력 데이터는 저장된 특징, 학습 데이터(training data)들이 로딩된다. X는 특징 변수(파라미터) 이고 y는 9개의 공감 label 있다. train_test_split를 사용하면 X, y 자동으로 학습 데이터(training data)와 테스트 데이터(test data)를 7:3로 나눴다.
<소스 코드2>
Figure pat00006
소스코드 2는 데이터 셋 정규화 단계이다. 수집된 데이터는 비대칭 데이터이기 때문에 비대칭 데이터는 다수 클래스 데이터에서 일부만 사용하는 언더 샘플링이나 소수 클래스 데이터를 증가시키는 오버 샘플링을 사용하여 데이터 비율을 맞추면 정밀도(precision)가 향상된다. 그래서 RandomOverSampler는 데이터 비율을 맞추는 방법이다. class_name은 2개 공감 그룹의 이름을 정의한다.
preprocessing.scale은 데이터를 표준화를 시키는 preprocessing 객체(오브젝트)의 메소드이다. 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다. 데이터 표준화한 후에 학습을 향상될 수 있다.
<소스 코드3>
Figure pat00007
소스코드 3은 Train Data를 기준으로 Validation Data를 잘 분류하는 k가 1부터 5까지 train accuracy, test accuracy, estimates 점수 계산한다. 그 중에 제일 높은 정확도에 해당 k 값이 찾았다.
<소스 코드4>
Figure pat00008
소스코드 4는 모델 성능을 하는 것으로 좋은 모델인지 아닌지 평가하며, 그 기준에는 accuracy, precision, recall, f1-score 등이 있다.
상기와 같은 과정을 거쳐 잘 훈련된 모델을 얻을 수 있으며, 따라서 이를 이용한 도24에 도시된 바와 같이 공감 평가 시스템의 구현이 가능하게 된다. 이러한 시스템은 제대로 만들어진 영상 컨텐츠에 전체 또는 국부적 각 장면마다의 공감 평가가 가능할 것이다. 또한, 특정한 목적으로 촬영되는 영상에 대해서는 공감 평가가 가능할 것이며 이를 통해 촬영지의 공감적 현장 분위기의 판단이 가능할 것이다. 이러한 피검 대상 영상은 상기 모델을 적용하는 평가 시스템에 입력될 것인데, 전술한 바와 같이 영상 소스와 영상 표시기 또는 표시 매체의 사이에서 영상을 캡쳐 할 수 도 있고, 아니면, 영상 자체를 상기 시스템에 직접 입력할 수 있다.
상기 영상 소스에는 컨텐츠 프로바이더, 카메라 등의 어떠한 영상 소스가 포함될 수 있다. 상기 평가 시스템은 영상 컨텐츠가 진행되는 동안 연속적으로 각 장면 단위 별로 공감의 평가를 수행 할 수 있다.
입력된 영상의 선택된 정보를 상기와 같이 훈련된 모델에 적용하여 해당 공감 상태를 확률적으로 판단된다. 입력된 영상의 이미지의 프레임 및 이에 대응하는 음향 정보로부터 얻은 각 유효 정보를 분류함수계층의 분류함수, 예를 들어 최종의 softmax 알고리즘을 통해 원하는 레이블(공감 상태)의 수만큼의 요소를 가지는 벡터가 나온다. 이 벡터의 값 중에서 최대값이 특정 공감의 판단 기준이 되는 최종 예측 값이 되며, 이 벡터 값과 해당 영상의 레이블, 즉 공감 상태가 출력된다.
본 실시 예에 따르면 영상 클립에서 추출된 영상 특성에 대한 모델 파일이 기본적으로 생성되며, 이에 더하여 영상 클립으로부터 영상 특성 추출과 함께 음향 특성도 같이 추출될 수 있으며, 따라서 이들을 위한 영상 특성 모델 파일 및 음향 특성 모델 파일이 같이 생성될 수 있다. 따라서 영상 클립의 ROI에 대한 공감도 판단과 더불어 이 영상 클립에 포함되어 있는 음향 특성에 대해서도 공감도가 같이 판단될 수 있다. 따라서 영상 특성 모델 파일에 의해 공감도가 판단되고, 이와 더불어 음향 특성 모델 파일에 의해 공감도가 같이 평가되면 음향 클립에 대한 공감도 평가의 정확성이 더 향상될 수 있다.
도23에 도시된 바와 같이, 본 개시에 따른 공감 평가 시스템:은 상기 방법에 의해 얻어진 최종 모델 파일(훈련된 모델)을 저장하는 메모리; 판별 대상 영상 소스로 부터 비교 영상 데이터를 처리하는 영상 처리 장치; 공감 평가 앱 또는 프로그램 를 로딩하거나 또는 이를 실행하는 웹사이트 등의 공감 평가부; 상기 영상 소스로부터 입력된 영상 데이터에 대해 상기 훈련된 웨이트를 이용한 합성곱 신경망 기법을 거쳐 완전 연결층을 형성하고, 상기 완전 연결층에 대한 다중분류 활성함수를 이용해 상기 입력 영상의 정보를 담은 출력층(출력벡터)을 형성하는 프로세서; 상기 프로세서에 의한 상기 입력 영상의 공감 정보를 출력하는 디스플레이;를 포함할 수 있다.
이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims (14)

  1. 다수의 영상 클립을 수집하고, 영상 클립에 대한 주관적 평가에 의해 공감/비공감 라벨링을 수행 하는 단계;
    수집된 영상 클립에서 음향 데이터를 추출하는 단계;
    상기 음향 데이터로부터 주파수 영역의 음향 특성을 추출하는 단계;
    상기 주파수 영역부터 파워 스펙트럼을 추출하는 단계;
    상기 스펙트럼으로부터 주파수가 다른 다수의 복수 밴드의 주파수 성분을 추출하는 단계;
    상기 복수 밴드의 신호에 개별 색상을 적용하여 RGB 영상 데이터로 변환하여 학습 데이터로 저장하는 단계;
    상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 음향 특성 모델 파일을 생성하는 단계;
    별도로 입력된 비교 영상으로부터 추출된 비교 음향 데이터에 대해, 상기 음향 특성 모델 파일의 훈련된 웨이트를 이용한 합성곱 신경망 기법을 적용하여 상기 비교 영상의 공감 여부를 판단하는 단계;를 포함하는 동영상 특성을 이용한 공감 평가 방법.
  2. 제1항에 있어서,
    상기 파워 스펙트럼으로부터 주파수가 다른 다수의 복수 밴드의 주파수 성분을 추출하는 단계에서 삼각 필터를 적용하며, 복수 밴드의 주파수 성분에 대해 DCT(Discrete Cosine Transform)을 적용하는, 동영상 특성을 이용한 공감 평가 방법.
  3. 제1항에 있어서,
    상기 음향 특성은, 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함하는 동영상 특성을 이용한 공감 평가 방법.
  4. 제3항에 있어서,
    상기 톤은 저주파 스펙트럼 평균값과 표준편차, 중간 주파 스펙트럼 평균값, 고주파 스펙트럼 평균값과 표준편차 중 적어도 어느 하나를 포함하는 동영상 특성을 이용한 공감 평가 방법.
  5. 제1항 내지 제4항 중의 어느 한 항에 있어서,
    상기 영상 클립의 영상 특성을 추출하는 단계에서 영상 특성도 같이 추출하는 단계;
    추출된 음향 특성을 학습 데이터로 이용하여 훈련된 웨이트를 포함하는 영상특성 모델 파일을 생성하는 단계; 그리고
    별도로 입력된 영상 데이터를 이용한 합성곱 신경망 기법에 의해 상기 입력 영상 데이터의 공감을 판단하는 단계:가 더 포함되는 동영상 특성을 이용한 공감 평가 방법.
  6. 제5항에 있어서,
    영상 특성을 추출하는 단계에서
    상기 영상 클립을 영상 디스플레이를 통해 상기 시청자에게 상기 영상 클립을 제시하는 단계;
    상기 영상 디스플레이에 대한 상기 시청자의 시선을 추적하는 단계; 그리고
    상기 영상 디스플레이에 대한 상기 시청자의 시선이 향하는 관심 영역(ROI)의 ROI 영상을 추출하고 ROI 영상의 영상 특성을 추출하여 학습 데이터를 준비하는 단계; 그리고
    상기 학습 데이터를 이용한 학습에 의해 훈련된 웨이트를 포함하는 영상 특성 모델 파일을 생성하는 단계;를 포함하는 동영상 특성을 이용한 공감 평가 방법.
  7. 제6항에 있어서,
    상기 영상 특성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함하는 동영상 특성을 이용한 공감 평가 방법.
  8. 제1항에 기재된 방법을 수행하는 영상 특성을 이용한 공감 평가 장치에 있어서,
    상기 음향 특성 모델 파일을 저장하는 메모리;
    입력 음향 데이터의 공감을 판단 공감 평가부가 실행되는 프로세서;
    상기 입력 음향 데이터를 입력 받아 상기 프로세스로 전달하는 영상 처리 장치; 를 포함하는 동영상 특성을 이용한 공감 평가 장치.
  9. 제8항에 있어서,
    상기 영상 처리 장치에는 입력 영상 소스로부터의 동영상을 중간에서 캡쳐하는 영상 캡쳐 장치가 연결되는, 동영상 특성을 이용한 공감 평가 장치.
  10. 제6항에 있어서,
    상기 모델 파일은 K-NN 모델 파일인, 영상 특성 기반 공감 평가 방법.
  11. 제8항 내지 제11항 중의 어느 한 항에 있어서,
    상기 영상 특성은 Gray, RGB(red, green, blue), HSV(Hue, Saturation, Value), LAB(Light, ratio of change from red to green, ratio of change from blue to yellow) 중에 적어도 어느 하나를 포함하는 동영상 특성을 이용한 공감 평가 장치.
  12. 제8항에 있어서,
    상기 메모리에 상기 영상 클립의 음향 특성에 의해 훈련된 음향 특성 모델 파일을 저장되고,
    상기 공감 평가부는 상기 영상 특성 모델파일과 음향 특성 모델 파일에 상기 입력 영상 데이터와 입력 음향 데이터을 적용하여 공감 여부를 판단하는, 동영상 특성을 이용한 공감 평가 장치.
  13. 제12항에 있어서,
    상기 음향 특성은 피치(frequency), 음량(power), 톤(MFCC; Mel-Frequency Cepstral Coefficients, 12 coefficient) 중의 적어도 어느 하나를 포함하는 동영상 특성을 이용한 공감 평가 장치.
  14. 제13항에 있어서,
    상기 톤은, 상기 톤은 저주파 스펙트럼 평균값과 표준편차, 중간 주파 스펙트럼 평균값, 고주파 스펙트럼 평균값과 표준편차 중 적어도 어느 하나를 포함하는 동영상 특성을 이용한 공감 평가 장치.
KR1020200182429A 2020-12-23 2020-12-23 음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법 KR20220091165A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200182429A KR20220091165A (ko) 2020-12-23 2020-12-23 음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200182429A KR20220091165A (ko) 2020-12-23 2020-12-23 음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20220091165A true KR20220091165A (ko) 2022-06-30

Family

ID=82215542

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200182429A KR20220091165A (ko) 2020-12-23 2020-12-23 음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20220091165A (ko)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Balte
Escalas, J. E., and Stern, B. B. (2003). Sympathy and empathy: Emotional responses to advertising dramas. Journal of Consumer Research, 29(4), 566-578.
J.W. Picone, Signal modeling techniques in speech recognition. Proc. IEEE 81, 1215-1247 (1993)
Miu, A. C., and Baltes, F. R. (2012). Empathy manipulation impacts music-induced emotions: A psychophysiological study on opera. PloS one, 7(1), e30618.
Tokaji, A. (2003). Research for d eterminant factors and features of emotional responses of "kandoh"(the state of being emotionally moved). Japanese Psychological Research, 45(4), 235-249.

Similar Documents

Publication Publication Date Title
US10522186B2 (en) Apparatus, systems, and methods for integrating digital media content
Alkhawaldeh DGR: Gender Recognition of Human Speech Using One‐Dimensional Conventional Neural Network
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN111369982B (zh) 音频分类模型的训练方法、音频分类方法、装置及设备
CA3040961C (en) Airport noise classification method and system
JP6807389B2 (ja) メディアコンテンツのパフォーマンスの即時予測のための方法及び装置
CN108269254A (zh) 图像质量评估方法和装置
KR20220091163A (ko) 색상 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법
CN110992985A (zh) 识别跑步机异音的识别模型确定方法、识别方法、系统
KR20210158261A (ko) 비디오 품질 평가 방법 및 장치
CN108836322B (zh) 一种裸眼3d显示视觉诱导晕动症检测方法
US10592733B1 (en) Computer-implemented systems and methods for evaluating speech dialog system engagement via video
CN108304816A (zh) 身份识别方法、装置、存储介质及电子设备
US11240557B2 (en) Methods and apparatus to detect boring media
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
KR20220091165A (ko) 음향 속성을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법
KR102347151B1 (ko) 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
CN114168788A (zh) 音频审核的处理方法、装置、设备及存储介质
EP4050571A1 (en) Methods and apparatus to perform deepfake detection using audio and video features
CN109712635A (zh) 一种声音数据处理方法、智能终端及存储介质
KR20210099446A (ko) 음향 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
EP3014622A1 (en) Programme control
CN113723196B (zh) 基于预测学习的视频虚假人脸检测方法及装置
KR20220105497A (ko) 눈-추적을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법
Mongelli et al. CMDD: A novel multimodal two-stream CNN deepfakes detector

Legal Events

Date Code Title Description
E902 Notification of reason for refusal