KR102660124B1

KR102660124B1 - 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치

Info

Publication number: KR102660124B1
Application number: KR1020180027637A
Authority: KR
Inventors: 박지현; 김정현; 서용석; 유원영; 임동혁
Original assignee: 한국전자통신연구원
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2024-04-23
Also published as: KR20190109661A; US20190278978A1; US10565435B2

Abstract

입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하는 단계; 오디오 스트림을 분석하여 음악 구간을 검출하는 단계; 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하는 단계; 상기 음악 구간에서 감정정보를 추출하는 단계; 상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계; 감정정보가 태깅된 적어도 하나의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하는 단계; 및 상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공하는 단계를 포함하는 동영상 감정 판단 방법이 개시된다.

Description

동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치{METHOD FOR GENERATING DATA FOR LEARNING EMOTION IN VIDEO, METHOD FOR DETERMINING EMOTION IN VIDEO, AND APPARATUS USING THE METHODS}

본 발명은 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치에 관한 것으로, 더욱 상세하게는 동영상에 포함된 음악을 이용해 동영상 감정 학습용 데이터를 생성하는 방법, 동영상 감정을 판단하는 방법, 및 이들 방법을 이용하는 동영상 감정 판단 장치에 관한 것이다.

최근 다양한 분야에서 딥러닝을 활용하여 기존 기술의 한계를 뛰어넘는 결과들이 제시되고 있다. 딥러닝 기술은 사람이 학습과 경험을 통해 사물에 대한 판단 능력을 획득하듯이 컴퓨터에게 많은 데이터를 학습시킴으로써 스스로 판단하는 능력을 가지도록 하는 기술이다.

딥러닝은 학습 방법에 따라 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 구분할 수 있다. 지도 학습은 데이터와 정답을 함께 알려주고 학습하는 방식이다. 예를 들어, 개와 고양이를 구분하는 분류기를 만들 때 고양이 사진 이미지와 고양이라는 정보, 개의 사진 이미지와 개라는 정보를 쌍으로 알려주면서 학습하는 방식이다. 비지도 학습은 사진에 대한 정보는 주지 않고 고양이 사진과 개의 사진만 제공한 후 컴퓨터 스스로 둘을 분류할 수 있도록 학습하는 방식이다. 대부분의 경우 지도 학습이 비지도 학습보다 뛰어난 성능을 보이지만 데이터와 정답으로 구성된 많은 학습 데이터를 준비하는 데 어려움이 있다. 딥러닝의 성능은 학습에 사용되는 데이터의 양과 질에 크게 의존적이므로 학습 데이터의 구성이 매우 중요하다. 즉, 딥러닝을 이용한 기술 적용시 가장 시간과 비용이 많이 드는 작업은 학습할 데이터를 준비하는 것이라 할 수 있다.

이처럼 학습데이터를 확보하기 어려운 문제 때문에 동영상 감정 분류 분야에서 현재는 딥러닝을 이용한 접근 방법보다는 동영상을 시청하는 사람의 표정을 읽어 동영상의 감정을 분류하는 접근 방법을 사용하고 있다. 하지만, 이 방법은 개인 프라이버시의 문제와 함께 비용의 문제가 있어 보편적으로 사용되기 어렵다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 동영상 감정 판단 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 동영상 감정 학습용 데이터 생성 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 또 다른 목적은, 상기 동영상 감정 판단 방법 및 동영상 감정 학습용 데이터 생성 방법을 이용하는 동영상 감정 판단 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동영상 감정 판단 방법은, 입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하는 단계; 오디오 스트림을 분석하여 음악이 나오는 구간들을 검출하는 단계; 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하는 단계; 상기 음악 구간들로부터 감정정보를 추출하는 단계; 상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계; 감정정보가 태깅된 적어도 하나의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하는 단계; 및 상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공하는 단계를 포함할 수 있다.

상기 음악 구간들로부터 감정정보를 추출하는 단계는, 음악 구간 내 음성 포함여부를 판단하는 단계; 음성이 포함된 경우 상기 음악 구간에서 음성을 제거하고 음악 신호를 획득하는 단계; 및 획득한 음악 신호로부터 음악 감정 정보를 추출하는 단계를 포함할 수 있다.

상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하는 단계는, 분리된 오디오 스트림으로부터 음악 구간을 검출하는 단계; 검출된 음악 구간의 시간 정보에 대응하는 동영상 구간을 선택하는 단계; 및 상기 선택된 동영상 구간을 분리하여 적어도 하나의 동영상 클립으로 생성하는 단계를 포함할 수 있다.

상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계는, 상기 감정정보를 동영상의 메타데이터 영역에 삽입하여 출력하는 단계를 포함할 수 있다.

상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계는 또한, 상기 감정정보를 별도의 파일에 저장하여 출력하는 단계를 포함할 수 있다.

상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계는, 상기 감정정보를 감정정보 데이터베이스에 입력하는 단계를 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동영상 감정 학습용 데이터 생성 방법은, 입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하는 단계; 분리된 오디오 스트림에서 음악 구간을 검출하는 단계; 상기 음악 구간에서 음성을 제거하고 음악 신호를 획득하는 단계; 획득한 음악 신호로부터 음악 감정 정보를 추출하는 단계; 및 각 음악 구간에 대응하는 음악 감정정보를 대응하는 동영상 클립에 태깅하는 단계를 포함할 수 있다.

상기 감정정보가 태깅된 복수의 동영상 클립은 동영상 감정 학습용 데이터로 제공될 수 있다.

상기 동영상 감정 학습용 데이터 생성 방법은, 상기 각 음악 구간과 매칭되는 동영상 구간을 검출하고, 검출된 동영상 구간을 분리하여 적어도 하나의 씬(scene)에 대한 동영상 클립을 생성하는 단계를 더 포함할 수 있다.

상기 동영상 클립에 태깅되는 감정정보는, 동영상 내 메타데이터 영역, 별도의 파일, 또는 감정정보 데이터베이스에 저장될 수 있다.

상기 또 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동영상 감정 판단 장치는, 프로세서; 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함할 수 있다.

상기 적어도 하나의 명령은, 입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하도록 하는 명령; 오디오 스트림을 분석하여 음악이 나오는 구간들을 검출하도록 하는 명령; 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령; 상기 음악 구간들로부터 감정정보를 추출하도록 하는 명령; 상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하도록 하는 명령; 감정정보가 태깅된 복수의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하도록 하는 명령; 및 상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공하도록 하는 명령을 포함할 수 있다.

상기 동영상 감정 판단 장치는 복수의 동영상 클립 및 상기 복수의 동영상 클립 연관된 복수의 감정정보를 저장하는 데이터베이스를 더 포함할 수 있다.

상기 음악 구간들로부터 감정정보를 추출하도록 하는 명령은, 음악 구간 내 음성 포함여부를 판단하도록 하는 명령; 음성이 포함된 경우 상기 음악 구간에서 음성을 제거하고 음악 신호를 획득하도록 하는 명령; 및 획득한 음악 신호로부터 음악 감정 정보를 추출하도록 하는 명령을 포함할 수 있다.

상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령은, 분리된 오디오 스트림으로부터 음악 구간을 검출하도록 하는 명령; 검출된 음악 구간의 시간 정보에 대응하는 동영상 구간을 선택하도록 하는 명령; 및 상기 선택된 동영상 구간을 분리하여 적어도 하나의 동영상 클립으로 생성하도록 하는 명령을 포함할 수 있다.

상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령은 또한, 각 음악 구간과 매칭되는 동영상 구간을 검출하고, 검출된 동영상 구간을 분리하여 적어도 하나의 씬(scene)에 대한 동영상 클립을 생성하도록 하는 명령을 포함할 수 있다.

상기 동영상 클립에 태깅되는 감정정보는, 동영상 클립 내 메타데이터 영역 또는 별도의 파일에 저장될 수 있다.

상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하도록 하는 명령은, 입력되는 동영상 내 메타데이터 영역을 파싱하여 분석함으로써 메타데이터 영역 내 감정 정보를 삽입할 위치를 파악하도록 하는 명령; 및 파악된 메타데이터 영역 내 위치에 감정 정보를 삽입하도록 하는 명령을 포함할 수 있다.

상기와 같은 본 발명의 실시예들에 따르면, 딥러닝을 이용한 동영상의 감정정보 분류기를 생성하는 데 필요한 수많은 학습데이터를 기존의 음악감정 분류기를 이용하여 손쉽게 생성할 수 있다.

또한, 본 발명에 따라 생성된 학습데이터를 이용해 동영상 감정정보를 학습한 동영상 감정정보 분류기를 활용함으로써 정확한 동영상 감정 판단이 가능하다는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 감정 분류 장치의 개략 개념도이다.
도 2는 본 발명의 일 실시예에 따른 동영상 감정 학습데이터 생성기의 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따라 동영상 클립을 추출하는 방법의 개념 및 동작 순서도이다.
도 4는 본 발명의 일 실시예에 따라 오디오 신호를 처리하는 방법의 개념 도이다.
도 5는 본 발명의 일 실시예에 따른 동영상 태깅부의 블록 구성도이다.
도 6은 본 발명의 일 실시예에 따른 동영상 감정 분류 방법의 전체 동작 순서를 개념적으로 나타낸 도면이다.
도 7a는 본 발명의 일 실시예에 따라 생성된 동영상 감정 학습데이터를 이용한 동영상 감정 학습 및 질의를 수행하는 일 예를 도시한다.
도 7b는 본 발명의 일 실시예에 따라 생성된 동영상 감정 학습데이터를 이용한 동영상 감정 학습 및 질의를 수행하는 다른 예를 도시한다.
도 8은 본 발명의 일 실시예에 따른 동영상 감정 판단 장치의 블록 구성도이다.
도 9는 본 발명의 일 실시예에 따른 동영상 감정 판단 방법의 동작 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 동영상 감정 분류 장치의 개략 개념도이다.

본 발명의 일 실시예에 따른 동영상 감정 분류 장치는, 학습용 동영상을 입력으로 받아 동영상들을 작은 단위의 클립으로 나누고 각 클립의 감정 값을 출력하는 동영상 감정 학습데이터 생성기(100) 및 동영상 감정 학습데이터 생성기(100)를 통해 생성된 학습데이터를 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하고, 동영상 감정 분류 모델에 따라 동영상 감정을 분류하는 동영상 감정 분류기(200)를 포함할 수 있다.

감정 학습데이터 생성기(100)는, 입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하고 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하며, 음악 구간으로부터 감정정보를 추출하여 상기 추출된 감정정보를 동영상 클립에 태깅하여 출력할 수 있다.

동영상 감정 분류기(200)는, 감정 학습데이터 생성기가 출력하는 감정정보가 태깅된 적어도 하나의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하고, 상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공할 수 있다.

여기서, 본 발명의 일 실시예에 따른 동영상 감정 학습데이터는 동영상 클립과 감정 정보의 쌍으로 구성된 데이터의 형태를 가질 수 있다.

좀더 구체적으로 동영상 감정 분류기(200)는 딥러닝을 이용하여 동영상의 감정을 분류한다. 동영상 감정 분류기(200)는 수많은 학습 데이터를 이용하여 동영상의 감정을 학습하여 동영상 분류 모델을 생성하고, 생성된 동영상 분류 모델을 이용하여 입력되는 임의의 동영상에 대하여 동영상의 감정을 판단할 수 있다.

딥러닝을 활용하는 대표적인 분야 중 하나가 동영상의 내용을 이해하는 분야이다. 즉, 딥러닝을 이용하면, 사람이 동영상을 보고 동영상에 포함된 사물의 종류, 사물의 움직임, 장소, 감정 등 동영상의 내용을 이해하듯, 컴퓨터가 동영상의 내용을 자동으로 이해하여 이를 텍스트로 기술할 수 있다.

딥러닝으로 동영상의 내용을 이해할 때 예를 들어, 시각적으로 인식 가능한 사물의 종류, 움직임 등과 관련해서는 이미 텍스트화된 정보가 다수 존재하므로 학습할 데이터를 구성하는 것이 용이하다. 하지만 동영상이 나타내는 느낌이나 분위기와 같은 동영상의 감정정보와 관련해서는 기존에 텍스트화되어 있는 것이 많지 않다. 감정과 관련된 기존 텍스트 정보는 동영상의 장르 정보 정도인데 이는 동영상 전체에 대한 대표 정보일 뿐 동영상의 부분부분 구간의 감정정보를 표현하지는 못한다. 예를 들어 공포 영화라 할지라도 영화 속에는 즐거운 장면, 사랑스러운 장면, 행복한 장면 등 공포라는 감정에 반하는 장면을 다수 포함하고 있을 수 있다.

딥러닝을 통해 동영상을 이루는 각 씬의 감정을 구분하도록 학습하기 위해서는 사람에 의해 일일이 동영상의 각 씬의 감정을 표시한 학습 데이터가 필요하다. 여기서, 동영상의 장면 또는 씬은 동영상 내에서 하나의 스토리를 표현하는 각 부분 구간을 의미한다. 학습을 위해서는 많은 수의 학습 데이터가 필요한데 동영상의 씬을 나누고 각 씬의 감정을 분류하는 작업을 사람이 한다는 것은 시간과 비용 측면에서 매우 힘든 일이다. 따라서, 본 발명에서는 다량의 학습 데이터를 효과적으로 생성하는 동영상 감정 학습데이터 생성기(100)를 제공한다.

딥러닝을 이용한 동영상 감정 분류기의 성능은 학습 데이터의 양과 질에 좌우되는데 일반적으로 학습 데이터가 많을수록 동영상 감정 분류기의 성능이 좋아진다. 즉, 분류기 학습시 많은 양의 학습용 데이터를 제공하는 것이 시스템 성능에 큰 영향을 미친다.

도 2는 본 발명의 일 실시예에 따른 동영상 감정 학습데이터 생성기의 블록 구성도이다.

동영상 감정 학습데이터 생성기(100)는 영화, TV 방송물 등의 동영상을 입력으로 받아, 동영상 클립과 감정 정보의 쌍을 포함하는 학습용 데이터를 출력한다.

동영상 감정 학습데이터 생성기(100)는 입력된 동영상에서 음악이 있는 구간을 동영상 클립으로 잘라내는 동영상 클립 추출부(110), 동영상 클립 내 음악에 대사가 겹쳐지는 경우 음악과 대사를 분리하는 음성/음악 분리부(120), 동영상 클립 내 음악에 대하여 감정정보를 분류하는 음악 감정 추출부(130), 추출한 음악 감정정보를 동영상 클립의 감정정보로 태깅하는 동영상 태깅부(140)로 구성된다.

여기서, 동영상 클립 추출부(110)는 입력된 동영상에 포함된 비디오와 오디오 스트림으로 각각 분리하는 비디오, 오디오 스트림 분리부, 오디오 스트림에서 음악 구간을 찾아서 추출하는 음악구간 추출부, 비디오 스트림에서 상기 음악구간의 시간에 해당하는 부분을 선택하는 동영상 구간 선택부, 선택된 동영상 구간들을 분리하여 각각 하나의 동영상 클립으로 생성하는 동영상 클립 생성부를 포함할 수 있다.

도 3은 본 발명의 일 실시예에 따라 동영상 클립을 추출하는 방법의 개념 및 동작 순서도이다.

도3은 동영상 클립 추출부가 각 동영상 씬을 각각의 동영상 클립 파일로 생성하는 구체적인 과정을 도시한다. 동영상 클립 추출부는 먼저 입력되는 동영상을 비디오 스트림과 오디오 스트림으로 분리한다(S310). 이후, 분리한 오디오 스트림을 분석하여 음악이 등장하는 구간들을 검출하고 검출된 음악 구간들에 대한 재생시간 정보를 파악한다(S320). 음악 구간이 검출되면 비디오 스트림에서 각 음악구간들의 시간정보와 매칭되는 구간을 선택한다(S330). 동영상 클립 추출부는 선택된 비디오 스트림의 구간들을 서로 분리하여 각각 하나의 동영상 클립 파일로 생성한다(S340).

도 4는 본 발명의 일 실시예에 따라 오디오 신호를 처리하는 방법의 개념 도이다.

도 4에서 도시하는 오디오 신호의 처리 절차는 본 발명의 일 실시예에 따른 음성/음악 분리부 및 음악 감정 추출부의 동작을 서술한다.

음성/음악 분리부는 동영상 클립 추출부의 음악구간 추출부에서 추출된 음악구간에서 음성과 음악이 중첩하여 존재하는 구간을 검출하고, 해당 구간에서 음성을 분리하여 제거하고 음악 성분를 출력한다.

영화나 TV 프로그램에 삽입되는 음악은 장면의 분위기를 고조시키는 역할을 하며 대부분 대사와 겹쳐져서 들어가게 된다. 기존의 음악 감정 분류 기술들은 순수한 음악 데이터들을 대상으로 만들어졌으므로 대사와 겹치는 음악인 경우 감정 분류가 제대로 되지 않을 가능성이 있다. 따라서, 본 발명에서는 음악 감정 분류의 성능을 높이기 위하여 음악과 대사가 겹치는 오디오의 경우 배우의 음성(대사)을 제거하고 음악 신호만을 추출한다.

본 발명에서 음성과 음악을 분리하는 방법으로는, 독립성분분석(ICA: Independent Component Analysis), 비-음수 행렬 분해(NMF: Non-negative matrix factorization), 딥러닝 등이 사용될 수 있으며, 여기서 언급된 특정한 알고리즘으로 한정되지 않는다.

독립성분분석(ICA)은 혼합 신호를 분리할 때 사용하는 방법으로 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하는 계산 방법이다. 주로 화자 인식 분야에서 사용되고 있는데, 영화나 드라마와 같은 콘텐츠는 주로 음성과 음악이 같이 나오는 장면이 많기 때문에 음악 성분을 제거하고 사람의 음성만 따로 분리함으로써 화자 인식 성능을 높일 수 있다. 본 발명에서 활용한다면 음악성분을 제거하는 대신 음성 성분을 제거하고 음악만 따로 분리하도록 한다. 영화와 드라마와 같은 콘텐츠는 일반적으로 스테레오로 이루어져 있기 때문에 독립성분 분석을 이용한 음원 분리가 가능하다.

비-음수 행렬 분해(NMF)는 비음수 행렬을 기저행렬(basis matrix) W와 활성행렬(activation matrix) H의 곱으로 분해하는 방식으로, 여러 신호들을 분리하는 데 활용되고 있다. 이 기술은 주로 음성인식의 성능을 높이기 위하여 잡음이 포함된 음성신호에서 음성과 잡음을 분리하는 목적으로 활용되고 있다. 본 발명에서 활용한다면 음성과 음악을 분리하는 목적으로 사용할 수 있다.

도 4를 참조하면, 본 발명에 따른 오디오 처리 과정에서는 입력되는 오디오 신호에서 음성과 음악을 분리한다. 앞서 설명한 음악 구간 검출 과정을 통해 음악구간으로 판별된 오디오 구간을 입력으로 받아서 해당 오디오 신호에 음성과 음악이 중첩하여 존재하는지 여부를 검사한다(S410). 순수 음악신호만으로 구성된 오디오인 경우 별도의 프로세싱을 거치지 않고 그대로 결과로서 출력한다. 음성과 음악이 중첩된 오디오 신호가 입력된 경우에는 음성과 음악 신호를 각각 분리하여 음악 신호만을 출력한다(S420).

이후 음악 감정 추출기에 의해 수행되는 음악 감정 추출 단계(S430)에서는 각 음악 구간의 감정을 분류한다. 여기서, 음악의 감정을 분류하기 위해, 예를 들어, 감정의 긍정 또는 부정의 정도(valence)와 감정의 강도(arousal)의 값을 이용한 감정의 확률분포를 이용할 수 있다.

드라마나 영화와 같은 동영상 콘텐츠는 즐겁거나 슬픈 분위기를 고조시키기 위한 목적으로 각 장면에 맞는 배경음악을 삽입하는 경우가 많다. 대부분의 경우 삽입되는 음악은 해당 장면의 감정과 부합되므로, 음악의 감정을 알 수 있다면 해당 장면이 가지는 감정도 파악할 수 있다. 음악의 감정을 분류하는 방법은 여러가지 방법이 연구되었고 실서비스에 적용되어 사용되고 있다. 즉, 음악의 감정을 분류하는 것은 동영상의 감정을 분류하는 것보다 용이하고, 사용 가능한 다양한 방법이 존재한다는 점에서 유리하다.

여기서, 음악 감정을 추출하는 구체적인 방법으로 예를 들어, AV(Arousal-Valence) 모델을 활용한 방법이 사용될 수 있다. AV 모델은 감정의 긍정 또는 부정의 정도(Valence)와 감정의 각성 강도(Arousal)로 표현하는 2차원 정서 공간을 활용하는 정서모델의 형태이다. 감정의 각성 강도(Arousal)는 감정의 흥분과 차분함의 정도를 나타내는데, 수치가 높을수록 몸이 긴장되고 떨리는 느낌이며, 낮을수록 평온한 느낌을 의미한다. 또한, 감정의 긍정과 부정의 정도(Valence)는 수치가 높을수록 기분이 좋으며, 낮을수록 기분이 나쁜 상태를 나타낸다. 즉, 긍 부정 및 각성의 정도에 의해 인간의 감정 변화가 일어나며, 이러한 정서적 감응 요소의 반응 정도를 알 수 있다면 인간의 감정을 판단할 수 있다.

AV 모델을 활용하면, 복수 개의 음악들로부터 인간이 느끼는 감정 유형들을 행렬로 표현한 분포 행렬을 이용하여 유사한 감정 유형을 그룹으로 분류한 감정 분류 모델을 생성하고, 생성된 감정 분류 모델을 이용하여 특정 감정 유형에 대응되는 AV 계수의 범위를 검출할 수 있다. 여기서, AV 계수는 각 음악에 대한 멜주파수 켑스트럴 계수(Mel-Frequency Cepstral Coefficient, 이하에서는 'MFCC'라고도 함), 옥타브 기반 스펙트럼 콘트라스트(Octave-based Spectral Contrast, 이하에서는 'OSC'라고도 함), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 통해 산출될 수 있다.

하지만, 본 발명에 따른 음악 감정 판단 방법이 앞서 설명한 방법 또는 특정한 방법으로 한정되지는 않는다.

도 5는 본 발명의 일 실시예에 따른 동영상 태깅부의 블록 구성도이다.

동영상 태깅부(140)는 동영상 클립 추출부에서 생성된 각 동영상 클립에 대하여 음악 감정 추출부에서 분류한 음악 감정값을 해당 동영상 클립의 감정값으로 태깅하는 역할을 수행한다.

도 5에서 동영상에 감정정보를 태깅하는 방법에 따라 동영상 태깅부(140)에서 출력하는 정보가 3가지 형태의 예로 나타날 수 있음을 보여준다.

동영상 태깅부(140)가 출력하는 제1 예(5A)는 동영상 내 메타데이터 영역에 감정 정보를 직접 적어 넣는 방법이고, 제2 예(5B)는 별도의 파일을 이용하여 동영상과 동영상 감정정보를 기록하는 방법이고, 제3예(5C)는 데이터베이스를 활용하여 각 동영상 클립의 감정 정보를 데이터베이스에 입력하는 방법이다.

한편, 동영상 태깅부(140)는 메타데이터 파싱부(141) 및 메타데이터 갱신부(142)를 포함할 수 있다. 메타데이터 파싱부(141)는 입력되는 동영상 내 메타데이터 영역을 파싱하여 분석함으로써 메타데이터 영역 내 감정 정보를 삽입할 위치를 파악한다. 메타데이터 갱신부(142)는 메타데이터 파싱부(141)가 파악한 메타데이터 영역 내 위치에 감정 정보를 삽입함으로써 해당 동영상의 메타데이터를 갱신한다.

도 6은 본 발명의 일 실시예에 따른 동영상 감정 분류 방법의 전체 동작 순서를 개념적으로 나타낸 도면이다.

도 6에 도시된 본 발명의 일 실시예에 따른 동영상 감정 분류 방법은 동영상 감정 판단 장치에 의해 수행될 수 있으나, 그 동작 주체가 이에 한정되는 것은 아니다.

동영상 감정 판단 장치는 먼저 입력되는 동영상을 비디오 스트림과 오디오 스트림으로 분리한다(S610). 이후, 분리한 오디오 스트림을 분석하여 음악이 등장하는 구간들을 찾아내고 해당 구간들에 대한 재생시간 정보를 파악하여 음악 구간을 검출한다(S620).

음악 구간으로 판별된 오디오 구간에 대해 해당 오디오 신호에 음성과 음악이 중첩하여 존재하는지 여부를 검사하고, 음성과 음악이 중첩된 오디오 신호가 입력된 경우에는 음성과 음악 신호를 각각 분리하여 음성 신호를 제거함으로써, 음악 신호를 획득한다(S630).

이후, 획득한 음악 신호로부터 음악 감정을 추출하고(S640), 해당 음악 구간에 대응하는 음악 감정을 각 음악 구간과 대응하는 동영상 클립에 태깅한다(S650).

상술한 과정을 거쳐 생성된 동영상 클립 파일과 감정정보의 쌍은 동영상의 감정정보를 학습하기 위한 데이터로 활용할 수 있다.

도 7a는 본 발명의 일 실시예에 따라 생성된 동영상 감정 학습데이터를 이용한 동영상 감정 학습 및 질의를 수행하는 일 예를 도시한다.

도 7a의 실시예에서와 같이, 본 발명에 따라 동영상 감정을 학습할 때 감정정보와 함께 동영상 내 비디오 및 오디오를 사용할 수 있다. 동영상 감정 분류기(200)는 동영상 감정을 학습하고, 비디오 및 오디오를 포함하는 동영상 감정 질의를 수신하여, 해당 동영상에 매칭되는 감정 정보를 출력할 수 있다.

도 7b는 본 발명의 일 실시예에 따라 생성된 동영상 감정 학습데이터를 이용한 동영상 감정 학습 및 질의를 수행하는 다른 예를 도시한다.

도 7b의 실시예는 동영상 감정을 학습할 때 감정정보와 함께 동영상 내 비디오를 사용하여 학습하고, 감정 질의 동영상 또한 비디오를 포함하는 경우를 나타낸다.

학습데이터를 생성하는 과정에서는 오디오 데이터로부터 감정정보를 추출하기 때문에 동영상의 비디오와 오디오가 모두 필요하지만, 도7b에 도시된 학습 과정에서는 오디오 신호가 필요치 않다. 또한, 동영상 감정에 대한 질의에 응답하기 위해, 학습된 동영상 감정 분류기(200)를 사용하여 동영상의 감정을 추출하는 과정에서도 오디오 신호가 필요치 않다. 따라서 질의시 음악이 없는 구간의 동영상에 대해서도 비디오 영상만으로 감정 분류가 가능하다.

도 8은 본 발명의 일 실시예에 따른 동영상 감정 판단 장치의 블록 구성도이다.

본 발명에 따른 동영상 감정 판단 장치(800)는, 프로세서(810), 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리(820), 데이터베이스(830), 및 입출력 인터페이스(840)을 포함하여 구성될 수 있다.

메모리(820)에 저장되는 적어도 하나의 명령은, 입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하도록 하는 명령; 오디오 스트림을 분석하여 음악이 나오는 구간들을 검출하도록 하는 명령; 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령; 상기 음악 구간들로부터 감정정보를 추출하도록 하는 명령; 상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하도록 하는 명령; 감정정보가 태깅된 복수의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하도록 하는 명령; 및 상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공하도록 하는 명령을 포함할 수 있다.

데이터베이스(830)는 복수의 동영상 클립 및 상기 복수의 동영상 클립 연관된 복수의 감정정보를 저장할 수 있다. 데이터베이스(830)는 또한, 동영상 감정을 학습하여 생성된 동영상 감정 분류 모델을 저장할 수 있다.

입출력 인터페이스(840)는 적어도 하나의 외부 장치와 연동하기 위한 인터페이스를 제공하며, 외부 장치로부터 학습용 동영상 및 질의 동영상 클립을 수신하여 프로세서(810)로 전달하고, 프로세서(810)로부터 분류된 감정 정보를 수신하여 동영상 클립에 대한 감정 정보를 질의한 외부 장치로 송신한다.

도 9는 본 발명의 일 실시예에 따른 동영상 감정 판단 방법의 동작 순서도이다.

동영상 감정 판단 장치는 먼저 입력되는 동영상을 비디오 스트림과 오디오 스트림으로 분리한다(S910). 이후, 분리한 오디오 스트림을 분석하여 음악이 등장하는 구간들을 검출하고 검출된 음악 구간들에 대한 재생시간 정보를 파악하여 음악 구간을 검출한다(S920).

음악구간으로 판별된 오디오 구간에 대해 해당 오디오 신호에 음성과 음악이 중첩하여 존재하는지 여부를 검사하고, 음성과 음악이 중첩된 오디오 신호가 입력된 경우에는 음성과 음악 신호를 각각 분리하여 음악 신호를 획득한다(S930).

음악 신호로부터 음악 감정정보를 추출하고(S940), 해당 음악 구간에 대응하는 음악 감정정보를 각 음악 구간과 대응하는 동영상 클립에 태깅한다(S950).

동영상 감정 판단 장치는 동영상 클립 및 태깅된 감정정보를 이용해 동영상 감정을 학습하고(S960), 동영상 감정 분류 모델을 생성한다(S970). 이후, 외부 장치 등의 장치로부터 감정 질의 동영상이 입력되면(S980의 예), 동영상 감정 분류 모델을 이용해 입력된 동영상에 대한 감정 정보를 제공한다(S990).

상술한 바와 같은 본 발명의 실시예에 따르면, 딥러닝을 이용한 동영상의 감정정보 분류기를 생성하는 데 필요한 수많은 학습데이터를 기존의 음악감정 분류기를 이용하여 손쉽게 생성할 수 있다. 현재 기술로는 동영상의 감정정보는 자동으로 태깅이 어렵기 때문에 일일이 사람이 동영상을 시청하고 평가하는 방법 밖에 없다. 딥러닝을 위한 수많은 학습데이터를 사람에 의해 생성하는 것은 시간과 비용이 많이 소요될 수 밖에 없다. 기존 자동화 기술은 사람이 동영상을 시청하면 사람의 표정을 읽어 판단하는 방법이므로 시간이 많이 소요되고 오류율이 높다.

그에 비해 본 발명에서 제안한 방법을 사용하면 동영상 감정 분류기 학습을 위한 데이터를 자동으로 생성할 수 있다는 장점이 있다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그래머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 동영상 감정 학습데이터 생성기 110: 동영상 클립 추출부
120: 음성/음악 분리부 130: 음악감정 추출부
140: 동영상 태깅부 200: 동영상 감정 분류기
800: 동영상 감정 판단 장치 810: 프로세서
820: 메모리 830: 데이터베이스
840: 입출력 인터페이스

Claims

메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서에 의하여 수행되는 방법으로서,
입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하는 단계;
오디오 스트림을 분석하여 음악 구간을 검출하는 단계;
상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하는 단계;
상기 음악 구간에서 감정정보를 추출하는 단계;
상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계;
감정정보가 태깅된 적어도 하나의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하는 단계; 및
상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공하는 단계를 포함하는, 동영상 감정 판단 방법.
청구항 1에 있어서,
상기 음악 구간에서 감정정보를 추출하는 단계는,
상기 음악 구간이 음성을 포함하는지 여부를 판단하는 단계;
상기 음악 구간에 음성이 포함된 경우 상기 음악 구간에서 음성을 제거하고 음악 신호를 획득하는 단계; 및
획득한 음악 신호로부터 음악 감정 정보를 추출하는 단계를 포함하는, 동영상 감정 판단 방법.
청구항 1에 있어서,
상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하는 단계는,
검출된 음악 구간의 시간 정보에 대응하는 동영상 구간을 선택하는 단계; 및
상기 선택된 동영상 구간을 분리하여 적어도 하나의 동영상 클립으로 생성하는 단계를 포함하는, 동영상 감정 판단 방법.
청구항 1에 있어서,
상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계는
상기 감정정보를 동영상의 메타데이터 영역에 삽입하여 출력하는 단계를 포함하는, 동영상 감정 판단 방법.
청구항 1에 있어서,
상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계는,
상기 감정정보를 별도의 파일에 저장하여 출력하는 단계를 포함하는, 동영상 감정 판단 방법.
청구항 1에 있어서,
상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하는 단계는,
상기 감정정보를 감정정보 데이터베이스에 입력하는 단계를 포함하는, 동영상 감정 판단 방법.
메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서에 의하여 수행되는 방법으로서,
입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하는 단계;
분리된 오디오 스트림에서 음악 구간을 검출하는 단계;
상기 음악 구간에서 음성을 제거하고 음악 신호를 획득하는 단계;
획득한 음악 신호로부터 음악 감정 정보를 추출하는 단계; 및
각 음악 구간에 대응하는 음악 감정정보를 대응하는 동영상 클립에 태깅하는 단계를 포함하는, 동영상 감정 학습용 데이터 생성 방법.
청구항 7에 있어서,
상기 감정정보가 태깅된 복수의 동영상 클립은 동영상 감정 학습용 데이터로 제공되는, 동영상 감정 학습용 데이터 생성 방법.
청구항 7에 있어서,
각 음악 구간과 매칭되는 동영상 구간을 검출하고, 검출된 동영상 구간을 분리하여 적어도 하나의 씬(scene)에 대한 동영상 클립을 생성하는 단계를 더 포함하는 동영상 감정 학습용 데이터 생성 방법.
청구항 7에 있어서,
상기 동영상 클립에 태깅되는 감정정보는,
동영상 내 메타데이터 영역, 별도의 파일, 또는 감정정보 데이터베이스에 저장되는, 동영상 감정 학습용 데이터 생성 방법.
프로세서; 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하는 동영상 감정 판단 장치로서,
상기 적어도 하나의 명령은,
입력된 동영상을 비디오 스트림과 오디오 스트림으로 분리하도록 하는 명령;
오디오 스트림을 분석하여 음악 구간을 검출하도록 하는 명령;
상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령;
상기 음악 구간에서 감정정보를 추출하도록 하는 명령;
상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하도록 하는 명령;
감정정보가 태깅된 복수의 동영상 클립을 이용해 동영상 감정을 학습하여 동영상 감정 분류 모델을 생성하도록 하는 명령; 및
상기 동영상 감정 분류 모델을 이용해 입력된 질의 동영상에 대한 감정을 판단하여 제공하도록 하는 명령을 포함하는 동영상 감정 판단 장치.
청구항 11에 있어서,
복수의 동영상 클립 및 상기 복수의 동영상 클립 연관된 복수의 감정정보를 저장하는 데이터베이스를 더 포함하는, 동영상 감정 판단 장치.
청구항 11에 있어서,
상기 음악 구간에서 감정정보를 추출하도록 하는 명령은,
상기 음악 구간이 음성을 포함하는지 여부를 판단하도록 하는 명령;
상기 음악 구간에 음성이 포함된 경우 상기 음악 구간에서 음성을 제거하고 음악 신호를 획득하도록 하는 명령; 및
획득한 음악 신호로부터 음악 감정 정보를 추출하도록 하는 명령을 포함하는, 동영상 감정 판단 장치.
청구항 11에 있어서,
상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령은,
검출된 음악 구간의 시간 정보에 대응하는 동영상 구간을 선택하도록 하는 명령; 및
상기 선택된 동영상 구간을 분리하여 적어도 하나의 동영상 클립으로 생성하도록 하는 명령을 포함하는, 동영상 감정 판단 장치.
청구항 11에 있어서,
상기 음악 구간과 매칭되는 적어도 하나의 동영상 클립을 추출하도록 하는 명령은,
각 음악 구간과 매칭되는 동영상 구간을 검출하고, 검출된 동영상 구간을 분리하여 적어도 하나의 씬(scene)에 대한 동영상 클립을 생성하도록 하는 명령을 포함하는, 동영상 감정 판단 장치.
청구항 11에 있어서,
상기 동영상 클립에 태깅되는 감정정보는,
동영상 클립 내 메타데이터 영역 또는 별도의 파일에 저장되는, 동영상 감정 판단 장치.
청구항 11에 있어서,
상기 추출된 감정정보를 동영상 클립에 태깅하여 출력하도록 하는 명령은,
입력되는 동영상 내 메타데이터 영역을 파싱하여 분석함으로써 메타데이터 영역 내 감정 정보를 삽입할 위치를 파악하도록 하는 명령; 및
파악된 메타데이터 영역 내 위치에 상기 감정 정보를 삽입하도록 하는 명령을 포함하는, 동영상 감정 판단 장치.