KR20200054613A

KR20200054613A - 동영상 메타데이터 태깅 시스템 및 그 방법

Info

Publication number: KR20200054613A
Application number: KR1020180138114A
Authority: KR
Inventors: 강현수; 신형욱; 변정
Original assignee: 주식회사 코난테크놀로지
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2020-05-20
Also published as: KR102148392B1

Abstract

통합 메타데이터 구축을 위한 반자동 동영상 메타데이터 태깅 시스템 및 그 방법이 개시된다. 일 실시예에 따른 동영상 메타데이터 태깅 시스템은, 다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있는 통합 메타데이터 저장부, 상기 통합 메타데이터 저장부에 저장된 이미지 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하는 메타데이터 학습부, 동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 영상 구간 분리부, 및 상기 메타데이터 학습부의 학습 결과를 참조하고 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 상기 통합 메타데이터 저장부에 저장하는 메타데이터 추출부를 포함할 수 있다.

Description

동영상 메타데이터 태깅 시스템 및 그 방법 {Video metadata tagging system and method thereof}

본 발명은 통합 메타데이터 구축을 위한 반자동 동영상 메타데이터 태깅 시스템 및 그 방법에 관한 것이다.

모바일 미디어의 보편화에 따라 영화, 드라마, 다큐멘터리와 같이 기존의 영상 콘텐츠들뿐만 아니라, 인터넷 방송, 1인 크리에이터들이 만든 영상 콘텐츠 등 다양한 종류의 영상 콘텐츠들이 크게 증가하고 있다.

영상 콘텐츠가 증가함에 따라, 많은 양의 영상 콘텐츠들의 내용을 이해하고, 요약 및 분석하고자 하는 연구들이 많이 진행되고 있다. 이러한 수많은 영상 콘텐츠를 보다 효율적으로 분석하기 위해서 최근 딥러닝 기술이 주목을 받고 있는데, 딥러닝 기술을 효과적이고 성공적으로 적용하기 위해서는 다양한 종류의 양질의 대용량 메타데이터를 생성하고 활용하는 것이 필수적이다.

이와 관련한 종래의 기술로, 한국공개특허 제2015-0079064호, '자동 태깅 시스템'에서는 정지영상의 시각적인 물리적인 정보, 의미론적인 정보만을 추출하는 기술이 개시되어 있고, 한국공개특허 제2011-0020158호, '메타데이터 태깅 시스템, 이미지 검색 방법, 디바이스 및 이에 적용되는 제스처 태깅방법'에서는 이미지를 분석하여 시각정보와 장소정보를 추출하는 기술이 개시되어 있다. 그러나 이러한 종래기술은 이미지 내의 시각정보 태깅으로 한정되고, 메타데이터의 질을 보장하지 못한다. 또한, 하나의 영상에 대한 시각정보, 소리정보, 자막정보, 캡션정보를 모두 가지고 있는 통합 메타데이터를 생성할 수 없으며, 대량의 데이터 태깅을 위해서는 비용이 많이 들고 작업하기도 어렵다.

일 실시예에 따라, 메타데이터 자동 추출을 위하여 딥러닝 기반의 인식 기법을 사용하여 보다 편리하게 통합 메타데이터를 생성할 수 있는 동영상 메타데이터 태깅 시스템 및 그 방법을 제안한다.

일 실시예에 따른 동영상 메타데이터 태깅 시스템은, 다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있는 통합 메타데이터 저장부, 상기 통합 메타데이터 저장부에 저장된 이미지 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하는 메타데이터 학습부, 동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 영상 구간 분리부, 및 상기 메타데이터 학습부의 학습 결과를 참조하고 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 상기 통합 메타데이터 저장부에 저장하는 메타데이터 추출부를 포함할 수 있다.

그리고, 메타데이터 추출부에서 얻어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증하도록 하는 사용자 인터페이스를 제공하는 메타데이터 검증부를 더 포함할 수 있다.

영상 구간 분리부는, 동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터를 프레임 단위로 구분하고 이전 프레임과 현재 프레임과의 픽셀값의 유사성을 비교하여 소정의 임계값 이상인 경우 장면이 전환된 것으로 판단할 수 있다.

한편, 다른 실시예에 따른 동영상 메타데이터 태깅 방법은, 다수의 동영상 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 동영상 데이터를 구성하는 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하여 이를 메타데이터로 하여 저장하는 단계, 입력된 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 단계, 및 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 만드는 단계를 포함할 수 있다.

일 실시예에 따른 동영상 메타데이터 태깅 시스템을 통하여, 메타데이터를 자동 추출하는 단계와 검증하는 단계를 거쳐 하나의 영상에 대한 시각정보, 소리정보, 자막정보, 캡션정보가 태깅된 통합적인 메타데이터를 편리하게 대량으로 생성할 수 있다. 또한, 각각의 메타데이터를 독립적으로 사용하여 여러 응용분야에 적용할 수 있고, 응용분야가 특화된 영상의 메타데이터가 필요한 분야와 직접 메타데이터 세트를 만들고 싶은 연구자들과 기업들의 요구사항을 만족시킬 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅 시스템의 구성도,
도 2는 동영상 콘텐츠 관리부에서 관리하는 영상 데이터베이스의 일예를 도시한 도면,
도 3a 및 도 3b는 영상 구간 분리부에서 이미지를 추출하고 대표 이미지를 선정하는 예를 도시한 도면,
도 4는 메타데이터 추출부에서 얼굴을 인식하는 과정을 설명하기 위한 일예를 도시한 도면,
도 5는 메타데이터 추출부에서 Emotion API를 이용한 감정인식의 일예를 설명하기 위한 도면,
도 6은 메타데이터 추출부에서 Faster R-CNN을 이용한 객체인식의 일예를 설명하기 위한 도면,
도 7은 메타데이터 검증부에서 시각정보를 태깅하고 검증하는 일예를 설명하기 위한 도면,
도 8은 동영상 콘텐츠 관리부에서 재생되는 메타데이터 태깅결과의 재생의 일예를 설명하기 위한 도면,
도 9는 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅방법의 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

도 1은 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅 시스템의 구성도이다.

동영상 메타데이터 태깅 시스템은 동영상 콘텐츠 관리부(110), 통합 메타데이터 저장부(120), 메타데이터 학습부(130), 영상 구간 분리부(140), 메타데이터 추출부(150)를 포함하며, 메타데이터 검증부(160)를 더 포함할 수 있다.

통합 메타데이터 저장부(120)는 다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있다. 메타데이터 학습부(130)는 통합 메타데이터 저장부(120)에 저장된 이미지 데이터에 대해 여러가지 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보(캡션 정보)를 생성한다. 영상 구간 분리부(140)는 동영상 콘텐츠 관리부(110)로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정한다. 메타데이터 추출부(150)는 메타데이터 학습부(130)의 학습 결과를 참조하고 여러자기 기계학습 알고리즘을 적용하여, 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 대표 이미지내의 객체, 배경, 소리를 인식하며, 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 통합 메타데이터 저장부(120)에 저장한다.

메타데이터 검증부(160)는 메타데이터 추출부(150)에서 얻어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하도록 하는 사용자 인터페이스를 제공하여 이를 검증할 수 있도록 한다.

도 2는 동영상 콘텐츠 관리부에서 관리하는 영상 데이터베이스의 일예를 도시한 도면이다.

동영상 콘텐츠 관리부(110)는 메타데이터를 추출할 동영상을 동영상 저장부(170)에 저장하거나 이를 목록화하고, 사용자의 선택에 따라 이를 삭제하거나 재생하여 사용자에게 보여준다. 그리고 생성된 메타데이터에 대응되는 JSON 파일을 다운로드할 수 있다.

보다 구체적으로, 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅 시스템은 동영상 콘텐츠 관리부(110)를 통해 영상을 관리한다. 영상 콘텐츠 관리부는 예를 들어 다음과 같은 기능을 수행한다. 첫 번째, 태깅을 위한 영상을 시스템에 업로드 및 삭제를 하는 기능, 두 번째, 플레이어를 통해 플레이하는 기능, 세 번째, 업로드한 영상들을 목록화하는 기능, 네 번째로 메타데이터가 생성되었을 경우 JSON 파일을 다운로드 받을 수 있는 기능과 마지막으로, 태깅 결과를 플레이어를 통해 재생하는 태깅 결과 재생 기능을 포함한다. 영상과 JSON메타데이터는 동영상 저장부(170)에 저장 및 조회되고, 따라서 영상 구간 분리부(140)는 동영상 저장부(170)의 영상에 대한 장면전환 구간과 대표 이미지 추출을 수행할 수 있다.

영상 구간 분리부(140)는 동영상 콘텐츠 관리부(110)로부터 읽어온 동영상 데이터를 프레임 단위로 구분하고 이전 프레임과 현재 프레임과의 픽셀값의 유사성을 비교하여 일정한 임계값 이상인 경우 장면이 전환된 것으로 판단할 수 있으며, 여기서 픽셀값의 유사성은 예를 들어, SAD(Sum of Absolute Difference)를 계산하여 얻어질 수 있다. 이하 영상 구간 분리부(140)를 보다 상세하게 설명한다.

영상에서 메타데이터를 생성하기 위해서는 각 프레임 단위의 이미지로 구분하여 메타데이터 태깅을 수행해야 한다. 본 발명의 일 실시예에 따른 메타데이터 태깅 시스템의 영상 구간 분리부(140)는 동영상 저장부(170)에 저장된 영상의 장면 전환 구간 정보와 프레임 이미지를 추출하여 장면 정보 및 이미지 저장부(180)에 저장하고, 추출된 프레임 이미지 중 대표이미지를 선정한다.

도 3a 및 도 3b는 영상 구간 분리부에서 이미지를 추출하고 대표 이미지를 선정하는 예를 도시한 도면이다.

영상에서 장면이 전환되는 구간을 추출하기 위하여 여러가지 방법을 사용할 수 있다. 일예로, 오픈소스 라이브러리인 FFMPEG을 이용할 수 있다. FFMPEG의 장면 전환 감지 방법은 이전 프레임과의 픽셀의 차를 통해 유사성을 측정하는 SAD(Sum of Absolute Difference)을 이용하여 임계값 이상의 프레임들을 추출한다. SAD는 유사할 경우 0에 가깝다. 본 시스템에서는 일예로 0.25의 임계값을 설정하여 장면 전환 구간을 추출하고, 각각의 구간의 샷 이미지를 10프레임당 1개씩 추출한다. 추출된 샷 구간의 전체 이미지에서 대표이미지를 예를 들어 3개씩 선정하여 저장한다. 동영상의 종류에 따라 임계값, 프레임당 이미지 수, 대표이미지 선정 기준은 달리 설정할 수 있다. 저장된 대표이미지는 메타데이터 추출부(150)를 통해 이미지 인식을 진행한다.

메타데이터 추출부(150)는 메타데이터 태깅을 보다 편리하게 하고, 정확도를 높이기 위하여 먼저 초기 메타데이터를 자동으로 생성한다. 생성된 초기 메타데이터는 통합 메타데이터 저장부(120)에 저장된다. 메타데이터 추출부(150)는 인물 인식과 감정 인식, 행동 인식, 객체 인식, 배경 인식, 소리 인식, 캡션 생성을 수행하고, 인식의 정확률을 높이기 위하여 데이터 오류 탐지 기술과 전이학습을 적용할 수 있다.

도 4는 메타데이터 추출부에서 얼굴을 인식하는 과정을 설명하기 위한 일예를 도시한 도면이다.

보다 구체적으로 메타데이터 추출부(150)는 선정된 대표 이미지에서 얼굴 부분을 찾고 특징점을 추출한 후 일예로 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 얼굴을 인식하여 통합 메타데이터 저장부에 저장한다.

다시 말하면, 이미지 내의 인물의 이름과 얼굴 좌표의 바운딩 박스를 자동으로 추출한다. 얼굴인식을 위해서는 딥러닝을 이용하면 높은 정확도로 얼굴 부분을 추출할 수 있다. 딥러닝기반의 얼굴 인식은 오픈소스 라이브러리인 OpenFace, Microsoft사의 Face API 등을 이용할 수 있다. 대표적인 얼굴 인식 라이브러리는 이미지 내의 얼굴 부분(눈, 코, 입)을 찾아 얼굴 특징점을 추출하고, CNN기반의 모델을 이용하여 벡터로 수치화하여 얼굴을 인식한다. 인식된 얼굴의 이름과 얼굴 좌표의 바운딩 박스가 대표 이미지의 위에 그려지고, 이는 통합 메타데이터 저장부(120)에 저장되고 저장된 메타데이터는 메타데이터 검증부(160)로 전달된다.

도 5는 메타데이터 추출부에서 Emotion API를 이용한 감정인식의 일예를 설명하기 위한 도면이다.

메타데이터 추출부(150)는 인식된 인물에 대해 딥러닝 기법을 적용하여 감정을 인식하여 통합 메타데이터 저장부(120)에 저장할 수 있다. 딥러닝 기반 감정 인식은 Microsoft사의 Emotion API, Affecitva사의 Emotion SDK 등을 예로 들 수 있다. 감정인식에서 감정은 분노(Anger), 혐오(Disgust), 공포(Fear), 행복(Happiness), 슬픔(Sadness), 놀람(Surprise), 자연스러운 상태(Neutral), 더 나아가 멸시(Contempt)로 구분할 수 있다. 이러한 감정들을 0점에서 최대 1점으로 표현하여, 각 감정을 수치화시켜 감정을 인식한다. 인식된 정보는 JSON 형식으로 넘겨지고, 이미지 내에 얼굴 바운딩 박스에 그 수치를 표현한다. 감정인식이 진행된 이미지는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다.

또한, 메타데이터 추출부(150)는 인식된 인물에 대한 신체 부위와 그 부위들간의 연결정보를 표현하는 스켈레톤을 이용하여 딥러닝 기법을 적용하여 행동을 인식할 수 있다.

다시 말하면, 행동인식에서 행동은 자세 혹은 특정 동작을 의미하는데, 이러한 행동을 인식하기 위해서는 신체부위의 위치와 그 부위들 사이의 연결정보를 표현하는 스켈레톤(skeleton)을 이용하는 인식 기술을 예를 들어 사용할 수 있다. 이미지 내에 인물의 행동을 인식하기 위해 딥러닝을 이용하는 방법은 OpenPose, DensePose 등이 있다.

이미지 내의 인물의 얼굴부분, 손가락, 관절 부위를 추출하여 행동을 인식하여 2차원 좌표로 표현하고, 더 나아가 RGB 이미지 상의 인물의 모든 픽셀을 3차원으로 매핑할 수도 있다. 추출된 좌표는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다.

도 6은 메타데이터 추출부에서 Faster R-CNN을 이용한 객체인식의 일예를 설명하기 위한 도면이다.

메타데이터 추출부(150)는 대표 이미지내의 객체를 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 찾아낼 수 있다. 다시 말하면, 이미지 내 객체의 위치 좌표 바운딩 박스와 객체명을 자동으로 추출한다. 바운딩 박스(Bounding Box)는 이미지 내에 객체로 판단되는 위치에 수직, 수평 방향으로 그려지는 직사각형 모양의 박스를 의미한다. 객체 인식에서 딥러닝을 이용하는 방법은 다양하다. 특히, 입력된 이미지의 특징을 추출한 특징 맵을 이용해 객체를 분류하고 인식하는 CNN(Convolutional Neural Network)을 기반으로 하는 Faster R-CNN(Region Proposal CNN) , GBD-Net(Gated bi-directional CNN) 과 YOLO(You Only Look Once) 등이 대표적이며 본 객체인식에서 사용될 수 있다.

메타데이터 추출부(150)는 대표 이미지내의 배경을 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 찾아낼 수 있다.

보다 구체적으로, 영상의 배경인식을 위하여 배경 항목을 분류하여 일반적으로 CNN(Convolutional Neural Network) 기반의 AlexNet, GoogleNet, VGG16을 이용하여 학습시킨다. 대표적인 모델은 MIT의 Places CNN 가 될 수 있다.

딥러닝 기반 배경인식 기술을 이용하여 해당 대표이미지에서 가장 확률이 높은 배경 정보 후보 메타데이터는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다.

메타데이터 추출부(150)는 구간내에 포함된 소리의 종류, 음성 및 화자를 인식할 수 있다. 첫 번째, 소리 종류 인식은 비언어적인 소리까지 인식한다. 소리의 종류는 동영상 콘텐츠에 따라 달리 지정할 수 있으며, 일예로 소리 인식 경연대회인 DCASE (Detection and Classification of Acoustic Scenes and Events)에서는 Speech, Human laughter, Keyboard, Door knock, Coughing, 등으로 구분하여 인식을 진행하는데 본 실시예에서도 이러한 방법을 사용할 수 있다.

두 번째, 음성인식을 위한 STT(Speech To Text) 기술의 원리는 음성 파형에서 단어나 문장을 식별하고 의미를 추출하여 문자로 변환한다. 음성인식은 예를 들어 최근에 많이 사용되고 있는 AI스피커, AI비서 등 음성 대화 시스템이 사용될 수 있으며, 대표적인 오픈 API는 Google의 Cloud Speech API, 네이버의 Clova Speech API, 카카오의 뉴톤(Newtone) 등을 사용할 수 있다.

세 번째, 화자인식은 일반적으로 화자검증기술과 화자식별기술로 구분된다. 화자검증기술은 화자와 음성이 일치하는지 검증하는 기술이고, 화자식별기술은 미리 등록된 음성들 중 입력 음성이 가장 일치한 화자를 식별하는 기술이다. 본 실시예에서는 화자식별기술을 이용하여 영상 내의 인물을 분류하여 화자를 인식한다. 화자 인식은 음성의 특징을 추출하여 분류한다. 화자인식을 위해서는 각 영상 콘텐츠별로 화자를 미리 학습시키고 진행한다. 화자인식을 위한 오픈 API는 Microsoft의 Speaker Recognition, Amazon의 Transcribe 등이 있고 이들 API가 사용될 수 있다.

이렇게 하여 영상 내의 소리의 종류와 음성, 화자를 인식이 가능하고 자동으로 소리에 대한 메타데이터를 생성한다. 생성된 소리 메타데이터는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다. 소리 인식이 원활하게 이루어지는 경우 영상 내의 자막(캡션)을 실시간으로 추출할 수 있다.

메타데이터 추출부(150)는, 얼굴 인식 결과와 객체 인식 결과를 조합하여 얼굴과 객체의 특징을 추출하여 이를 RNN(Recurrent Neural Network) 모델을 적용하여 자연어 문장을 생성함으로써 대표 이미지를 설명하는 문장정보를 생성할 수 있다.

즉 영상의 대표 이미지를 설명하는 캡션(문장)을 생성함으로써 영상을 요약할 수 있으며, 원하는 영상의 내용을 검색하기 용이해진다.

캡션을 생성하기 위해, 딥러닝 모델 중 RNN(Recurrent Neural Network)를 기반으로 하는 모델을 일예로 사용할 수 있다. 이미지 캡션 생성을 위해 앞서 객체 인식 기능과 얼굴 인식 기능을 결합한다. 객체 인식 기능과 얼굴 인식 기능을 이용하여 이미지 내의 객체와 얼굴의 특징을 추출하고, 이를 RNN모델의 입력으로 자연어 문장을 생성한다. 출력되는 문장 속 단어의 연관성을 파악하기 위해서 Attention기법을 사용할 수도 있다. Attention기법에서 캡션 생성은 한 장의 이미지 혹은 여러 장의 이미지를 기반으로 캡션을 생성할 수 있다. 여러 장의 이미지에서 캡션을 3차원 CNN을 활용하여 연속된 여러 장의 이미지에 대한 특징 추출이 가능하다. 추출된 특징들을 기반으로, 캡션이 생성된다.

캡션 생성 결과값은 JSON 형식으로 이미지명과 함께 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)로 전달된다.

메타데이터 추출부(150)의 정확도가 높을수록 메타데이터 검증부(160)에서 메타데이터을 편집할 가능성이 줄어들기 때문에, 작업속도가 향상되며 양질의 메타데이터를 더욱 용이하게 얻을 수 있다.

메타데이터 추출부(150)로 추출된 인물과 감정, 행동, 객체, 배경의 기본 메타데이터는 메타데이터 검증부(160)로 전달된다.

도 7은 메타데이터 검증부에서 시각정보를 태깅하고 검증하는 일예를 설명하기 위한 도면이다.

메타데이터 검증부(160)는 메타데이터 추출부(150)에서 자동으로 추출되어 통합 메타데이터 저장부(120)에 저장된 메타데이터에 대해 시각, 캡션, 소리, 자막 정보 태깅으로 구분하여 각각의 정보에 대해서 검증을 수행한다. 이를 위해 메타데이터 검증부(160)는 검증을 위한 사용자 인터페이스를 제공하고 이를 통해 사용자와의 인터랙션함으로써 검증된다.

메타데이터 검증부(160)는 시각정보 태깅 검증, 캡션정보 태깅 검증 및 소리 및 자막정보 태깅 검증을 위한 사용자 인터페이스를 제공하고, 이를 통한 사용자 조작을 거쳐 검증을 수행한다. 시각정보 태깅 검증과 캡션정보 태깅 검증은 기초 메타데이터가 생성된 대표이미지를 보고 사용자가 해당 메타데이터가 정확한지 검증하여 최종 메타데이터를 생성하게 된다.

도 8은 동영상 콘텐츠 관리부에서 재생되는 메타데이터 태깅결과의 재생의 일예를 설명하기 위한 도면이다.

시각정보의 태깅 결과를 검증하는데 있어 시각정보는 이미지 내의 시각적인 요소인 인물정보(이름, 얼굴 좌표, 몸 전체 좌표, 행동, 감정)와 객체정보(객체명, 객체 위치 좌표), 배경정보를 의미한다. 시각정보의 경우에는 응용예에 따라 항목이 달리 설정될 수 있다. 메타데이터 추출부(150)를 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 초기 JSON결과는 메타데이터 검증부(160)에 전달되어 검증 단계를 거쳐 최종 메타데이터를 생성하게 된다.

먼저, 인물정보 중 이름과 얼굴좌표는 메타데이터 추출부(150)를 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 메타데이터를 전달받으며, 사용자의 검증단계에서 이름과 바운딩 박스의 위치가 수정이 필요할 시에는 편집 기능을 이용해 편집하며, 또한 새로운 바운딩 박스가 필요할 시에는 생성도 가능하다.

인물의 행동정보는 메타데이터 추출부(150)를 통해 메타데이터 레이블을 전달받고, 검증단계에서 사용자는 이미지 내의 인물의 행동과 메타데이터의 레이블과 일치한 지 판단한다. 불일치할 경우, 사용자가 직접 수정한 후 최종 메타데이터를 생성한다. 감정정보의 경우도 행동정보와 같은 단계를 거쳐 최종 메타데이터를 생성하게 된다.

인물 정보 태깅을 위해서, 각각의 항목의 기준을 명확히 해야 질이 좋은 메타데이터를 생성할 수 있다. 인물정보 태깅의 검증단계에서 일반적인 인물 정보 태깅 기준은 다음과 같고, 응용예에 따라 달리 설정될 수 있다.

① 얼굴 정면, 측면만 태깅

② 일정 크기 이상의 얼굴만 태깅

③ 한 구간 내에 감정 표기는 여러 번 태깅 가능

④ 인물의 몸 전체에서 뒷모습은 제외

객체정보 태깅 검증을 위해, 객체 정보의 객체명과 바운딩 박스 위치 또한 메타데이터 추출부(150)의 객체 검출을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 메타데이터를 전달받고, 작업자가 검증단계에서 수정과 생성이 필요할 시에는 편집기능을 이용한다. 객체의 경우, 한 이미지내에서 추출할 수 있는 항목이 가장 많은 메타데이터이기에 인식부의 성능에 따라 비용의 차이가 있다. 객체인식의 성능이 높을수록 자동으로 추출된 메타데이터가 많기 때문에, 객체정보 태깅의 검증단계에서 수정 및 생성 시 소요되는 시간을 줄일 수 있다. 또한, 검증단계를 거치지 않은 객체들은 부정적인 데이터로 인식되어 객체인식의 성능을 떨어뜨리는 문제가 생길 수 있다.

배경정보 태깅 검증을 위해 배경정보는 배경인식을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 통해 메타데이터 레이블을 전달받고, 검증단계에서 작업자는 이미지의 배경과 메타데이터의 레이블이 일치하는지 판단한다. 불일치할 경우, 사용자가 직접 수정한 후 최종 메타데이터를 생성한다. 검증단계에서 두 가지 장소가 한 화면에 나오는 경우, 노출 비율로 항목을 결정한다.

배경정보의 항목 또한, 적용 대상에 따라 달라질 수 있지만 객체의 항목보다 현저히 개수가 낮기 때문에 공통적으로 사용할 수 있다.

캡션정보 태깅 검증에서는 캡션인식을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 메타데이터를 전달받고, 검증단계에서 사용자는 이미지의 상황과 캡션이 일치하는지의 여부를 판단한다. 불일치할 경우, 사용자가 직접 캡션을 수정한 후 최종 메타데이터를 생성한다. 캡션인식에 따라, 캡션의 길이가 달리 생성될 수 있다. 그러므로, 캡션정보 태깅 검증에서는 추가적으로 2개의 캡션을 더 생성한다. 따라서, 최종 메타데이터에서 캡션정보는 3개의 캡션이 생성된다.

소리 및 자막정보 태깅 검증에서는 이미지를 이용하지 않고 영상을 이용하여 태깅한다. 소리정보는 소리인식을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 기본 메타데이터인 소리의 종류와 화자 레이블을 전달받고, 자막정보는 음성인식을 통해 생성된 메타데이터 자막을 전달받는다. 검증단계에서 사용자는 영상의 소리와 화자, 자막이 메타데이터의 레이블과 일치하는지의 여부를 판단한다. 불일치할 경우, 사용자가 직접 수정한 후 최종 메타데이터를 생성한다.

소리태깅 또한, 소리인식의 성능이 높을수록 수정과정에서 소요하는 비용이 낮아지므로, 양질의 데이터가 중요해진다.

최종적으로 생성되는 메타데이터 태깅 결과 데이터를 설명하면 다음과 같다.

시각정보 결과값은, 즉 태깅된 메타데이터 결과는 JSON으로 추출된다. 추출된 JSON파일은 통합 메타데이터 저장부(120)에 저장되고, 동영상 저장부(170)를 통해 영상 콘텐츠 관리부(110)로 전달된다.

시각정보의 JSON 구조의 일 예는 다음과 같다.

"visual_results":
[
{
"image": "image1.jpg",
"period_num": 1,
"period_frame_num": 1,
"start_time": "03:14",
"end_time": "03:18",
"place": "home",
"persons":
{
"MIke":
{
"face_rect":
{
"x": 0,
"y": 0,
"w": 522,
"h": 383
},
"full_rect":
{
"x": 0,
"y": 0,
"w": 522,
"h": 383
},
"behavior" : "stand up",
"emotion" : "happy"
}

}

]

캡션정보 결과값은, 캡션정보의 JSON 구조의 일예는 다음과 같다.

"caption_results":
[
{
"image": "image1.jpg",
"period_num": 1,
"start_time": "03:14",
"end_time": "04:18",
"caption_info":
[
{
"caption1": "he is happy"
},
{
"caption1": "he is nice"
},
{
"caption1": "he is healthy"
}
]
}
]

소리 및 자막정보 결과값, 즉 소리 및 자막정보의 JSON 구조의 일예는 다음과 같다.

"sound_script_results":
{
"start_time": "03:14",
"end_time": "03:18",
"sound_type": "speaking",
"script": "Hello Everyone"
}

영상 콘텐츠 관리부(110)에서는 메타데이터 태깅 결과 재생을 할 수 있으며 생성된 메타데이터의 정보를 영상과 함께 플레이시킬 수 있다. 결과값을 가시화할 수 있어, 해당 메타데이터가 정확한지 한 눈에 확인이 가능하다.

도 9는 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅방법의 흐름도이다.

먼저 미리 학습된 메타데이터를 저장한다(210), 즉 다수의 동영상 데이터에 대해 기계학습 알고리즘을 적용하여 동영상 데이터를 구성하는 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하여 이를 메타데이터로 하여 저장한다. 기계학습 방법이나 메타데이터의 저장의 상세한 방법은 전술한 동영상 메타데이터 태깅 시스템에서 설명한 바와 같다.

다음으로 동영상 데이터를 입력받는다(220). 그리고, 입력된 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정한다(230).

기계학습 알고리즘을 적용하여, 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 만든다(240). 여기서 기계학습 알고리즘은, 예를 들어 CNN(Convolutional Neural Network) 기반의 모델 또는 RNN(Recurrent Neural Network) 모델을 포함하는 딥러닝 기법을 적용하여 얼굴, 감정, 행동, 객체, 배경, 소리를 인식할 수 있다. 대표 이미지의 선정과 메타데이터 생성의 상세한 내용은, 전술한 영상구간 분리부(140) 및 메타데이터 추출부(150)를 통해 설명한 바와 같다.

이렇게 만들어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증한다(250). 메타데이터 검증의 상세한 방법 또한 전술한 메타데이터 검증부(160)를 통해 설명한 바와 같다.

본 발명의 일 실시예에 따른 메타데이터 태깅 시스템의 영상에서 이미지를 추출하고, 시각정보, 캡션정보, 소리정보, 자막정보 태깅하여 하나의 영상에 대한 통합적인 메타데이터를 편리하게 대량으로 생성할 수 있으며 통합 검증 또한 편리하다.

이상에서 본 바와 같이 본 메타데이터 태깅 시스템의 일련의 과정을 통하여 통합 메타데이터를 생성할 때의 작업 속도는 향상이 되고, 시간은 단축되며 양은 증가하게 될 것이다. 또한, 자동 추출 후 여러 번의 검증 단계를 통해 정확도가 높아진다.

더 나아가, 시각정보의 객체 인식 성능 향상을 위해 전이학습 기술을 적용할 수 있다. 전이학습은 하나의 도메인에서 만들어진 모델을 다른 도메인에 적용하는 방법으로, 기존의 모델을 새로운 도메인에 사용했을 때, 성능을 향상 시키기 위해서 적용된다. 새로운 도메인에 모델을 또 다시 학습시키려면 많은 비용이 들고, 학습 데이터를 많이 사용하였음에도 불구하고 새로운 도메인에 모델의 성능이 떨어지는 것을 방지하기 위하여 사용할 수 있다. 또한, 액티브러닝을 통해 메타데이터 태깅의 비용을 낮출 수 있다. 액티브러닝은 레이블이 없는 데이터와 레이블이 있는 데이터가 혼재 할 시, 레이블이 없는 데이터의 레이블을 추정하거나 사용자에게 레이블 입력을 요구하여 학습에 사용하는 방법이다. 이러한 전이학습, 액티브러닝을 메타데이터 태깅 시스템과 함께 이용한다면 메타데이터 생성 시 발생하는 비용을 보다 낮출 수 있으며, 메타데이터의 질을 더욱 높일 수 있다.

기존의 시스템들이 영상기반의 시각정보 메타데이터만을 추출하여 특정 도메인에만 사용할 수 있었다면, 이와 달리 본 발명의 메타데이터 태깅 시스템은 영상에서 양질의 통합 메타데이터를 생성하여 영상을 분석하고 요약할 수 있으며, 영상 검색 시스템, 자막 시스템, 영상 소리 분석 시스템, 방송 콘텐츠 등 영상 콘텐츠를 사용하는 다양한 서비스에서 적용할 수 있다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

110 영상 콘텐츠 관리부 120 통합 메타데이터 저장부
130 메타데이터 학습부 140 영상 구간 분리부
150 메타데이터 추출부 160 메타데이터 검증부
170 동영상 저장부 180 장면정보 및 이미지 저장부

Claims

다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있는 통합 메타데이터 저장부;
상기 통합 메타데이터 저장부에 저장된 이미지 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하는 메타데이터 학습부;
동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 영상 구간 분리부; 및
상기 메타데이터 학습부의 학습 결과를 참조하고 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 상기 통합 메타데이터 저장부에 저장하는 메타데이터 추출부를 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서,
상기 메타데이터 추출부에서 얻어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증하도록 하는 사용자 인터페이스를 제공하는 메타데이터 검증부를 더 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 동영상 콘텐츠 관리부는
상기 메타데이터를 추출할 동영상을 동영상 저장부에 저장하거나 이를 목록화하고, 사용자의 선택에 따라 이를 삭제하거나 재생하여 사용자에게 보여주는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 동영상 콘텐츠 관리부는
상기 생성된 메타데이터에 대응되는 JSON 파일을 다운로드하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 영상 구간 분리부는
동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터를 프레임 단위로 구분하고 이전 프레임과 현재 프레임과의 픽셀값의 유사성을 비교하여 소정의 임계값 이상인 경우 장면이 전환된 것으로 판단하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제5항에 있어서,
상기 픽셀값의 유사성은 SAD(Sum of Absolute Difference)를 계산하여 얻어지는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 메타데이터 추출부는
상기 선정된 대표 이미지에서 얼굴 부분을 찾고 특징점을 추출한 후 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 얼굴을 인식하여 통합 메타데이터 저장부에 저장하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 메타데이터 추출부는,
상기 인식된 인물에 대해 딥러닝 기법을 적용하여 감정을 인식하여 통합 메타데이터 저장부에 저장하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 메타데이터 추출부는,
상기 인식된 인물에 대한 신체 부위와 그 부위들간의 연결정보를 표현하는 스켈레톤을 이용하여 딥러닝 기법을 적용하여 행동을 인식하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 메타데이터 추출부는
상기 대표 이미지내의 객체, 배경을 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 찾아내는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 메타데이터 추출부는,
상기 구간내에 포함된 소리의 종류, 음성 및 화자를 인식하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
제1항에 있어서, 상기 메타데이터 추출부는,
얼굴 인식 결과와 객체 인식 결과를 조합하여 얼굴과 객체의 특징을 추출하여 이를 RNN(Recurrent Neural Network) 모델을 적용하여 자연어 문장을 생성함으로써 상기 대표 이미지를 설명하는 문장정보를 생성하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
다수의 동영상 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 동영상 데이터를 구성하는 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하여 이를 메타데이터로 하여 저장하는 단계;
입력된 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 단계; 및
소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 만드는 단계를 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 방법.
제13항에 있어서,
상기 생성된 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증하는 단계를 더 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 방법.
제1항에 있어서, 메타데이터를 만드는 단계는
CNN(Convolutional Neural Network) 기반의 모델 또는 RNN(Recurrent Neural Network) 모델을 포함하는 딥러닝 기법을 적용하여 얼굴, 감정, 행동, 객체, 배경, 소리를 인식하는 것을 특징으로 하는 동영상 메타데이터 태깅 방법.