KR20200063316A

KR20200063316A - 각본 기반의 영상 검색 장치 및 방법

Info

Publication number: KR20200063316A
Application number: KR1020180143616A
Authority: KR
Inventors: 곽창욱; 김선중; 박종현; 손정우; 한민호
Original assignee: 한국전자통신연구원
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-06-05

Abstract

각본 기반의 영상 검색 장치가 개시된다. 본 개시의 일 실시 예에 따른 각본 기반의 영상 검색 장치는 영상 컨텐츠를 장면 단위로 분할하여 장면 영상을 구성하는 영상 분할부와, 상기 저장 영상 콘텐츠에 대응되는 각본을 상기 장면 단위로 분할하여 장면 각본을 구성하는 각본 분할부와, 상기 장면 각본에 대응되는 적어도 하나의 저장벡터를 생성하고, 상기 적어도 하나의 저장벡터 및 장면 영상을 저장 및 관리하는 장면 영상/각본 관리부와, 사용자로부터 입력되는 검색 각본을 확인하고, 상기 검색 각본에 대응되는 검색벡터를 생성하는 검색벡터 생성부와, 상기 검색벡터 및 저장벡터의 유사도를 기반으로, 상기 검색 각본에 대응되는 검색 결과를 제공하는 검색 처리부를 포함할 수 있다.

Description

각본 기반의 영상 검색 장치 및 방법{APPARATUS FOR SEARCHING VIDEO BASED ON SCRIPT AND METHOD FOR THE SAME}

본 개시는 영상 콘텐츠 검색 및 장치에 관한 것이며, 보다 구체적으로는 영상 콘텐츠에 포함된 장면 영상을 저장 및 검색하는 방법 및 장치에 대한 것이다.

인터넷을 통한 다운로드 속도가 빨라져 감에 따라, 사용자들은 인터넷을 통하여 고용량의 데이터를 용이하게 전송하거나 전송 받을 수 있게 되었다. 따라서, 기존에는 엄두도 내지 못하던 고화질의 영상 콘텐츠를 인터넷을 통하여 다운로드 받아서 실시간으로 재생하는 것이 흔한 일이 되어 가고 있다.

실제로, 대부분의 TV 프로그램을 인터넷을 통하여 다시 볼 수 있으며, 인터넷을 통하여 공중파/위성 TV, 영화, 뮤직비디오 및 스포츠 중계 등의 다양한 영상 콘텐츠 제공되고 있다.

영상 콘텐츠를 시청하고자 하는 경우, 사용자는 인터넷을 통하여 제공되는 수많은 동영상들 중 원하는 영상 콘텐츠를 검색하는데, 일반적으로 프로그램 제목, 등장인물 등과 같은 키워드를 이용하여 검색을 수행하고 있다.

한편, 사용자는 영상 콘텐츠의 일부 내용에 대해서 관심이 있는 경우가 많다. 즉, 사용자가 영상 콘텐츠 전체가 아니라 영상 콘텐츠의 일부분 내용에 대해서 관심을 가지는 경우가 많다. 그러나, 영상 콘텐츠의 일부분에 대한 검색을 정확하게 처리하는 방법이 제공되지 않고 있다.

전술한 바를 고려하여, 영상 콘텐츠에 포함된 일부 영역, 예, 장면 영상을 검색을 하려는 시도가 있으나, 대부분 키워드 기반의 검색 기법을 사용하고 있어, 사용자가 원하는 영상 콘텐츠 또는 장면 영상을 정확하게 제공하지 못하는 문제가 있다.

본 개시의 기술적 과제는 영상 콘텐츠와 관련된 각본을 사용하여 보다 정확한 장면 영상을 검색할 수 있는 각본 기반의 영상 검색 장치 및 방법을 제공하는데 있다.

본 개시의 다른 기술적 과제는 장면 영상에 대응되는 각본 정보를 벡터화하여 저장 및 관리함으로써 빠르고 정확하게 장면 영상을 제공할 수 있는 각본 기반의 영상 검색 장치 및 방법을 제공하는 것이다.

본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 양상에 따르면 각본 기반의 영상 검색 장치가 제공될 수 있다. 상기 장치는 영상 검색 장치에 있어서, 영상 컨텐츠를 장면 단위로 분할하여 장면 영상을 구성하는 영상 분할부와, 상기 저장 영상 콘텐츠에 대응되는 각본을 상기 장면 단위로 분할하여 장면 각본을 구성하는 각본 분할부와, 상기 장면 각본에 대응되는 적어도 하나의 저장벡터를 생성하고, 상기 적어도 하나의 저장벡터 및 장면 영상을 저장 및 관리하는 장면 영상/각본 관리부와, 사용자로부터 입력되는 검색 각본을 확인하고, 상기 검색 각본에 대응되는 검색벡터를 생성하는 검색벡터 생성부와, 상기 검색벡터 및 저장벡터의 유사도를 기반으로, 상기 검색 각본에 대응되는 검색 결과를 제공하는 검색 처리부를 포함할 수 있다.

본 개시의 일 양상에 따르면 각본 기반의 영상 검색 방법이 제공될 수 있다. 상기 방법은 영상 컨텐츠를 장면 단위로 분할하여 장면 영상을 구성하는 과정과, 상기 저장 영상 콘텐츠에 대응되는 각본을 상기 장면 단위로 분할하여 장면 각본을 구성하는 과정과, 상기 장면 각본에 대응되는 적어도 하나의 저장벡터를 생성하고, 상기 적어도 하나의 저장벡터 및 장면 영상을 저장하는 과정과, 사용자로부터 검색 각본을 입력받는 과정과, 상기 검색 각본에 대응되는 검색벡터를 생성하는 과정과, 상기 검색벡터 및 저장벡터의 유사도를 기반으로, 상기 검색 각본에 대응되는 검색 결과를 제공하는 과정을 포함할 수 있다.

본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.

본 개시에 따르면, 영상 콘텐츠와 관련된 각본을 사용하여 보다 정확한 장면 영상을 검색할 수 있는 각본 기반의 영상 검색 장치 및 방법이 제공될 수 있다.

또한, 본 개시에 따르면, 장면 영상에 대응되는 각본 정보를 벡터화하여 저장 및 관리함으로써 빠르고 정확하게 장면 영상을 제공할 수 있는 영상 콘텐츠와 관련된 각본을 사용하여 보다 정확한 장면 영상을 검색할 수 있는 각본 기반의 영상 검색 장치 및 방법이 제공될 수 있다.

또한, 본 개시에 따르면, 영상 검색에 있어 장소, 시간, 지문, 대사를 포함한 각본을 사용하므로, 영상 컨텐츠에 포함된 내용과 관련된 장명 영상을 정밀하게 검색할 수 있는 각본 기반의 영상 검색 장치 및 방법이 제공될 수 있다.

또한, 본 개시에 따르면, 영상 컨텐츠의 장면단위에 대한 각본을 사용하여 특징벡터를 구성하고 이를 사용하여 영상 컨텐츠의 장면단위를 저장 및 관리함으로써, 검색 질의가 정확하게 일치하지 않더라도 영상 컨텐츠의 장면단위에 포함된 구성정보와 유사성이 높은 영상 콘텐츠를 검출할 수 있다.

또한, 본 개시에 따르면, 영상 컨텐츠의 장면단위에 대한 각본을 기반으로 메타데이터를 생성함으로써, 다양한 요소들을 메타데이터 생성에 반영할 수 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치의 구성을 도시하는 블록도이다.
도 2는 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치에 구비된 장면 영상/각본 관리부의 상세 구성을 도시하는 블록도이다.
도 3은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치에서 사용되는 구성정보를 예시하는 도면이다.
도 4는 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치에서 저장벡터를 구성하는 동작을 예시하는 도면이다.
도 5는 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치에 구비된 검색벡터 생성부의 상세 구성을 도시하는 블록도이다.
도 6은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 방법의 순서를 도시하는 흐름도이다.
도 7은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 방법 및 장치를 실행하는 컴퓨팅 시스템을 예시하는 블록도이다.

이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.

본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.

이하, 첨부한 도면을 참조하여 본 개시의 실시 예들에 대해서 설명한다.

도 1은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치의 구성을 도시하는 블록도이다.

도 1을 참조하면, 각본 기반의 영상 검색 장치는 영상 분할부(11), 각본 분할부(12), 장면 영상/각본 관리부(13), 검색벡터 생성부(17), 및 검색 처리부(18)를 포함할 수 있다.

영상 분할부(11)는 영상 컨텐츠를 입력받고, 영상 콘텐츠를 적어도 하나의 장면 단위로 분할한 장면 영상을 구성할 수 있다.

영상 콘텐츠는 미리 정해진 시간단위마다 연속적으로 촬영된 이미지를 포함하도록 구성될 수 있다. 또한, 영상 콘텐츠는 영상 콘텐츠의 제작자가 구성한 각본에 기초하여 다양한 장소 또는 시간에서 촬영될 수 있다. 따라서, 영상 분할부(11)는 영상 콘텐츠에서 연속적으로 촬영된 이미지들 사이의 차이 또는 관계를 확인하여 적어도 하나의 장면 단위를 식별할 수 있고, 이에 디초하여 장면 영상을 구성할 수 있다.

예컨대, 영상 분할부(11)는 영상 콘텐츠의 영상 특징(예, 프레임 종류, 계수, 색 분포 등)을 분석하여 샷 단위를 구분하고, 샷 단위의 연속성을 확인하여, 장면 단위를 구분할 수 있다.

한편, 각본은 장소, 시간 정보, 지문, 대사, 등장인물 등과 같은 구성정보가 포함될 수 있으며, 이러한 구성정보는 미리 정해진 형식에 맞춰 나열된 텍스트의 조합을 포함할 수 있다. 나아가, 각본은 영상 콘텐츠의 제작을 위해, 장소, 시간등이 지정되어 있으며, 해당 장소와 시간에 촬영할 내용, 즉, 지문, 대사, 등장인물 등의 정보가 포함되어 있다. 따라서, 각본은 장소, 시간 등을 기준으로 구분될 수 있도록, 미리 정해진 형식에 맞춰 장면 단위를 식별할 수 있도록 구성되어 있다. 예컨대, 각본은 장면을 식별하는 장면 식별자(예컨대, 번호, 장면 ID 등)와, 장면이 촬영될 장소, 시간 정보 등을 간략하게 나타내는 장면 머리글 등을 포함할 수 있다.

전술한 바에 기초하여, 각본 분할부(12)는 각본에서, 장면 식별자, 장면 머리글 등을 검출하고, 장면 식별자, 장면 머리글 등을 기준으로 장면 단위를 분할할 수 있다. 그리고, 각본 분할부(12)는 장면 단위로 분할한 각본을 장면 각본으로 구성할 수 있다.

장면 영상/각본 관리부(13)는 영상 분할부(11)에서 생성된 장면 영상과, 각본 분할부(12)에서 생성된 장면 각본을 데이터베이스(14)에 저장할 수 있다. 특히, 장면 영상/각본 관리부(13)는 상기 장면 각본에 대응되는 적어도 하나의 저장벡터를 생성하고, 상기 적어도 하나의 저장벡터를 사용하여 장면 각본을 저장할 수 있다. 그리고, 장면 영상/각본 관리부(13)는 상기 적어도 하나의 저장벡터와 연동하여 장면 영상을 저장할 수 있다.

구체적으로, 장면 영상/각본 관리부(13)는 자연어 처리를 통해, 장면 각본에 포함된 적어도 하나의 구성정보, 예컨대, 장소, 시간 정보, 지문, 대사, 등장인물 등을 검출할 수 있으며, 이렇게 검출한 구성정보 각각에 대한 벡터값을 생성할 수 있다. 그리고, 장면 영상/각본 관리부(13)는 생성된 벡터값을 조합하여 저장벡터를 구성할 수 있으며, 저장벡터를 메타데이터 저장부(14b)에 저장할 수 있다.

장면 영상/각본 관리부(13)의 구체적인 구성 및 동작은 하기의 도 2를 통해 상세히 설명한다.

한편, 검색벡터 생성부(17)는 사용자로부터 입력되는 검색 각본을 확인하고, 상기 검색 각본에 대응되는 검색벡터를 생성할 수 있다. 그리고, 검색벡터 생성부(17)는 생성된 검색벡터를 검색 처리부(18)로 전달하여 장면 각본의 검색을 요청할 수 있다. 검색벡터 생성부(17)는, 각본 분할부(12)가 장면 각본을 구성하는 방식과, 장면 영상/각본 관리부(13)가 저장벡터를 구성하는 방식에 기초하여, 검색 각본을 장면 단위로 구분하고, 장면 단위로 구분된 검색 각본에 대한 검색벡터를 생성할 수 있다.

검색 처리부(18)는 검색벡터와, 메타데이터 저장부(14b)에 저장된 저장벡터에 대한 유사도를 산출할 수 있으며, 산출된 유사도를 기반으로 검색결과를 제공할 수 있다. 이때, 검색 처리부(18)는 검색벡터를 질의정보로서 사용하고, 메타데이터 저장부(14b)에 저장된 검색벡터를 대상으로 하기의 수학식 1과 같이 유사도(cor(ρ₁, ρ₂))를 산출할 수 있다.

수학식 1에서, ρ₁은 검색 각본을 식별하는 식별자를 나타내고, ρ₂는 메타데이터 저장부(14b)에 저장된 장면 각본을 식별하는 식별자를 나타내고, wv_ρ1은 ρ₁에 대응되는 검색벡터를 나타내고, wv_ρ2 는 ρ₂에 대응되는 저장벡터를 나타낸다.

도 2는 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치에 구비된 장면 영상/각본 관리부의 상세 구성을 도시하는 블록도이다.

도 2를 참조하면, 장면 영상/각본 관리부(20)는 동기화부(21), 각본 분석부(23), 및 저장벡터 관리부(25)를 포함할 수 있다.

우선, 동기화부(21)는 장면 영상(201)과, 장면 각본(203)에 대한 동기화를 수행할 수 있다. 예컨대, 동기화부(21)는 장면 영상(201)에 포함된 자막정보와, 장면 각본(203)에 포함된 구성정보(예, 대사)를 사용하여 동기화를 수행할 수 있는데, 상기 자막정보는 영상 분할부(11)로부터 제공받을 수 있으며, 장면 각본(203)에 포함된 구성정보(예, 대사)는 각본 분석부(23)로부터 제공받을 수 있다.

그리고, 동기화부(21)는 자막정보와 구성정보(예, 대사) 사이의 텍스트 유사도를 산출 및 비교하여 장면 영상(201)과, 장면 각본(203)에 대한 동기화를 수행할 수 있다. 이때, 자막정보와 구성정보(예, 대사) 사이의 텍스트 유사도를 산출은 자막정보와 구성정보(예, 대사)를 대상으로 에디트 거리(Edit distance)를 산출하여 처리할 수 있다.

각본 분석부(23)는 장면 각본을 구성하는 구성정보의 미리 정해진 형식을 고려하여, 장면 각본에 포함된 구성정보를 추출할 수 있다. 예를 들어, 각본 분석부(23)는 장면 각본에 포함된 자연어를 분석하고, 분석된 자연어가 나타내는 형식 또는 패턴을 고려하여 머리글, 대사, 지문 등을 구분할 수 있다.

모든 각본이 동일한 형식 또는 패턴으로 구성되지는 않으나, 일반적으로 각본은 머리글, 대사, 지문 등은 서로 다른 형식 또는 패턴을 구비하도록 구성될 수 있다. 즉, 각본 분석부(23)는 문장이 시작되는 지점의 공백, 기호를 인식하고, 문장이 시작되는 지점의 공백, 기호가 나타내는 형식 또는 패턴을 통해 머리글, 대사, 지문 등을 구분할 수 있다.

또한, 각본 분석부(23)는 머리글에서 장소, 시간 정보를 추출하고, 대사에서는 발화자 정보, 지시문, 대사를 추출할 수 있다. 지문에는 문장들이 결집된 문단 단위로 구성되어 있고, 완전하지 않은 문장이 포함될 가능성이 높다. 따라서, 각본 분석부(23)는 문장의 경계를 인식하고, 문장 단위로 분리하여 지문을 검출할 수 있다.

전술한 바와 같이, 각본 분석부(23)는 장면 각본을 구성하는 구성정보의 미리 정해진 형식 또는 패턴을 고려하여, 도 3에 예시되는 구성정보(301, 302, 303, 304, 305, 306)를 추출할 수 있다.

저장벡터 관리부(25)는 장면 각본을 구성하는 구성정보에 대한 벡터값을 산출하여 저장벡터를 구성할 수 있다. 그리고, 저장벡터 관리부(25)는 구성된 저장벡터를 메타데이터로서 저장 및 관리할 수 있으며, 장면 영상과 연동하여, 장면 영상을 관리하는데 사용할 수 있다.

구체적으로, 장면 각본 내에는 장소, 시간 정보, 지문, 대사, 등장인물 등과 같은 다양한 구성정보가 포함될 수 있는데, 저장벡터 관리부(25)는 이러한 다양한 구성정보 각각에 대한 벡터값을 산출할 수 있다. 그리고, 저장벡터 관리부(25)는 다양한 구성정보에 대한 벡터값을 조합하여 저장벡터를 구성할 수 있다. 예컨대, 저장벡터 관리부(25)는 다양한 구성정보 각각에 대한 벡터값의 평균값을 산출하여 저장벡터를 구성할 수 있다.

이하, 도 4를 참조하여, 저장벡터 관리부(25)가 저장벡터를 구성하는 동작을 상세히 설명한다.

나아가, 장소와 시간, 등장인물과 같은 구성정보는 일반적으로 단어 단위가 1 내지 2문자로 이루어질 수 있다. 이에 기초하여, 저장벡터 관리부(25)는 단어 임베딩 학습 모델을 구비할 수 있으며, 단어 임베딩 학습 모델을 통해 장소와 시간, 등장인물 등과 같은 구성정보의 벡터값을 산출할 수 있다(402).

반면, 지문, 대사 등의 구성정보는 문장 단위로 이루어져 있으며, 이러한 문장 단위를 특정 단위로 표현하기 어렵다. 특히, 구어체로 이루어진 대사는 단어의 순서와 문장 전체의 맥락이 중요하지만 키워드 메타데이터 생성에서는 반영하기 어렵다. 따라서, 저장벡터 관리부(25)는 RNN(Recurrent Neural Networks) 학습 모델을 구비할 수 있으며, RNN 학습 모델을 통해 지문, 대사 등의 구성정보에 대한 벡터값을 산출할 수 있다(403).

이를 위해, 저장벡터 관리부(25)는 장면 각본에 포함된 구성정보의 종류, 즉, 장소, 시간 정보, 지문, 대사, 등장인물 등을 우선적으로 확인(401)할 수 있으며, 확인된 구성정보의 종류에 따라, 해당 구성정보를 단어 임베딩 학습 모델 또는 RNN 학습 모델에 입력할 수 있으며, 단어 임베딩 학습 모델 또는 RNN 학습 모델가 그 결과값으로서 구성정보에 대한 벡터값을 출력할 수 있다. 그리고, 저장벡터 관리부(25)는 전술한 구성정보에 대한 벡터값을 조합하여 저장벡터를 구성할 수 있다(404).

도 5는 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치에 구비된 검색벡터 생성부의 상세 구성을 도시하는 블록도이다.

도 5를 참조하면, 검색벡터 생성부(50)는 검색각본 분석부(51), 특징벡터 생성부(53), 및 검색벡터 처리부(55)를 포함할 수 있다.

검색각본 분석부(51)는 각본을 구성하는 구성정보의 미리 정해진 형식을 고려하여, 검색각본에 포함된 구성정보를 추출할 수 있다. 예를 들어, 검색각본 분석부(51)는 장면 각본에 포함된 자연어를 분석하고, 분석된 자연어가 나타내는 형식 또는 패턴을 고려하여 머리글, 대사, 지문 등을 구분할 수 있다.

모든 각본이 동일한 형식 또는 패턴으로 구성되지는 않으나, 일반적으로 각본은 머리글, 대사, 지문 등은 서로 다른 형식 또는 패턴을 구비하도록 구성될 수 있다. 즉, 검색각본 분석부(51)는 문장이 시작되는 지점의 공백, 기호를 인식하고, 문장이 시작되는 지점의 공백, 기호가 나타내는 형식 또는 패턴을 통해 머리글, 대사, 지문 등을 구분할 수 있다.

또한, 검색각본 분석부(51)는 머리글에서 장소, 시간 정보를 추출하고, 대사에서는 발화자 정보, 지시문, 대사를 추출할 수 있다. 지문에는 문장들이 결집된 문단 단위로 구성되어 있고, 완전하지 않은 문장이 포함될 가능성이 높다. 따라서, 검색각본 분석부(51)는 문장의 경계를 인식하고, 문장 단위로 분리하여 지문을 검출할 수 있다.

나아가, 검색각본 분석부(51)는 검색각본에 포함된 구성정보를 추출함에 있어서, 추출된 구성정보의 종류를 확인할 수 있으며, 구성정보의 종류(예, 장소, 시간 정보, 지문, 대사, 등장인물 등)를 구분하여 출력할 수 있다.

특징벡터 생성부(53)는 검색각본 분석부(51)가 제공하는 구성정보 각각에 대한 벡터값을 산출할 수 있다. 특징벡터 생성부(53)가 특징벡터를 산출하는 방식은 전술한 저장벡터 관리부(25)가 저장벡터를 구성을 위해 벡터값을 산출하는 방식에 대응되도록 구성될 수 있다.

특히, 장소와 시간, 등장인물과 같은 구성정보는 일반적으로 단어 단위가 1 내지 2문자로 이루어질 수 있다. 이에 기초하여, 구성정보의 종류가 장소, 시간, 등장인물인 경우, 특징벡터 생성부(53)는 단어 임베딩 학습 모델을 통해 장소와 시간, 등장인물 등과 같은 구성정보의 벡터값을 산출할 수 있다.

반면, 지문, 대사 등의 구성정보는 문장 단위로 이루어져 있으며, 이러한 문장 단위를 특정 단위로 표현하기 어렵다. 특히, 구어체로 이루어진 대사는 단어의 순서와 문장 전체의 맥락이 중요하지만 키워드 메타데이터 생성에서는 반영하기 어렵다. 따라서, 구성정보의 종류가 지문, 대사 등일 경우, 특징벡터 생성부(53)는, RNN 학습 모델을 통해 지문, 대사 등의 구성정보에 대한 벡터값을 산출할 수 있다.

검색벡터 처리부(55)는 특징벡터 생성부(53)가 생성한 벡터값을 조합하여 검색벡터를 구성할 수 있으며, 검색벡터를 구성하는 방식은 저장벡터 관리부(25)가 저장벡터를 구성하는 방식에 대응되도록 구성될 수 있다. 예컨대, 검색벡터 처리부(55)는 특징벡터 생성부(53)가 생성한 벡터값에 대한 평균값을 산출하여 검색벡터를 구성할 수 있다.

도 6은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 방법의 순서를 도시하는 흐름도이다.

본 개시의 일 실시예에 따른 각본 기반의 영상 검색 방법은 전술한 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치(이하, '영상 검색 장치'라 함)에 의해 수행될 수 있다.

본 개시의 일 실시예에 따른 각본 기반의 영상 검색 방법은 크게 각본 기반의 영상을 저장하는 동작(S610)과, 각본 기반의 영상을 검색하는 동작(S620)으로 구분할 수 있다.

우선, 각본 기반의 영상을 저장하는 동작(S610)에 대하여 설명한다.

S611 단계에서, 영상 검색 장치는 영상 컨텐츠를 입력받고, 영상 콘텐츠를 적어도 하나의 장면 단위로 분할한 장면 영상을 구성할 수 있다.

영상 콘텐츠는 미리 정해진 시간단위마다 연속적으로 촬영된 이미지를 포함하도록 구성될 수 있다. 또한, 영상 콘텐츠는 영상 콘텐츠의 제작자가 구성한 각본에 기초하여 다양한 장소 또는 시간에서 촬영될 수 있다. 따라서, 영상 검색 장치는 영상 콘텐츠에서 연속적으로 촬영된 이미지들 사이의 차이 또는 관계를 확인하여 적어도 하나의 장면 단위를 식별할 수 있고, 이에 디초하여 장면 영상을 구성할 수 있다.

예컨대, 영상 검색 장치는 영상 콘텐츠의 영상 특징(예, 프레임 종류, 계수, 색 분포 등)을 분석하여 샷 단위를 구분하고, 샷 단위의 연속성을 확인하여, 장면 단위를 구분할 수 있다.

전술한 바에 기초하여, 영상 검색 장치는 각본에서, 장면 식별자, 장면 머리글 등을 검출하고, 장면 식별자, 장면 머리글 등을 기준으로 장면 단위를 분할할 수 있다. 그리고, 영상 검색 장치는 장면 단위로 분할한 각본을 장면 각본으로 구성할 수 있다(S612).

S613 단계에서, 영상 검색 장치는 장면 영상과, 장면 각본에 대한 동기화를 수행할 수 있다. 예컨대, 영상 검색 장치는 장면 영상에 포함된 자막정보와, 장면 각본에 포함된 구성정보(예, 대사)를 사용하여 동기화를 수행할 수 있는데, 자막정보와 구성정보(예, 대사) 사이의 텍스트 유사도를 산출 및 비교하여 장면 영상과, 장면 각본에 대한 동기화를 수행할 수 있다. 이때, 자막정보와 구성정보(예, 대사) 사이의 텍스트 유사도를 산출은 자막정보와 구성정보(예, 대사)를 대상으로 에디트 거리(Edit distance)를 산출하여 처리할 수 있다.

S614 단계에서, 영상 검색 장치는 장면 각본을 구성하는 구성정보의 미리 정해진 형식을 고려하여, 장면 각본에 포함된 구성정보를 추출할 수 있다. 예를 들어, 영상 검색 장치는 장면 각본에 포함된 자연어를 분석하고, 분석된 자연어가 나타내는 형식 또는 패턴을 고려하여 머리글, 대사, 지문 등을 구분할 수 있다.

모든 각본이 동일한 형식 또는 패턴으로 구성되지는 않으나, 일반적으로 각본은 머리글, 대사, 지문 등은 서로 다른 형식 또는 패턴을 구비하도록 구성될 수 있다. 즉, 영상 검색 장치는 문장이 시작되는 지점의 공백, 기호를 인식하고, 문장이 시작되는 지점의 공백, 기호가 나타내는 형식 또는 패턴을 통해 머리글, 대사, 지문 등을 구분할 수 있다.

또한, 영상 검색 장치는 머리글에서 장소, 시간 정보를 추출하고, 대사에서는 발화자 정보, 지시문, 대사를 추출할 수 있다. 지문에는 문장들이 결집된 문단 단위로 구성되어 있고, 완전하지 않은 문장이 포함될 가능성이 높다. 따라서, 영상 검색 장치는 문장의 경계를 인식하고, 문장 단위로 분리하여 지문을 검출할 수 있다.

S615 단계에서, 영상 검색 장치는 장면 각본을 구성하는 구성정보에 대한 벡터값을 산출할 수 있다. 구체적으로, 장면 각본 내에는 장소, 시간 정보, 지문, 대사, 등장인물 등과 같은 다양한 구성정보가 포함될 수 있는데, 영상 검색 장치는 이러한 다양한 구성정보 각각에 대한 벡터값을 산출할 수 있다.

나아가, 장소와 시간, 등장인물과 같은 구성정보는 일반적으로 단어 단위가 1 내지 2문자로 이루어질 수 있다. 이에 기초하여, 영상 검색 장치는 단어 임베딩 학습 모델을 구비할 수 있으며, 단어 임베딩 학습 모델을 통해 장소와 시간, 등장인물 등과 같은 구성정보의 벡터값을 산출할 수 있다.

반면, 지문, 대사 등의 구성정보는 문장 단위로 이루어져 있으며, 이러한 문장 단위를 특정 단위로 표현하기 어렵다. 특히, 구어체로 이루어진 대사는 단어의 순서와 문장 전체의 맥락이 중요하지만 키워드 메타데이터 생성에서는 반영하기 어렵다. 따라서, 영상 검색 장치는 RNN(Recurrent Neural Networks) 학습 모델을 구비할 수 있으며, RNN 학습 모델을 통해 지문, 대사 등의 구성정보에 대한 벡터값을 산출할 수 있다.

이를 위해, S615 단계에서, 영상 검색 장치는 장면 각본에 포함된 구성정보의 종류, 즉, 장소, 시간 정보, 지문, 대사, 등장인물 등을 우선적으로 확인할 수 있으며, 확인된 구성정보의 종류에 따라, 해당 구성정보를 단어 임베딩 학습 모델 또는 RNN 학습 모델에 입력할 수 있으며, 단어 임베딩 학습 모델 또는 RNN 학습 모델가 그 결과값으로서 구성정보에 대한 벡터값을 출력할 수 있다.

S616 단계에서, 영상 검색 장치는 다양한 구성정보에 대한 벡터값을 조합하여 저장벡터를 구성할 수 있다. 예컨대, 영상 검색 장치는 다양한 구성정보 각각에 대한 벡터값의 평균값을 산출하여 저장벡터를 구성할 수 있다.

한편, 각본 기반의 영상을 검색하는 동작(S620)은 사용자로부터 입력된 검색 각본을 확인함(S621)에 따라 그 동작이 개시될 수 있다.

예컨대, 영상 검색 장치는 검색 각본을 입력받을 수 있는 메뉴 또는 사용자 입력 인터페이스를 제공할 수 있으며, 검색 각본을 입력받을 수 있는 메뉴 또는 사용자 입력 인터페이스를 통해 검색 각본을 입력받고, 이러한 동작에 의해 입력된 검색 각본을 확인할 수 있다.

영상의 검색이 개시되는 동작이나, 검색 각본의 입력 동작은 본 개시의 기술분야에서 통상의 지식을 가진자에 의해 다양하게 변경될 수 있다.

한편, S622 단계에서, 영상 검색 장치는 각본을 구성하는 구성정보의 미리 정해진 형식을 고려하여, 검색각본에 포함된 구성정보를 추출할 수 있다. 예를 들어, 영상 검색 장치는 장면 각본에 포함된 자연어를 분석하고, 분석된 자연어가 나타내는 형식 또는 패턴을 고려하여 머리글, 대사, 지문 등을 구분할 수 있다.

나아가, 영상 검색 장치는 검색각본에 포함된 구성정보를 추출함에 있어서, 추출된 구성정보의 종류를 확인할 수 있으며, 구성정보의 종류(예, 장소, 시간 정보, 지문, 대사, 등장인물 등)를 구분하여 출력할 수 있다.

S623 단계에서, 영상 검색 장치는 S622 단계에서 확인한 구성정보 각각에 대한 벡터값을 산출할 수 있다. 영상 검색 장치가 특징벡터를 산출하는 방식은 전술한 S615 단계에서 벡터값을 산출하는 방식에 대응되도록 구성될 수 있다.

구체적으로, 장소와 시간, 등장인물과 같은 구성정보는 일반적으로 단어 단위가 1 내지 2문자로 이루어질 수 있다. 이에 기초하여, 구성정보의 종류가 장소, 시간, 등장인물인 경우, 영상 검색 장치는 단어 임베딩 학습 모델을 통해 장소와 시간, 등장인물 등과 같은 구성정보의 벡터값을 산출할 수 있다.

반면, 지문, 대사 등의 구성정보는 문장 단위로 이루어져 있으며, 이러한 문장 단위를 특정 단위로 표현하기 어렵다. 특히, 구어체로 이루어진 대사는 단어의 순서와 문장 전체의 맥락이 중요하지만 키워드 메타데이터 생성에서는 반영하기 어렵다. 따라서, 구성정보의 종류가 지문, 대사 등일 경우, 영상 검색 장치는, RNN 학습 모델을 통해 지문, 대사 등의 구성정보에 대한 벡터값을 산출할 수 있다.

S624 단계에서, 영상 검색 장치는 S623 단계에서 생성한 벡터값을 조합하여 검색벡터를 구성할 수 있으며, 검색벡터를 구성하는 방식은 S616 단계에서 저장벡터를 구성하는 방식에 대응되도록 구성될 수 있다. 예컨대, 영상 검색 장치는 전술한 구성정보에 대한 벡터값에 대한 평균값을 산출하여 검색벡터를 구성할 수 있다.

S625 단계에서, 영상 검색 장치는 검색벡터와, 데이터베이스에 저장된 저장벡터에 대한 유사도를 산출할 수 있으며, 산출된 유사도를 기반으로 검색결과를 제공할 수 있다. 이때, 영상 검색 장치는 검색벡터를 질의정보로서 사용하고, 데이터베이스에 저장된 검색벡터를 대상으로 전술한 수학식 1과 같은 유사도를 산출할 수 있다. 영상 검색 장치는 산출된 유사도를 기반으로 검색 결과를 정렬하여 제공할 수 있다.

본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치 및 방법에 따르면, 영상 검색에 있어 장소, 시간, 지문, 대사를 포함한 각본을 사용하므로, 영상 컨텐츠에 포함된 내용과 관련된 장명 영상을 정밀하게 검색할 수 있다.

단순하게 키워드 기반으로 영상 컨텐츠를 검색하거나, 영상 컨텐츠의 해상도, 길이 등과 같은 비주얼(visual) 측면을 기반으로 검색하는 것에 비하여, 사용자가 원하는 장면과 관련된 영상 컨텐츠를 정확하게 검출할 수 있다.

또한, 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치 및 방법에 따르면, 장면 각본의 구성정보를 구분하여 특징벡터로 변환하고, 특징벡터를 조합하여 장면 영상에 대응되는 저장벡터(또는 검색벡터)로 표현 및 관리함으로써, 장면 영상에 포함된 일부 구성정보가 누락되더라도 유사성이 높은 영상 콘텐츠를 검출할 수 있다.

또한, 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 장치 및 방법에 따르면, 장면 각본을 기반으로 메타데이터를 생성함으로써, 다양한 요소들을 메타데이터 생성에 반영할 수 있다.

도 7은 본 개시의 일 실시예에 따른 각본 기반의 영상 검색 방법 및 장치를 실행하는 컴퓨팅 시스템을 예시하는 블록도이다.

도 7을 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.

본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.

또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

Claims

영상 검색 장치에 있어서,
영상 컨텐츠를 장면 단위로 분할하여 장면 영상을 구성하는 영상 분할부와,
상기 저장 영상 콘텐츠에 대응되는 각본을 상기 장면 단위로 분할하여 장면 각본을 구성하는 각본 분할부와,
상기 장면 각본에 대응되는 적어도 하나의 저장벡터를 생성하고, 상기 적어도 하나의 저장벡터 및 장면 영상을 저장 및 관리하는 장면 영상/각본 관리부와,
사용자로부터 입력되는 검색 각본을 확인하고, 상기 검색 각본에 대응되는 검색벡터를 생성하는 검색벡터 생성부와,
상기 검색벡터 및 저장벡터의 유사도를 기반으로, 상기 검색 각본에 대응되는 검색 결과를 제공하는 검색 처리부를 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제1항에 있어서,
상기 장면 영상/각본 관리부는,
상기 장면 영상과 장면 각본을 동기화하는 동기화부와,
상기 장면 각본에 포함된 자연어를 분석하여 적어도 하나의 구성정보를 추출하는 각본 분석부와,
상기 적어도 하나의 구성정보에 대응되는 상기 적어도 하나의 저장벡터를 생성하고 상기 적어도 하나의 저장벡터를 저장 및 관리하는 저장벡터 관리부를 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제2항에 있어서,
상기 저장벡터 관리부는,
상기 장면 단위에 대한 상기 적어도 하나의 저장벡터를 통합하여 메타데이터를 구성하고, 상기 메타데이터를 사용하여 상기 적어도 하나의 저장벡터를 저장 및 관리하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제1항에 있어서,
상기 저장벡터 관리부는,
상기 장면 단위에 대한 상기 적어도 하나의 저장벡터에 대한 평균값을 산출하고, 상기 산출된 평균값을 상기 장면 단위에 대응되는 메타데이터로서 구성하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제1항에 있어서,
상기 검색벡터 및 저장벡터는,
장소, 시간, 대사, 지문, 및 등장인물 중, 적어도 하나에 대응되는 벡터값을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제2항에 있어서,
상기 저장벡터 관리부는,
상기 적어도 하나의 구성정보에 포함된 장소, 시간, 대사, 지문, 및 등장인물 중, 적어도 하나를 입력받고, 상기 저장벡터를 출력하는 기계학습 처리부를 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제6항에 있어서,
상기 기계학습 처리부는,
상기 장소, 시간, 및 등장인물을 입력받아 상기 저장벡터를 출력하는 단어 임베딩 학습 모델과,
상기 대사 및 지문을 입력받아 상기 저장벡터를 출력하는 RNN(Recurrent Neural Networks) 학습 모델을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제7항에 있어서,
상기 검색벡터 생성부는,
상기 기계학습 처리부에 구비되는 상기 단어 임베딩 학습 모델 및 RNN 학습 모델에 대응되는 학습 모델을 구비하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
제4항에 있어서,
상기 검색벡터 생성부는,
상기 장면 단위에 대한 상기 적어도 하나의 검색벡터에 대한 평균값을 산출하는 것을 특징으로 하는 각본 기반의 영상 검색 장치.
영상 검색 방법에 있어서,
영상 컨텐츠를 장면 단위로 분할하여 장면 영상을 구성하는 과정과,
상기 저장 영상 콘텐츠에 대응되는 각본을 상기 장면 단위로 분할하여 장면 각본을 구성하는 과정과,
상기 장면 각본에 대응되는 적어도 하나의 저장벡터를 생성하고, 상기 적어도 하나의 저장벡터 및 장면 영상을 저장하는 과정과,
사용자로부터 검색 각본을 입력받는 과정과,
상기 검색 각본에 대응되는 검색벡터를 생성하는 과정과,
상기 검색벡터 및 저장벡터의 유사도를 기반으로, 상기 검색 각본에 대응되는 검색 결과를 제공하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제10항에 있어서,
상기 적어도 하나의 저장벡터 및 장면 영상을 저장하는 과정은,
상기 장면 영상과 장면 각본을 동기화하는 과정과,
상기 장면 각본에 포함된 자연어를 분석하여 적어도 하나의 구성정보를 추출하는 과정과,
상기 적어도 하나의 구성정보에 대응되는 상기 적어도 하나의 저장벡터를 생성하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제11항에 있어서,
상기 적어도 하나의 저장벡터를 생성하는 과정은,
상기 장면 단위에 대한 상기 적어도 하나의 저장벡터를 통합하여 메타데이터를 구성하는 과정과,
상기 메타데이터를 사용하여 상기 적어도 하나의 저장벡터를 저장하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제12항에 있어서,
상기 메타데이터를 구성하는 과정은,
상기 장면 단위에 대한 상기 적어도 하나의 저장벡터의 평균값을 산출하는 과정과,
상기 산출된 평균값을 상기 메타데이터로서 구성하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제10항에 있어서,
상기 검색벡터 및 저장벡터는,
장소, 시간, 대사, 지문, 및 등장인물 중, 적어도 하나에 대응되는 벡터값을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제10항에 있어서,
상기 적어도 하나의 저장벡터를 생성하는 과정은,
단어 임베딩 학습 모델에, 상기 장소, 시간, 및 등장인물을 입력하고, 상기 저장벡터를 출력하는 과정과,
RNN(Recurrent Neural Networks) 학습 모델에, 상기 대사 및 지문을 입력하고, 상기 저장벡터를 출력하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제15항에 있어서,
상기 검색벡터를 생성하는 과정은,
상기 단어 임베딩 학습 모델에, 상기 장소, 시간, 및 등장인물을 입력하고, 상기 검색벡터를 출력하는 과정과,
상기 RNN 학습 모델에, 상기 대사 및 지문을 입력하고, 상기 검색벡터를 출력하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.
제4항에 있어서,
상기 검색벡터를 생성하는 과정은,
상기 장면 단위에 대한 상기 적어도 하나의 검색벡터를 확인하는 과정과,
상기 적어도 하나의 검색벡터에 대한 평균값을 산출하는 과정을 포함하는 것을 특징으로 하는 각본 기반의 영상 검색 방법.