KR101516995B1 - 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법 - Google Patents

컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법 Download PDF

Info

Publication number
KR101516995B1
KR101516995B1 KR1020130099396A KR20130099396A KR101516995B1 KR 101516995 B1 KR101516995 B1 KR 101516995B1 KR 1020130099396 A KR1020130099396 A KR 1020130099396A KR 20130099396 A KR20130099396 A KR 20130099396A KR 101516995 B1 KR101516995 B1 KR 101516995B1
Authority
KR
South Korea
Prior art keywords
clip
context
preliminary
audio
frame
Prior art date
Application number
KR1020130099396A
Other languages
English (en)
Other versions
KR20150022088A (ko
Inventor
김민성
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020130099396A priority Critical patent/KR101516995B1/ko
Publication of KR20150022088A publication Critical patent/KR20150022088A/ko
Application granted granted Critical
Publication of KR101516995B1 publication Critical patent/KR101516995B1/ko

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 이미지 인식과 음성 인식 기술을 복합적으로 사용하여 브이오디 내의 각 장면의 컨텍스트를 추출하고, 이를 색인화(Index)화하여 해당 장면을 특징짓는 메타정보화 하고 이를 통해 사용자에 의한 정확하고 용이한 브이오디 검색이 가능하도록 한 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법에 관한 것이다.
본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템은 공급자에 의해 공급되는 음향을 포함하는 동영상을 분할하여 하나 이상의 클립을 생성하고, 상기 클립의 등장인물, 등장인물의 표정, 대화, 키워드 중 어느 하나 이상을 포함하는 클립정보와 상기 클립정보에 의해 상기 클립의 동영상 내용을 표현하는 컨텍스트를 생성하며, 사용자의 검색어에 대응되는 상기 클립정보 또는 컨텍스트를 가지는 상기 클립을 제공한다.

Description

컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법{Context-based VOD Search System And Method of VOD Search Using the Same}
본 발명은 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법에 관한 것으로 특히, 이미지 인식과 음성 인식 기술을 복합적으로 사용하여 브이오디 내의 각 장면의 컨텍스트를 추출하고, 이를 색인화(Index)화하여 해당 장면을 특징짓는 메타정보화 하고 이를 통해 사용자에 의한 정확하고 용이한 브이오디 검색이 가능하도록 한 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법에 관한 것이다.
브이오디(VOD : Video On Demand) 서비스는 사용자가 원하는 영상을 원하는 시간과 장소에서 간편하게 시청할 수 있는 서비스이다. 이러한 VOD서비스는 기존 방송과 달리 시간에 구애되지 않고, 최근 사용이 크게 증대된 스마트폰과 같은 모바일 기기를 이용하여 쉽게 이용할 수 있는 장점이 있어 많은 사용자에 의해 이용되고 있다.
과거의 VOD 서비스 초창기에는 시청자(또는 컨텐츠 소지자, 이하에서는 "시청자" 또는 "사용자"로 지칭하기로 한다)들이 VOD 컨텐츠를 구매하면 해당 VOD 컨텐츠의 시작부터 끝까지 시청하는 것이 일반적이었다. 이는 VOD가 주로 CD(Compact Disk)와 같은 매체를 통해 제공되었기 때문이다. 하지만, 최근에는 인터넷의 이용이 보편화되고, 인터넷을 제공하는 데이터 회선이 대용량 고속화됨에 따라 저장매체에 의한 VOD 이용에 비해 인터넷을 이용한 실시간 이용이 비약적으로 증가하고 있다. 더욱이 많은 사용자가 집중되면서 VOD 서비스를 전문적으로 제공하는 OTT(Over The Top) 사업자 및 이러한 OTT 사업자에 의한 서비스 제공이 활발하게 이루어지고 있으며, 제공되는 VOD의 양, 종류, 정보의 생성 및 유통의 속도도 극단적으로 증가하고 있다.
이로 인해 최근의 사용자는 VOD 시청에 많은 시간을 할애하기 보다는 본인이 원하는 장면만을 시청한다거나 또는 원하는 장면을 시청한 후 VOD 전체 시청을 결정하는 형태로 VOD 서비스의 이용이 늘고 있다. 더불어, OTT 사업자도 이러한 사용자의 취향에 맞게 짧은 광고 영상, 스틸 컷, 설명과 같이 VOD의 이용 편의성을 향상시키기 위한 서비스를 제공하고 있다.
하지만, 이러한 서비스가 방대한 규모의 VOD 컨텐츠 중에서 사용자가 원하는 컨텐츠를 손쉽게 검색하여 취득할 수 있도록 하는 데 있어서는 큰 도움이 되지 못하는 실정이다. 좀더 구체적으로 설명하면, 인터넷 등에서는 키워드에 의한 검색에서 발전하여 자연어 즉, 대화나 문장에 의한 검색, 또는 사용자의 음성인식, 필기체 인식과 같은 NUI(Natural User Interface) 기술이 발전, 보급되어 방대한 양의 인터넷 자료를 검색하는 것이 종래에 비해 월등히 쉬워지고 있다. 반면에 VOD 검색을 쉽게 할 수 있도록 하는 기술들이 제공되고 있으나, 다양한 영상장면, 영상 한편 당 데이터의 양과 같은 VOD의 특성으로 인해 정확한 검색이 이루어지지 않고 있다. 일부 OTT 사업자의 경우 인력에 의해 각 영상을 분류, 편집, 키워드 작성과 같은 작업을 통해 VOD를 제공하고 있으나, 막대한 양의 VOD에 대해 이러한 작업을 인력을 동원하여 진행하는 것은 불가능한 실정이다. 때문에 이러한 VOD의 용이한 검색을 위한 색인, 영상의 분류 및 편집, 저장에 의한 서비스 제공이 가능한 시스템 및 서비스의 개발이 필요한 실정이다.
따라서, 본 발명의 목적은 이미지 인식과 음성 인식 기술을 복합적으로 사용하여 브이오디 내의 각 장면의 컨텍스트를 추출하고, 이를 색인화(Index)화하여 해당 장면을 특징짓는 메타정보화 하고 이를 통해 사용자에 의한 정확하고 용이한 브이오디 검색이 가능하도록 한 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템은 공급자에 의해 공급되는 음향을 포함하는 동영상을 분할하여 하나 이상의 클립을 생성하고, 상기 클립의 등장인물, 등장인물의 표정, 대화, 키워드 중 어느 하나 이상을 포함하는 클립정보와 상기 클립정보에 의해 상기 클립의 동영상 내용을 표현하는 컨텍스트를 생성하며, 사용자의 검색어에 대응되는 상기 클립정보 또는 컨텍스트를 가지는 상기 클립을 제공한다.
상기 클립을 생성하고, 상기 클립에 대한 상기 컨텍스트와 상기 클립을 포함하는 메타데이터를 작성하는 컨텍스트 분석부; 상기 컨텍스트 분석부의 요청에 따라 상기 클립정보에 대응되는 상기 컨텍스트를 선정하여 제공하는 레퍼런스 데이터 베이스; 상기 클립, 상기 클립정보 및 상기 컨텍스트 정보로 구성되는 메타데이터가 저장되는 메타데이터 데이터베이스; 및 상기 사용자의 검색 명령이 입력되는 엔유아이(NUI)부;를 포함하여 구성되는 것을 특징으로 한다.
상기 컨텍스트 분석부는 상기 동영상을 프레임별 비디오와 프레임별 오디오로 분리하는 비디오 오디오 분리부; 상기 프레임별 비디오를 분석하여 영상 예비클립 및 상기 영상 예비클립에 대한 영상예비클립정보를 생성하는 비디오 분석부; 상기 프레임별 오디오를 분석하여 음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 생성하는 오디오 분석부; 상기 영상 및 음향예비클립, 상기 영상 및 음향예비클립정보를 이용하여 상기 클립과 상기 클립정보를 생성하고, 상기 레퍼런스 데이터베이스로부터 상기 컨텍스트를 제공받아 상기 클립, 상기 클립정보 및 상기 컨텍스트 정보가 매칭된 메타데이터를 생성하는 컨텍스트 결정부; 및 상기 메타데이터를 상기 메타데이터 데이터베이스에 저장하는 메타데이터 입력부;를 포함하여 구성되는 것을 특징으로 한다.
상기 비디오 분석부는 상기 프레임별 비디오의 등장인물 및 등장인물의 표정을 분석하는 얼굴인식엔진; 상기 프레임별 영상의 공간을 인식하는 공간인식엔진; 상기 등장인물, 상기 표정 및 상기 공간에 의해 하나 이상의 상기 프레임을 그룹핑하여 상기 영상예비클립을 생성하고, 상기 영상예비클립에 상기 등장인물, 상기 표정 및 상기 공간에 대한 정보를 포함하는 상기 영상예비클립정보를 부가하는 장면인식 엔진을 포함하여 구성되는 것을 특징으로 한다.
상기 얼굴인식 엔진은 상기 등장인물의 구분을 위한 데이터가 저장되는 인물데이터베이스와, 복수의 인물이미지로부터 추출되어 상기 표정을 구분하기 위한 특징점 정보가 저장되는 표정룰데이터베이스를 포함하여 구성되는 것을 특징으로 한다.
상기 얼굴인식 엔진은 상기 등장인물 중 상기 인물데이터베이스와 매칭되지 않는 인물은 임시명으로 지정하는 것을 특징으로 한다.
상기 오디오 분석부는 상기 프레임별 오디오를 분석하여 음향 또는 등장인물의 음성이 연속되거나, 등장인물간의 음성이 중첩 또는 교번되어 발생되는 하나 이상의 상기 프레임을 그룹핑하여 상기 음향예비클립을 생성하는 오디오 장면인식 엔진; 상기 프레임별 오디오의 상기 등장인물의 음성을 텍스트로 변환하여 음절을 분리하여 음절 데이터를 작성하고, 상기 음절 데이터를 이용하여 문장구조를 분석하거나, 키워드를 추출하며, 분석된 상기 문장구조 또는 상기 키워드를 상기 음향예비클립에 포함시키는 음성인식 및 키워드 추출엔진;을 포함하여 구성되는 것을 특징으로 한다.
상기 오디오 장면인식 엔진은 상기 프레임별 오디오의 상기 음향 또는 상기 음성에 대한 분석이 이루어지지 않는 경우 미처리 프레임으로 분류하는 것을 특징으로 한다.
상기 컨텍스트 결정부는 상기 영상예비클립과 상기 음향예비클립을 동일한 시간축에 대해 비교하여, 상기 영상예비클립의 시간 구간과 상기 음향예비클립의 시간 구간이 일치하는 경우 일치되는 상기 시간 구간을 하나의 상기 클립으로 결정하는 것을 특징으로 한다.
상기 컨텍스트 결정부는 하나의 상기 영상예비클립의 시간구간에 둘 이상의 상기 음향예비클립이 포함되는 경우 상기 영상예비클립의 시간구간을 하나의 클립으로 결정하거나, 하나의 상기 음향클립의 시간구간에 둘 이상의 상기 영상예비클립이 포함되는 경우 상기 음향클립의 시간구간을 하나의 클립의 결정하는 것을 특징으로 한다.
상기 컨텍스트 결정부는 연속되는 복수의 상기 영상예비클립과, 연속되는 상기 영상예비클립의 시간구간 시작점과 종점이 일치되는 복수의 상기 음향예비클립이 구성되는 경우 상기 시작점으로부터 상기 종점까지의 상기 영상예비클립과 상기 음향예비클립을 하나의 클립으로 결정하는 것을 특징으로 한다.
복수의 상기 음향예비클립은 불연속적이거나, 사이에 미처리 프레임이 포함되는 것을 특징으로 한다.
상기 레퍼런스 데이터베이스는 이전 브이오디 클립의 데이터가 저장되는 레퍼런스 데이터와 상기 클립정보를 순차적으로 비교하여 상기 클립정보와 유사도가 가장 높은 레퍼런스 데이터를 검색하고, 상기 검색된 레퍼런스 데이터에 의해 컨텍스트를 결정하는 컨텍스트 추론부를 포함하여 구성되는 것을 특징으로 한다.
상기 컨텍스트 추론부는 상기 클립정보와 선택된 상기 컨텍스트를 상기 레퍼런스 데이터에 추가하는 것을 특징으로 한다.
상기 엔유아이부는 음성인식 인터페이스를 구비하며, 음성에 의한 검색어가 입력되면 상기 음성으로부터 검색 키워드를 추출하고, 추출된 상기 검색 키워드 상기 컨텍스트 또는 상기 클립정보와 비교하여 상기 클립을 검색하는 것을 특징으로 한다.
또한, 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색방법은 컨텍스트 분석부가 공급자로부터 공급되는 동영상을 분석하여 하나 이상의 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계; 상기 컨텍스트 분석부가 레퍼런스 데이터 베이스에 상기 클립정보에 대응되는 컨텍스트 선정을 요청하고, 상기 레퍼런스 데이터베이스에 의해 선정된 상기 컨텍스트가 상기 컨텍스트 분석부에 전달되는 단계; 상기 컨텍스트 분석부가 상기 클립, 상기 클립정보 및 상기 컨텍스트 정보를 매칭하여 메타데이터를 작성하여 메타데이터 데이터 베이스에 저장하는 단계; 및 상기 메타데이터 데이터베이스가 사용자의 검색에 응답하여 상기 클립을 제공하는 단계;를 포함하여 구성되는 것을 특징으로 한다.
상기 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계는 상기 컨텍스트 분석부가 상기 동영상을 프레임별 비디오와 프레임별 오디오로 분리하는 단계; 상기 컨텍스트 분석부가 상기 프레임별 비디오를 분석하여 영상 예비클립 및 상기 영상예비클립에 대한 영상예비클립 정보를 작성하는 단계; 상기 컨텍스트 분석부가 상기 프레임별 오디오를 분석하여 음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 작성하는 단계; 상기 컨텍스트부가 상기 영상예비클립, 상기 음향예비클립, 상기 영상예비클립정보 및 상기 음향예비클립정보를 이용하여 상기 클립과 상기 클립정보를 생성하는 단계를 포함하여 구성되는 것을 특징으로 한다.
상기 클립정보를 추출하는 단계는 상기 컨텍스트 분석부가 상기 프레임별 비디오의 등장인물 및 등장인물의 표정을 분석하는 단계; 상기 컨텍스트 분석부가 상기 프레임별 비디오 의 공간을 분석하여 인식하는 단계; 상기 컨텍스트 분석부가 상기 등장인물, 상기 표정 및 상기 공간에 의해 하나 이상의 상기 프레임을 그룹핑하여 상기 영상예비클립을 작성하는 단계; 상기 컨텍스트 분석부가 상기 영상예비클립에 상기 등장인물, 상기 표정 및 상기 공간에 대한 정보를 포함하는 상기 영상예비클립정보를 부가하는 단계를 포함하여 구성되는 것을 특징으로 한다.
상기 등장인물 및 상기 등장인물의 표정을 분석하는 단계는 상기 컨텍스트 분석부가 상기 프레임별 비디오와 인물데이터베이스의 데이터를 비교하여 상기 등장인물을 구분하는 단계; 표정룰데이터베이스의 복수의 인물이미지로부터 추출되어 저장된 특징점정보와 상기 프레임별 비디오를 비교하여 상기 표정을 인식하는 단계;를 포함하여 구성되는 것을 특징으로 한다.
상기 등장인물 및 상기 등장인물의 표정을 분석하는 단계는 상기 컨텍스트 분석부가 상기 등장인물 중 상기 인물데이터베이스의 데이터에 매칭되지 않는 인물을 임시명으로 지정하는 단계를 더 포함하여 구성되는 것을 특징으로 한다.
음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 작성하는 단계는 상기 컨텍스트 분석부가 상기 프레임별 오디오를 분석하여 음향 또는 상기 등장인물의 음성이 연속되거나, 상기 등장인물 간의 음성이 중첩 또는 교변되어 발생되는 하나 이상의 상기 프레임을 그룹핑하여 상기 음향예비클립을 생성하는 단계; 상기 컨텍스트 분석부가 상기 프레임별 오디오의 상기 등장인물의 음성을 텍스트로 변환하고, 음절을 분리하여 음절데이터를 작성하는 단계; 상기 컨텍스트 분석부가 상기 음절데이터를 이용하여 문장구조를 분석하거나 키워드를 추출하는 단계; 및 상기 컨텍스트 분석부가 상기 음향예비클립에 상기 문장구조 또는 상기 키워드를 포함시키는 단계;를 더 포함하여 구성되는 것을 특징으로 한다.
음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 작성하는 단계는 상기 컨텍스트 분석부가 상기 프레임별 오디오의 상기 음향 또는 상기 음성이 미인식되는 경우 미처리 프레임으로 분류하는 것을 특징으로 한다.
상기 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계는 상기 컨텍스트 분석부가 상기 영상예비클립과 상기 음향예비클립을 동일한 시간축에 대해 비교하여, 상기 영상예비클립의 시간구간과 상기 음향예비클립의 시간구간이 일치하는 경우 일치되는 상기 시간구간 내의 상기 동영상을 하나의 상기 클립으로 결정하는 단계를 더 포함하는 것을 특징으로 한다.
상기 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계는 하나의 상기 영상예비클립의 시간구간에 둘 이상의 상기 음향예비클립이 포함되는 경우 상기 영상예비클립의 시간구간 내의 상기 동영상을 하나의 클립으로 결정하는 단계; 또는 하나의 상기 음향클립의 시간구간에 둘 이상의 상기 영상예비클립이 포함되는 경우 상기 음향클립의 시간구간 내의 상기 동영상을 하나의 클립으로 결정하는 단계;를 더 포함하여 구성되는 것을 특징으로 한다.
상기 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계는 상기 컨텍스트 분석부는 연속되는 복수의 상기 영상예비클립과 연속되는 상기 영상예비클립의 시간구간 시작점과 종점이 일치되는 복수의 상기 음향예비클립에 있어서, 상기 시작점으로부터 상기 종점까지의 영상예비클립과 상기 예비클립을 하나의 상기 클립으로 결정하는 단계를 더 포함하여 구성되는 것을 특징으로 한다.
복수의 상기 음향예비클립은 불연속적이거나, 복수의 상기 음향예비클립 사이에 미처리 프레임이 포함되는 것을 특징으로 한다.
상기 컨텍스트가 상기 컨텍스트 분석부에 전달되는 단계는 상기 레퍼런스 데이터베이스가 이전 브이오디 클립의 데이터가 저장되는 레퍼런스 데이터와 상기 클립정보를 비교하는 단계; 상기 레퍼런스 데이터베이스가 상기 클립정보와 유사도가 가능 높은 상기 레퍼런스 데이터를 선택하고, 선택된 상기 레퍼런스 데이터에 의해 상기 컨텍스트를 결정하는 단계;를 포함하여 구성되는 것을 특징으로 한다.
상기 컨텍스트가 상기 컨텍스트 분석부에 전달되는 단계는 상기 레퍼런스 데이터베이스가 상기 클립정보와 선택된 상기 컨텍스트를 상기 레퍼런스 데이터에 추가하는 단계를 더 포함하여 구성되는 것을 특징으로 한다.
상기 클립을 제공하는 단계는 엔유아이부(NUI)부에 음성에 의한 검색어가 입력되는 단계; 상기 엔유아이부가 상기 음성으로부터 검색 키워드를 추출하는 단계; 상기 메타데이터 데이터베이스가 상기 검색키워드와 상기 컨텍스트 또는 상기 클립정보를 비교하여 상기 클립을 검색하는 단계;를 더 포함하여 구성되는 것을 특징으로 한다.
본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법은 이미지 인식과 음성 인식 기술을 복합적으로 사용하여 브이오디 내의 각 장면의 컨텍스트를 추출하고, 이를 색인화(Index)화하여 해당 장면을 특징짓는 메타정보화 하고 이를 통해 사용자에 의한 정확하고 용이한 브이오디 검색이 가능
도 1은 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템의 구성을 도시한 구성예시도.
도 2는 컨텍스트 분석부에 의한 영상분석을 설명하기 위한 예시도.
도 3은 컨텍스트 분석부의 구성을 도시한 예시도.
도 4는 도 3의 비디오 분석을 설명하기 위한 예시도.
도 5는 도 3의 비디오 분석에서 공간인식을 설명하기 위한 예시도.
또한 도 6은 각 분석 결과를 장면단위로 그룹핑하는 과정을 설명하기 위한 예시도.
도 7은 비디오 분석과정에서 추론에 의한 분석을 설명하기 위한 예시도.
도 8은 오디오 분석에 의한 클립 구분을 도시한 예시도.
도 9는 음성인식엔진의 구성을 도시한 예시도.
도 10은 비디오 클립과 오디오 클립의 동시 비교 과정을 도시한 예시도.
도 11은 클립별 메타데이터를 구성하는 예를 도시한 예시도.
도 12는 레퍼런스 DB의 구성을 도시한 구성예시도.
도 13은 컨텍스트 추론을 설명하기 위한 테이블을 도시한 예시도.
도 14는 NUI부를 설명하기 위한 예시도.
도 15는 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법을 나타낸 순서도.
이하, 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 당해 분양의 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 설명하기로 한다. 첨부된 도면들에서 구성에 표기된 도면번호는 다른 도면에서도 동일한 구성을 표기할 때에 가능한 한 동일한 도면번호를 사용하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지의 기능 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고 도면에 제시된 어떤 특징들은 설명의 용이함을 이해 확대 또는 축소 또는 단순화된 것이고, 도면 및 그 구성요소들이 반드시 적절한 비율로 도시되어 있지는 않다. 그러나 당업자라면 이러한 상세 사항들을 쉽게 이해할 것이다.
도 1은 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템의 구성을 도시한 구성예시도이다.
도 1을 참조하면, 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템은 트랜스코더(20)와 컨텍스트부(30)를 포함하여 구성되고, 컨텍스트부(30)는 컨텍스트분석부(40), 레퍼런스 데이터베이스(50), 메타데이터 데이터베이스(60), NUI부(70) 및 학습부(80)를 포함하여 구성된다.
트랜스코더(20)는 개인(12) 또는 컨텐츠공급자(CP : contents provider)로부터 공급되는 VOD의 소스 데이터를 다양한 환경 예를 들어, 모바일, 데스크탑, TV와 같은 환경에서 이용할 수 있도록 가공, 선별 및 변환하는 역할을 한다. 이 트랜스코더(20)는 사용자가 이용할 수 있는 형태로 소스 데이터를 가공하여 메타데이터 DB(60)에 제공한다.
컨텍스트부(30)는 트랜스코더(20)와 함께 소스 데이터를 제공받아, 소스 데이터를 분석하고, 이를 통해 소스 데이터에 대한 컨텍스트와 컨텍스트를 포함하는 메타데이터를 작성한다. 그리고, 트랜스코더(20)에의해 변환된 데이터에 적용될 수 있도록 변환된 데이터와 매칭되어 메타데이터DB(60)에 저장된다. 사용자(90)는 자연어 검색을 위한 NUI(Natural User Interface)모듈을 통해 메타데이터DB(60)의 컨텍스트 및 메타데이터를 검색하여 자신이 원하는 VOD를 검색하여 이용할 수 있게 된다. 이를 위해 컨텍스트부(30)는 컨텍스트 분석부(40), 레퍼런스DB(50), 메타데이터DB(60), NUI부(70) 및 학습부(80)를 포함하여 구성된다. 이들 각각에 대해서는 하기에서 별도의 도면을 참조하여 좀 더 상세히 설명하기로 한다.
도 2는 컨텍스트 분석부에 의한 영상분석을 설명하기 위한 예시도이고, 도 3은 컨텍스트 분석부의 구성을 도시한 예시도이다. 그리고, 도 4는 도 3의 비디오 분석을 설명하기 위한 예시도이며, 도 5는 도 3의 비디오 분석에서 공간인식을 설명하기 위한 예시도이다. 또한 도 6은 각 분석 결과를 장면단위로 그룹핑하는 과정을 설명하기 위한 예시도이고, 도 7은 비디오 분석과정에서 추론에 의한 분석을 설명하기 위한 예시도이다.
도 2 내지 도 7을 참조하면, 컨텍스트 분석부(40)는 소스 데이터의 영상데이터와 음향 데이터를 분리하여 각각 분석하고, 이들 각각에 대한 컨텍스트를 생성하며, 생성된 컨텍스트를 기반으로 메타데이터를 작성하게 된다.
구체적으로 컨텍스트 분석부(40)는 소스데이터의 비디오(또는 영상)데이터에 대해 등장인물의 얼굴인식(face recognition)을 통한 등장인물 구분, 등장인물의 표정인식(facial-expression recognition), 공간(또는 배경)인식(scene detection), 장면(클립) 구분 분석을 수행한다. 또한 컨텍스트 분석부(40)는 소스데이터의 오디오(또는 음향)데이터에 대해 음성인식 및 키워드추출과 장면(또는 클립) 구분 분석을 수행한다. 그리고, 이러한 분석을 수행하여 개별장면(scene 또는 클립)을 구분하고 해당 장면의 컨텍스트를 추출하게 된다.
이를 위해 컨텍스트 분석부(40)는 비디오오디오 분리부(41), 비디오분석부(42), 오디오 분석부(43), 컨텍스트결정부(44), 메타데이터입력부(45)를 포함하여 구성된다.
비디오오디오 분리부(41)는 소스데이터를 각각 비디오데이터와 오디오 데이터로 분리하고, 분리된 비디오데이터와 오디오 데이터를 각각 비디오분석부(42)와 오디오분석부(43)에 제공한다.
비디오분석부(42)는 비디오데이터의 각 장면에 대해 얼굴인식을 통한 등장인물 구분, 등장인물의 표정인식, 공간인식 및 장면인식을 위한 분석을 수행한다. 이를 위해 비디오분석부(42)는 얼굴인식엔진(421), 공간인식엔진(422), 비디오 장면 인식엔진(423)을 포함하여 구성된다.
얼굴인식엔진(421)은 비디오 프레임 각각에 대해 등장인물의 얼굴 영역을 추출하여 분석한다. 이 얼굴인식엔진(421)은 얼굴 영역의 분석을 위해 인물데이터베이스(421a)와 표정룰(rule) 데이터베이스(421b)를 포함하여 구성된다. 이 얼굴인식엔진(421)은 인물데이터베이스(421a0와 비교하여 프레임에 등장하는 인물을 판단한다. 이때 얼굴인식엔진(421)은 인물데이터베이스(421a)에 기록되지 않은 인물이 나타나는 경우 '무명 #1', '무명#2'와 같이 임시명으로 기록하고, 이를 분석된 프레임에 나타나는 인물로 링크시킨다. 그리고 이러한 임시명으로 기록된 등장인물은 후의 인물의 인적사항이 입력되는 경우 재 맵핑될 수 있으나, 이로써 본 발명을 한정하는 것은 아니다.
또한, 얼굴인식엔진(421)은 표정룰DB(421b)에 의해 등장인물 각각의 표정을 인식한다. 구체적으로 얼굴인식엔진(421)은 표정룰DB(421b)에 입꼬리, 눈모양, 눈썹과 같은특징점에 대한 정보를 이용하여 등장인물의 표정을 대조하고, 이를 통해 표정을 인식하게 된다. 이를 위해 표정룰DB(421b)에는 웃는 표정, 우는 표정, 화난 표정 등에 대해 일반적인 사람의 얼굴 특징점의 분포가 별도로 저장된다. 아울러, 표정룰DB(421b)의 경우 독특한 캐릭터, 즉, 표정이 특이하거나, 특징점의 형태가 평균을 벗어나는 경우 미리 해당 인물의 특징점을 별도로 저장하여 이를 통해 등장인물의 표정을 인식하도록 할 수 있으며, 이러한 평균은 사용자에 의해 정의 또는 설정이 가능한 것으로 이로써 본 발명을 한정하는 것은 아니다. 아울러, 얼굴인식엔진(421)은 각 프레임에 대해 등장인물의 얼굴과 표정을 인식하고, 인식된 정보를 비디오 장면인식엔진(423)에 전달하게 된다.
이와 같이 등장인물의 얼굴과 표정을 인식하면 얼굴인식엔진(421)은 이를 통해 도 4의 테이블과 같은 형태로 각 프레임에 대한 등장인물, 등장인물의 표를 기록하여 이를 비디오 장면인식엔진(423)에 전달하게 된다.
얼굴인식엔진(421)이 등장인물의 인식과 표정에 대한 인식을 하는 동안 공간인식엔진(422)에도 비디오 데이터가 전달된다. 이 공간인식엔진은 각 프레임(#1, #2, #N)에 배경을 인식하게 된다.
이 공간인식엔진(422)의 구성 및 이를 이용한 공간인식의 과정이 도 5에 도시되어 있다.
공간인식엔진(422)은 각 프레임(#N)의 공간을 인식하기 위해 공간별 특징이 기록된 배경데이터베이스(422a)를 포함하여 구성된다. 이 배경데이터베이스(422a)는 배경에 따른 색구성, 주야에 따른 조도 구성, 색의 분포와 같이 배경을 구분하기 위한 각종 정보가 저장된다. 여기서 공간인식엔진(422)은 등장인물이 클로즈업되어 배경의 인식이 어려운 경우 해당프레임(#N)에서의 배경정보는 생략하게 된다. 그리고, 생략된 프레임은 비디오 장면인식엔진(423)이 전후 프레임을 비교하여 후에 정의하도록 하는 것이 가능하다.
도 6 및 도 7은 장면 단위로 각 프레임(#N)을 그룹화하는 과정 및 공간정보가 그룹화에 이용되는 과정을 도시한 예시도이다.
비디오장면인식 엔진(423)은 얼굴인식엔진(421)으로부터 전달되는 프레임별 등장인물 및 표정정보와 공간인식엔진(422)으로부터 전달되는 프레임별 배경정보를 제공받아, 동일한 배경이 연속되거나 등장인물이 동일한 프레임(#n)을 그룹핑하여 클립(clip)을 형성하게 된다. 여기서, 클립은 전체 동영상 중 일정 부부만을 추출해 낸 조각영상으로 정의될 수 있다. 이러한 클립은 사용자에 의해 가장 빈번하게 검색되는 주체이며, 필요한 경우 이 클립으로 부터 스냅샷을 분리하거나 이를 연결하여 일정길이 이상의 동영상을 생성하여 제공할 수 있게 된다.
이 비디오 장면인식엔진(423)은 얼굴인식엔진(421)로부터 전달된 등장인물 및 표정정보에 의해 등장인물의 급격한 변화 즉, 인원수의 변화가 발생하는 시점을 기준으로 장면을 구분하고, 장면이 구분되는 사이의 프레임(#N)을 하나의 클립으로 그룹핑하게 된다. 여기서, 도 6에서 클립2(clip#2)와 같이 한개의 클립 내에 프레임 별로 등장인물이 달라지는 경우가 발생하더라도, 연속된 프레임에 등장인물 중 공통된 인물이 존재하거나, 인원의 일부만이 변동이 생기는 경우와 같이 미리지정된 조건을 충족하는 경우 동일한 클립으로 그룹핑하게 된다.
한편, 비디오 장면인식엔진(423)은 이와 같이 각 프레임(#n)을 인물별로 그룹핑함과 동시에 각 프레임(#N)에 대해 배경정보를 대조하게 되며, 각 프레임(#N)의 인물이 어떤 공간에 위치하는지 인식할 수 있게 된다.
예를 들어 배경1은 바닷가이고 배경2가 나무숲과 같이 나타나는 경우 배경2도 등장인물의 변화가 없는 경우, 또한 프레임(#N)에 나타나는 시간대에 변화가 없는 경우 동일한 장소에서 카메라의 초정 방향이 바뀐것으로 인식될 수 있으며, 이와 같은 형태로 비디오 장면인식엔진(423)은 전후 배경을 비교하여 현재의 배경(도 7의 #121 ~#130)이 전후의 배경과 연속된 것인지 불연속적인 것인지 추론할 수 있게 된다. 특히, 전술한 공간인식엔진(422)에 의해 배경을 인식하지 못한 프레임(#N)에 대해 이러한 추론을 실행함으로써 비디오 장면인식엔진(423)은 각 프레임(#N)에 대한 공간 및 장면을 인식할 수 있게 된다.
한편 비디오 장면인식엔진(423)은 각 프레임(#N)별 인물, 표정 및 공간의 매칭이 이루어져 그룹핑된 클립과 각 엔진(421 내지 423)에서 작성된 정보를 컨텍스트결정부(44)에 전달하게 된다.
도 8은 오디오 분석에 의한 클립 구분을 도시한 예시도이고, 도 9는 음성인식엔진의 구성을 도시한 예시도이다.
도 8 및 도 9를 참조하면, 오디오 분석부(43)는 오디오 데이터를 전달받아 비디오 분석 모듈과 유사한 분석과정을 진행하여 프레임별 오디오 정보를 추출하게 된다. 이 오디오 분석부(43)는 비디오 분석과 별도로 병행하여 진행될 수 있으나 이로써 본 발명을 한정하는 것은 아니다. 이를 위해 오디오 분석부(43)는 오디오 장면인식엔진(431)과 음성인식/키워드추출엔진(432)을 포함하여 구성된다.
오디오 장면인식엔진(431)은 오디오 데이터를 통해 등장인물별 오디오 파형을 분석하여 이를 통해 연속되는 프레임(#N)을 구분하게 되며, 각 프레임(#N)은 음향 특징을 추출하게 된다.
구체적으로 오디오 장면인식엔진(431)은 오디오 파형 분석에서 서로 다른 인물의 대화가 중복되는 경우 즉, 파형이 중복되는 경우 한 장면 즉, 하나의 클립으로 그룹핑할 수 있는 프레임들(#N)에서 등장인물간의 대화가 진행되는 것으로 판단하게 된다. 마찬가지로 각 프레임별로 출력되는 음향이 전후 프레임에서 연속성을 가지는 경우 하나의 클립으로 그룹핑할 수 있는 것으로 판단하게 된다. 한편, 오디오 장면인식엔진(431)은 오디오 파형 분석의 결과가 대화인지 구분하기 힘든경우 이에 대한 마킹과 함께 미처리 데이터 또는 미처리 프레임으로 구분하게 되며, 이는 컨텍스트 결정부(44)에 의해 처리되어 구분되게 된다. 때문에 오디오 장면인식엔진(431)은 등장인물 간의 대화 또는 특정 상황을 나타내는 음향에 대한 정보만을 추출하여 프레임별 음향정보를 작성하게 된다.
아울러, 음성인식 및 키워드추출엔진(432)은 오디오 데이터로부터 각 프레임 또는 그룹핑된 클립에 대해 음성인식을 수행하여 행식키워드를 추출한다. 이를 위해 STT부(432a), 음절분리부(432b), 문장구조분석부(432c) 및 키워드추출(432d)를 포함하여 구성된다.
음성인식 및 키워드추출엔진(432)은 오디오 파형을 분석하여 등장인물이 대사를 진행하고 있는 경우 오디오 데이터로부터 핵심 키워드를 추출하게 된다.
구체적으로 음성인식 및 키워드추출엔진(432)은 오디오데이터를 STT부(Speech-to-text, 432a)에서 등장인물에 의해 출력되는 음향을 문자로 변환한다. 그리고, 음절분리부(432b)에 의해 음절을 분리하고, 문자구조 분석부(432c)가 음절이 분리된 데이터를 통해 문장 구조를 분석하게 된다. 이 문장구조 분석 데이터는 컨텍스트 결정부(44)에서 컨텍스트를 결정하기 위한 데이터로 이용된다. 한편, 음절 분리 데이터로부터 핵심 키워드를 추출할 수 있는 경우 키워드 추출부(432d)에 의해 키워드 데이터로 추출되어 컨텍스트 결정부(44)에 전달된다. 이를 위해 키워드추출부(432d)에는 키워드로 이용되는 단어, 문장, 특정 단어에 대한 응답단어, 키워드 선정 조건과 같은 정보가 미리 저장된다.
도 10은 비디오 클립과 오디오 클립의 동시 비교 과정을 도시한 예시도이고,
도 11은 클립별 메타데이터를 구성하는 예를 도시한 예시도이다.
도 10 및 도 11을 참조하면, 컨텍스트 결정부(44)는 비디오 장면 인식 엔진(423)을 통해 프레임(#N)별 인물, 표정 및 공간의 매칭이 이루어져 그룹핑된 클립과 각 엔진(421 내지 423)에서 작성된 정보를 전달받는다. 또한, 컨텍스트 결정부(44)는 오디오 분석부(431)를 통해 프레임별(#N) 또는 일정한 클립 별로 분석된 오디오 데이터와, 음성인식엔진(432)에 의해 분석된 문장 구조 분석 데이터 또는 키워드 데이터를 전달받는다.
이를 통해 컨텍스트 결정부(44)는 클립의 최종 확정과 최종확정된 클립별 메타 데이터를 구성하게 된다.
우선, 컨텍스트 결정부(44)는 비디오 분석부(42)와 오디오분석부(43)로부터 전달된 데이터를 비교하여 최종 클립을 확정하게 된다. 구체적으로 컨텍스트 결정부(44)는 전술한 바와 같이 비디오 장면 인식엔진(423)과 오디오장면인식엔진(431)으로부터 각각 비디오 클립 데이터와 오디오 클립 데이터를 전달는다. 그리고, 컨텍스트 결정부(44)는 비디오 클립 데이터와 오디오 클립데이터를 조합하여 최종적으로 사용자에게 전달될 클립을 결정하게 된다.
도 10에서 동일한 시간축에 대해 비디오 클립 데이터와 오디오 클립데이터를 대조하여 분석하게 된다. 도 10에서는 시간축에 대해 위쪽이 비디오 클립 데이터이고 아래쪽이 오디오 클립 데이터가 된다.
구체적으로 1) 비디오 클립 데이터와 오디오 클립데이터의 클립이 서로 일치하는 경우 일치되는 구간을 하나의 클립으로 최종 결정하게 된다.
2) 하나의 비디오 클립이 둘 이상의 오디오 클립을 포함하는 경우가 도 10의 케이스A(caseA)에 도시되어 있다. 이와 같은 경우 컨텍스트 결정부(44)는 비디오 클립을 하나의 클립으로 결정한다. 구체적으로 동일한 배경 및 등장인물에 의해 구분된 비디오 클립 구간에서 등장인물 간의 대화가 중단되거나, 외부 음향이 잠시 사라질 수 있다. 때문에 컨텍스트결정부(44)는 이와 같은 경우 비디오 클립에 우선권을 두어 비디오 클립에 의한 구간이 하나의 클립이 되도록 최종 결정을 수행하게 된다.
3) 반대로 하나의 오디오 클립이 둘 이상의 비디오 클립을 포함하는 경우가 케이스B(case B)에 도시되어 있다. 컨텍스트결정부(44)는 이와 같은 경우 오디오 클립의 구간을 하나의 클립이 되도록최종 결정한다. 오디오 클립에서 등장인물간의 대화 또는 나레이션이 연속적으로 이루어지고 있으나, 화면이 전환되는 경우 회상과 같이 영상속의 영상(Picture in Picture)로 인식될 수 있다.
4) 연속되는 복수의 비디오 클립과 연속되는 복수의 오디오 클립이 구성되는 경우 클립 그룹의 시작점과 종점이 일치되는 경우는 시작점으로부터 종점까지를 하나의 클립으로 결정하게 된다. 이는 이러한 비디오 또는 오디오 클립들이 상호 연관성을 가지는 구간일 수 있기 때문이다.
5) 연속되는 복수의 비디오 클립과 연속되는 복수의 오디오 클립이 구성되는 경우 클립 그룹의 시작점과 종점이 일치되는 경우 중 중간에 오디오 클립이 비어 있거나, 미처리 구간이 있는 경우에도 시점으로부터 종점까지를 하나의 클립으로 최종확정한다. 전술한 바와 같이 오디오장면 인식 엔진이 미처리 데이터로 분류하는 부분은 이와 같은 방식에 의해 최종 클립에 포함되어 클립 구간이 정해지게 된다.
한편, 컨텍스트 결정부(44)는 클립의 결정이 이루어지면 각 최종 클립에 대한 메타데이터를 결정하게 된다. 구체적으로 컨텍스트결정부(44)는 전술한 비디오와 오디오에 대한 클립 데이터와 같이 전달되는 각종 데이터 예를 들어 음절 분석 데이터, 키워드 데이터, 각 장면별 등장인물, 표정, 배경과 같은 데이터와, 이들 데이터를 레퍼런스 데이터베이스(50)와 비교하여 결정되는 컨텍스트를 포함한 최종 메타데이터를 클립별로 구성하게 된다.
이를 위해 레퍼런스DB(50)에는 이전의 VOD들로부터 누적된 클립을 특정짓는 인물, 배경, 대화에 대한 조합 및 이에 따른 컨텍스트 결정에 대한 정보가 누적되며, 컨텍스트 결정부는 이러한 정보를 추출된 데이터와 비교하여 각 클립에 대한 컨텍스트를 결정하게 된다. 추후 사용자는 각 데이터 및 컨텍스트 정보를 이용하여 클립을 검색할 수 있게 된다. 이 레퍼런스DB(50)에 대한 상세한 사항은 하기에서 좀더 상세히 설명하기로 한다.
이러한 메타데이터의 결저예가 도 11에 도시되어 있다.
최종 결정 클립 및 이에 대한 등장인물, 대화 내용, 표정정보, 공간 정보, 키워드와 같은 정보가 파악되는 컨텍스트결정부(44)는 이러한 정보들을 레퍼런스 DB(50)에 조회하게 된다. 이에 따라, 레퍼런스DB(50)는 자신의 데이터를 조회하여 컨텍스트 결정부(44)에 주어진 정보에 따라 파악되는 결과정보를 전달하게 된다. 이 결과정보가 컨텍스트로 이용되게 된다. 구체적으로 도 11에서와 같은 정보를 레퍼런스DB(50)로 전달하면, 레퍼런스DB(50)는 이에 대해 '자동차 안에서의 말다툼'이라는 결과정보를 전달하고, 컨텍스트 결정부(44)는 이를 컨텍스트로 결정하게 된다. 이와 같은 컨텍스트 정보와 함께 클립에 대한 정보가 같이 기재가 됨으로써 사용자가 검색을 수행하는 경우 컨텍스트 검색과 자연어 검색에 의한 정확한 클립 검색이 가능해지게 된다.
한편, 메타데이터 입력부(45)는 컨텍스트결정부(44)에서 결정되어 클립이 포함된 메타데이터를 메타데이터DB(60)에 전달하여 저장하게 된다.
도 12는 레퍼런스 DB의 구성을 도시한 구성예시도이고, 도 13은 컨텍스트 추론을 설명하기 위한 테이블을 도시한 예시도이다.
도 12 및 도 13을 참조하면, 레퍼런스DB(50)는 컨텍스트결정부(44)로부터 전달되는 클립부가정보 즉, 등장인물, 대화 내용, 표정정보, 공간정보, 키워드와 같은 정보에 응답하여 자신의 데이터베이스를 검색하고, 클립부가정보에 대응되는 즉, 가장 유사한 정보에 따라 발생하는 컨텍스트를 컨텍스트결정부(44)에 제공하는 역할을 한다. 아울러 ,이 레퍼런스DB(50)는 이 클립부가정보를 자신의 데이터베이스에 저장하게 된다.
이를 위해 레퍼런스DB(50)는 데이터 연동 및 입출력부(51), 컨텍스트추론부(52) 및 레퍼런스데이터(53)를 포함하여 구성된다.
데이터 연동 및 입출력부(51)는 컨텍스트결정부로부터 클립부가정보를 제공받아 컨텍스트추론부(52)에 전달하고, 컨텍스트추론부(52)로부터 결정된 컨텍스트를 전달받아 컨텍스트결정부(44)에 전달하는 역할을 한다.
레퍼런스 데이터는 이전에 분석된 다른 VOD의 클립 및 이에 대한 클립부가정보와 컨텍스트가 축적 저장되어 구성된다. 이 레퍼런스 데이터는 도 13에 도시된 형태의 트리구조를 가지도록 구성될 수 있다. 아울러, 전술한 바와 같이 컨텍스트결정부(44)에 의해 조회되는 정보는 분석 후 레퍼런스 데이터로 축적되게 된다.
컨텍스트 추론부(52)는 컨텍스트결정부(44)로부터 전달받은 클립부가 정보와 레퍼런스 데이터를 차례대로 비교하여 가장 유사한 레퍼런스 컨텍스트를 컨텍스 결정부(44)에 제공한다.
컨텍스트 추론부(52)에 의한 비교와 이를 통한 컨텍스트 추론은 드라마나 영화에서 전체 스토리는 달라질 수 있는 그 내부 장면의 환경과 등장인물의 구성은 맥락은 빈번하게 반복되는 것에 근거한다. 컨텍스트 추론부(52)는일부 정보만 일치하는 경우에도 컨텍스트의 후보로 두고 나머지 데이터를 검색하여 가장 높은 유사도를 가지는 조건의 컨텍스트를 컨텍스트 결정부(44)에 반환하게 된다.
예를 들어 컨텍스트 추론부(52)는 공간, 등장 인물 수 및 표정, 대화패턴이 도 13에 도시된 것과 같은 데이터를 비교했을 때 정확히 일치하여 "해안가에서 남녀 2명이 다투는 상황"이라면, 컨텍스트는 동일하게 "해안에서 남녀 2명이 다투는 상황"으로 결정된다. 하지만, 공간이 일치하지 않고, 등장인물과 대화패턴만 일치한다면, 공간정보를 배제한 "남녀 2명이 다투는 상황"으로 컨텍스트가 결정되거나, 공간정보가 최대한 일치하는 조건을 찾아 "자동차에서 남녀 2명이 다투는 상황"을 결정하여 컨텍스트를 반환하게 된다. 즉, 컨텍스트 추론부는 연관성(correlation) 판단에 따라 최종 컨텍스트의 표현을 결정하여 컨텍스트 결정부(44)에 결정된 컨텍스트를 전달하게 된다.
도 14는 NUI부를 설명하기 위한 예시도이다.
도 14를참조하면, 사용자가 NUI(natural user Interface)를 이용하여 음성 검색, 문장 형태의 자연어 검색, 동작 인식 검색과 같은 다양한 형태로 검색을 수행할 수 있다.
때문에 NUI부(70)는 음성인식 인터페이스를 사용하는 경우 입력되는 음성을 분해하고 키워드를 추출하여 이를 메타 데이터의 DB(60)에 조회하고, 저장된 메타데이터를 검색하여 일치도가 높은 데이터를 사용자에게 제공하게 된다. 예를 들어 사용자가 NUI부(70)를 통해 "어제 방영된 드라마 000에서 남녀 주인공 둘이 바닷가에서 싸웠던 장면을 찾아줘"와 같은 형태로 입력이 되면, 사용자의 입력으로부터 "어제", "드라마", "000", "남녀", "주인공", "싸움"을 키워드로 하여 검색을 하게 되고 이에 부합되는 메타데이터를 사용자에게 제공하게 된다.
이때 유사도 즉, 연관성이 비슷한 메타데이터가 여러개 검색될 수 있으며, 이때 이를 하나씩 제공하거나 동시에 도 14에서와 같이 리스트 형태로 제공하여 사용자가 선택하도록 할 수 있다. 특히, 사용자가 해당 검색된 클립을 시청하고 이에 대해 검색이 정확하다는 응답을 하는 경우 학습부(80)에 의해 피드백되어 메타데이터DB(60)에 전달되고, 이를 누적하여 이후의 검색에 반영하게 된다.
학습부(80)는 사용자가 검색한 결과와 검색 결과에 대한 사용자의 선택 또는 응답을 메타데이터 DB(60)에 전달하고, 메타데이터DB(60)가 메타데이터 정보를 수정할 수 있게 한다.
도 15는 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법을 나타낸 순서도이다.
도 15를 참조하면, 본 발명에 따른 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법은 소스 동영상데이터 전달 단계(S10), 소스 영상데이터 트랜스 코딩 단계(S20), 소스 동영상데이터 분석 단계(S30), 클립 및 클립 부가정보 추출 단계(S40), 컨텍스트 결정 단계(S50), 메타데이터 작성 단계(S60) 및 VOD 서비스 제공 단계(S70)을 포함하여 구성된다.
소스 영상데이터 전달 단계(S10)는 개인 또는 컨텐츠 공급자로부터 소스 동영상데이터가 브이오디 검색시스템에 전달되는 단계이다. 본 발명에서 동영상은 음향 및 영상을 포함한 데이터를 의미한다.
소스 영상데이터 트랜스 코딩 단계(S20)는 개인 또는 컨텐츠 공급자로부터 공급되는 소스 영상데이터를 VOD 서비스가 가능한 형태로 변환하는 단계이다. 이 소스 영상데이터 트랜스 코딩 단계(S20)에서 트랜스코더는 소스 영상데이터를 사용자의 다양한 단말기, 영상 환경, 장치 운영체제에 맞춰 변환하게 된다.
소스 영상데이터 분석 단계(S30)는 사용자로부터 소스 영상데이터를 전달받아 컨텍스트 분석부(40)가 클립 및 클립 부가정보를 추출하기 위해 분석하는 단계이다. 이를 위해 소스 동영상데이터 분석 단계(S30)에 컨텍스트 분석부(40)는 소스 동영상데이터를 영상데이터와 음향 데이터로 구분하여 각각의 절차에 따라 예비 클립 및 예비클립에 대한 예비클립 부가정보를 작성한다. 여기서, 예비클립은 동영상과 음향 각각에 대해 작성된 클립으로 이들의 조합에 의해 서비스 되는 최종 VOD 클립이 결정된다. 또한, 예비클립 부가정보는 등장인물, 표정, 대화, 배경, 키워드와 같이 영상 및 음향에 대한 예비클립 각각에 대해 작성되는 정보이다. 이데 대한 상세한 도 2 내지 도 10에 대한 상세한 설명를 통해 전술하였으므로 이에 대한 상세한 설명은 생략하기로 한다.
클립 및 클립 부가정보 추출 단계(S40)는 컨텍스트 분석부(40)가 영상과 음향에 대해 각각 추출된 예비클립 및 예비클립 정보를 이용하여 실제 서비스로 제공될 최종 클립을 작성하는 단계이다. 이 클립 및 클립 부가정보 추출단계(S40)에서 컨텍스트 분석부(40)는 영상과 음향에 대한 클립 및 클립 부가정보를 시간 또는 프레임단위로 비교하여 영상 예비클립과 음향 예비클립을 그룹핑하여 클립을 생성하게 된다. 이때, 예비클립에 대한 클립 부가정보도 컨텍스트 분석부(40)에 의해 최종클립에 부가된다.
컨텍스트 결정 단계(S50)는 컨텍스트 분석부(40)가 레퍼런스데이터베이스(50)에 클립부가정보를 전달하고, 레퍼런스데이터베이스(50)가 데이터와 클립부가정보를 비교하여 유사도가 가장 높은 데이터로부터 컨텍스트 결정하여 컨텍스트 분석부(40)에 전달하고, 컨텍스트 분석부(40)는 이를 컨텍스트로 결정하는 단계이다.
메타데이터 작성 단계(S60)는 컨텍스트 결정단계(S50)에서 결정된 컨텍스트와, 클립부가정보, 클립을 매칭시켜 메타데이터를 작성하고, 이를 메타데이터DB(70)에 저장하는 단계이다.
VOD 서비스 제공 단계(S70)는 메타데이터 DB(70)에 저장된 메타데이터를 사용자의 검색 또는 접근에 의해 제공하는 단계이다. 이 VOD 서비스 제공 단계(S70)에서 사용자의 검색 명령 및 결과를 메타데이터 DB(70)에 반영하여 메타데이터를 수정하는 단계를 포함하여 구성될 수 있으나, 이로써 본 발명을 한정하는 것은 아니다.
이상에서 본 발명의 기술적 사상을 예시하기 위해 구체적인 실시 예로 도시하고 설명하였으나, 본 발명은 상기와 같이 구체적인 실시 예와 동일한 구성 및 작용에만 국한되지 않고, 여러가지 변형이 본 발명의 범위를 벗어나지 않는 한도 내에서 실시될 수 있다. 따라서, 그와 같은 변형도 본 발명의 범위에 속하는 것으로 간주해야 하며, 본 발명의 범위는 후술하는 특허청구범위에 의해 결정되어야 한다.
20 : 트랜스코더 30 : 컨텍스트분석부
50 : 레퍼런스DB 60 : 메타데이터DB
70 : NUI부 80 : 학습부
41 : 비디오 오디오 분리부 42 : 비디오 분석부
421 : 얼굴인식엔진 422 : 공간인식엔진
423 : 비디오 장면인식 엔진 43 : 오디오 분석부
431 : 오디오 장면 인식엔진 432 : 음성인식/키워드추출엔진
44 : 컨텍스트 결정부 45 : 메타데이터 입력부

Claims (29)

  1. 공급자에 의해 공급되는 음향을 포함하는 동영상을 분할하여 하나 이상의 클립을 생성하고, 상기 클립의 등장인물, 등장인물의 표정, 대화, 키워드 중 어느 하나 이상을 포함하는 클립정보와 상기 클립정보에 의해 상기 클립의 동영상 내용을 표현하는 컨텍스트를 생성하며, 사용자의 검색어에 대응되는 상기 클립정보 또는 컨텍스트를 가지는 상기 클립을 제공하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템은:
    상기 클립을 생성하고, 상기 클립에 대한 상기 컨텍스트와 상기 클립을 포함하는 메타데이터를 작성하는 컨텍스트 분석부;
    상기 컨텍스트 분석부의 요청에 따라 상기 클립정보에 대응되는 상기 컨텍스트를 선정하여 제공하는 레퍼런스 데이터 베이스;
    상기 클립, 상기 클립정보 및 상기 컨텍스트 정보로 구성되는 메타데이터가 저장되는 메타데이터 데이터베이스; 및
    상기 사용자의 검색 명령이 입력되는 엔유아이(NUI)부를 포함하여 구성되되,
    상기 컨텍스트 분석부는:
    상기 동영상을 프레임별 비디오와 프레임별 오디오로 분리하는 비디오 오디오 분리부; 및
    상기 프레임별 비디오를 분석하여 영상 예비클립 및 상기 영상 예비클립에 대한 영상예비클립정보를 생성하는 비디오 분석부를 포함하며,
    상기 비디오 분석부는:
    상기 프레임별 비디오의 등장인물 및 등장인물의 표정을 분석하는 얼굴인식엔진;
    상기 프레임별 영상의 공간을 인식하는 공간인식엔진; 및
    상기 등장인물, 상기 표정 및 상기 공간에 의해 하나 이상의 상기 프레임을 그룹핑하여 상기 영상예비클립을 생성하고, 상기 영상예비클립에 상기 등장인물, 상기 표정 및 상기 공간에 대한 정보를 포함하는 상기 영상예비클립정보를 부가하는 장면인식 엔진을 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템..
  2. 삭제
  3. 제 1 항에 있어서,
    상기 컨텍스트 분석부는
    상기 프레임별 오디오를 분석하여 음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 생성하는 오디오 분석부;
    상기 영상 및 음향예비클립, 상기 영상 및 음향예비클립정보를 이용하여 상기 클립과 상기 클립정보를 생성하고, 상기 레퍼런스 데이터베이스로부터 상기 컨텍스트를 제공받아 상기 클립, 상기 클립정보 및 상기 컨텍스트 정보가 매칭된 메타데이터를 생성하는 컨텍스트 결정부; 및
    상기 메타데이터를 상기 메타데이터 데이터베이스에 저장하는 메타데이터 입력부;를 더 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 얼굴인식엔진은,
    상기 등장인물의 구분을 위한 데이터가 저장되는 인물데이터베이스와, 복수의 인물이미지로부터 추출되어 상기 표정을 구분하기 위한 특징점 정보가 저장되는 표정룰데이터베이스를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  6. 제 5 항에 있어서,
    상기 얼굴인식엔진은,
    상기 등장인물 중 상기 인물데이터베이스와 매칭되지 않는 인물은 임시명으로 지정하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  7. 제 3 항에 있어서,
    상기 오디오 분석부는
    상기 프레임별 오디오를 분석하여 음향 또는 등장인물의 음성이 연속되거나, 등장인물간의 음성이 중첩 또는 교번되어 발생되는 하나 이상의 상기 프레임을 그룹핑하여 상기 음향예비클립을 생성하는 오디오 장면인식 엔진;
    상기 프레임별 오디오의 상기 등장인물의 음성을 텍스트로 변환하여 음절을 분리하여 음절 데이터를 작성하고, 상기 음절 데이터를 이용하여 문장구조를 분석하거나, 키워드를 추출하며, 분석된 상기 문장구조 또는 상기 키워드를 상기 음향예비클립에 포함시키는 음성인식 및 키워드 추출엔진;을 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  8. 제 7 항에 있어서,
    상기 오디오 장면인식 엔진은
    상기 프레임별 오디오의 상기 음향 또는 상기 음성에 대한 분석이 이루어지지 않는 경우 미처리 프레임으로 분류하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  9. 제 3 항에 있어서,
    상기 컨텍스트 결정부는
    상기 영상예비클립과 상기 음향예비클립을 동일한 시간축에 대해 비교하여, 상기 영상예비클립의 시간 구간과 상기 음향예비클립의 시간 구간이 일치하는 경우 일치되는 상기 시간 구간을 하나의 상기 클립으로 결정하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  10. 제 3 항에 있어서,
    상기 컨텍스트 결정부는
    하나의 상기 영상예비클립의 시간구간에 둘 이상의 상기 음향예비클립이 포함되는 경우 상기 영상예비클립의 시간구간을 하나의 클립으로 결정하거나,
    하나의 상기 음향예비클립의 시간구간에 둘 이상의 상기 영상예비클립이 포함되는 경우 상기 음향예비클립의 시간구간을 하나의 클립의 결정하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  11. 제 3 항에 있어서,
    상기 컨텍스트 결정부는
    연속되는 복수의 상기 영상예비클립과,
    연속되는 상기 영상예비클립의 시간구간 시작점과 종점이 일치되는 복수의 상기 음향예비클립이 구성되는 경우
    상기 시작점으로부터 상기 종점까지의 상기 영상예비클립과 상기 음향예비클립을 하나의 클립으로 결정하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  12. 제 11 항에 있어서,
    복수의 상기 음향예비클립은 불연속적이거나, 사이에 미처리 프레임이 포함되는 것을 특징으로 하는 컨텍스 기반 브이오디 검색 시스템.
  13. 제 3 항에 있어서,
    상기 레퍼런스 데이터베이스는
    이전 브이오디 클립의 데이터가 저장되는 레퍼런스 데이터와 상기 클립정보를 순차적으로 비교하여 상기 클립정보와 유사도가 가장 높은 레퍼런스 데이터를 검색하고, 상기 검색된 레퍼런스 데이터에 의해 컨텍스트를 결정하는 컨텍스트 추론부를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  14. 제 13 항에 있어서,
    상기 컨텍스트 추론부는 상기 클립정보와 선택된 상기 컨텍스트를 상기 레퍼런스 데이터에 추가하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  15. 제 3 항에 있어서,
    상기 엔유아이부는 음성인식 인터페이스를 구비하며,
    음성에 의한 검색어가 입력되면 상기 음성으로부터 검색 키워드를 추출하고, 추출된 상기 검색 키워드 상기 컨텍스트 또는 상기 클립정보와 비교하여 상기 클립을 검색하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템.
  16. 컨텍스트 분석부가 공급자로부터 공급되는 동영상을 분석하여 하나 이상의 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계;
    상기 컨텍스트 분석부가 레퍼런스 데이터 베이스에 상기 클립정보에 대응되는 컨텍스트 선정을 요청하고, 상기 레퍼런스 데이터베이스에 의해 선정된 상기 컨텍스트가 상기 컨텍스트 분석부에 전달되는 단계;
    상기 컨텍스트 분석부가 상기 클립, 상기 클립정보 및 상기 컨텍스트 정보를 매칭하여 메타데이터를 작성하여 메타데이터 데이터 베이스에 저장하는 단계; 및
    상기 메타데이터 데이터베이스가 사용자의 검색에 응답하여 상기 클립을 제공하는 단계를 포함하되,
    상기 클립을 생성하고 상기 클립에 대한 상기 클립정보를 추출하는 단계는,
    상기 컨텍스트 분석부가 상기 동영상을 프레임별 비디오와 프레임별 오디오로 분리하는 단계;
    상기 컨텍스트 분석부가 상기 프레임별 비디오를 분석하여 영상예비클립 및 상기 영상예비클립에 대한 영상예비클립 정보를 작성하는 단계;
    상기 컨텍스트 분석부가 상기 프레임별 오디오를 분석하여 음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 작성하는 단계; 및
    상기 컨텍스트 분석부가 상기 영상예비클립, 상기 음향예비클립, 상기 영상예비클립정보 및 상기 음향예비클립정보를 이용하여 상기 클립과 상기 클립정보를 생성하는 단계를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  17. 삭제
  18. 제 16 항에 있어서,
    상기 클립정보를 추출하는 단계는,
    상기 컨텍스트 분석부가 상기 프레임별 비디오의 등장인물 및 등장인물의 표정을 분석하는 단계;
    상기 컨텍스트 분석부가 상기 프레임별 비디오의 공간을 분석하여 인식하는 단계;
    상기 컨텍스트 분석부가 상기 등장인물, 상기 표정 및 상기 공간에 의해 하나 이상의 상기 프레임을 그룹핑하여 상기 영상예비클립을 작성하는 단계;
    상기 컨텍스트 분석부가 상기 영상예비클립에 상기 등장인물, 상기 표정 및 상기 공간에 대한 정보를 포함하는 상기 영상예비클립정보를 부가하는 단계를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  19. 제 18 항에 있어서,
    상기 등장인물 및 상기 등장인물의 표정을 분석하는 단계는
    상기 컨텍스트 분석부가 상기 프레임별 비디오와 인물데이터베이스의 데이터를 비교하여 상기 등장인물을 구분하는 단계;
    표정룰데이터베이스의 복수의 인물이미지로부터 추출되어 저장된 특징점정보와 상기 프레임별 비디오를 비교하여 상기 표정을 인식하는 단계;를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  20. 제 19 항에 있어서,
    상기 등장인물 및 상기 등장인물의 표정을 분석하는 단계는
    상기 컨텍스트 분석부가 상기 등장인물 중 상기 인물데이터베이스의 데이터에 매칭되지 않는 인물을 임시명으로 지정하는 단계를 더 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  21. 제 16 항에 있어서,
    상기 음향예비클립 및 상기 음향예비클립에 대한 상기 음향예비클립정보를 작성하는 단계는,
    상기 컨텍스트 분석부가 상기 프레임별 오디오를 분석하여 음향 또는 등장인물의 음성이 연속되거나, 상기 등장인물 간의 음성이 중첩 또는 교변되어 발생되는 하나 이상의 상기 프레임을 그룹핑하여 상기 음향예비클립을 생성하는 단계;
    상기 컨텍스트 분석부가 상기 프레임별 오디오의 상기 등장인물의 음성을 텍스트로 변환하고, 음절을 분리하여 음절데이터를 작성하는 단계;
    상기 컨텍스트 분석부가 상기 음절데이터를 이용하여 문장구조를 분석하거나 키워드를 추출하는 단계; 및
    상기 컨텍스트 분석부가 상기 음향예비클립에 상기 문장구조 또는 상기 키워드를 포함시키는 단계를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  22. 제 21 항에 있어서,
    음향예비클립 및 상기 음향예비클립에 대한 음향예비클립정보를 작성하는 단계는
    상기 컨텍스트 분석부가 상기 프레임별 오디오의 상기 음향 또는 상기 음성이 미인식되는 경우 미처리 프레임으로 분류하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  23. 제 16 항에 있어서,
    상기 클립을 생성하고 상기 클립에 대한 상기 클립정보를 추출하는 단계는,
    상기 컨텍스트 분석부가 상기 영상예비클립과 상기 음향예비클립을 동일한 시간축에 대해 비교하여,
    상기 영상예비클립의 시간구간과 상기 음향예비클립의 시간구간이 일치하는 경우 일치되는 상기 시간구간 내의 상기 동영상을 하나의 상기 클립으로 결정하는 단계를 더 포함하는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  24. 제 16 항에 있어서,
    상기 클립을 생성하고 상기 클립에 대한 상기 클립정보를 추출하는 단계는,
    하나의 상기 영상예비클립의 시간구간에 둘 이상의 상기 음향예비클립이 포함되는 경우 상기 영상예비클립의 시간구간 내의 상기 동영상을 하나의 클립으로 결정하는 단계; 또는
    하나의 상기 음향예비클립의 시간구간에 둘 이상의 상기 영상예비클립이 포함되는 경우 상기 음향예비클립의 시간구간 내의 상기 동영상을 하나의 클립으로 결정하는 단계를 더 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색 방법.
  25. 제 16 항에 있어서,
    상기 클립을 생성하고 상기 클립에 대한 클립정보를 추출하는 단계는,
    상기 컨텍스트 분석부는
    연속되는 복수의 상기 영상예비클립과
    연속되는 상기 영상예비클립의 시간구간에 대한 시작점과 종점이 일치되는 복수의 상기 음향예비클립에 있어서, 상기 시작점으로부터 상기 종점까지의 영상예비클립과 복수의 상기 음향예비클립을 하나의 상기 클립으로 결정하는 단계를 더 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색방법.
  26. 제 25항에 있어서,
    복수의 상기 음향예비클립은 불연속적이거나, 복수의 상기 음향예비클립 사이에 미처리 프레임이 포함되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색방법.
  27. 제 16 항에 있어서,
    상기 컨텍스트가 상기 컨텍스트 분석부에 전달되는 단계는,
    상기 레퍼런스 데이터베이스가 이전 브이오디 클립의 데이터가 저장되는 레퍼런스 데이터와 상기 클립정보를 비교하는 단계; 및
    상기 레퍼런스 데이터베이스가 상기 클립정보와 유사도가 가능 높은 상기 레퍼런스 데이터를 선택하고, 선택된 상기 레퍼런스 데이터에 의해 상기 컨텍스트를 결정하는 단계를 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색방법.
  28. 제 27 항에 있어서,
    상기 컨텍스트가 상기 컨텍스트 분석부에 전달되는 단계는
    상기 레퍼런스 데이터베이스가 상기 클립정보와 선택된 상기 컨텍스트를 상기 레퍼런스 데이터에 추가하는 단계를 더 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색방법.
  29. 제 16 항에 있어서,
    상기 클립을 제공하는 단계는,
    엔유아이부(NUI)부에 음성에 의한 검색어가 입력되는 단계;
    상기 엔유아이부가 상기 음성으로부터 검색 키워드를 추출하는 단계;
    상기 메타데이터 데이터베이스가 상기 검색키워드와 상기 컨텍스트 또는 상기 클립정보를 비교하여 상기 클립을 검색하는 단계;를 더 포함하여 구성되는 것을 특징으로 하는 컨텍스트 기반 브이오디 검색 시스템을 이용한 검색방법.
KR1020130099396A 2013-08-22 2013-08-22 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법 KR101516995B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130099396A KR101516995B1 (ko) 2013-08-22 2013-08-22 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130099396A KR101516995B1 (ko) 2013-08-22 2013-08-22 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법

Publications (2)

Publication Number Publication Date
KR20150022088A KR20150022088A (ko) 2015-03-04
KR101516995B1 true KR101516995B1 (ko) 2015-05-15

Family

ID=53020163

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130099396A KR101516995B1 (ko) 2013-08-22 2013-08-22 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법

Country Status (1)

Country Link
KR (1) KR101516995B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210525B2 (en) 2017-09-15 2021-12-28 Samsung Electronics Co., Ltd. Method and terminal for providing content

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101643979B1 (ko) * 2015-07-01 2016-07-29 순천향대학교 산학협력단 비디오 컨텐츠 증강 방법
KR101658002B1 (ko) * 2015-12-11 2016-09-21 서강대학교산학협력단 동영상 주석 시스템 및 주석 방법
KR102124982B1 (ko) * 2018-03-30 2020-06-19 주식회사 엘지유플러스 콘텐츠 제어 장치 및 그 방법
KR102085908B1 (ko) 2018-05-10 2020-03-09 네이버 주식회사 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
KR102121798B1 (ko) * 2018-08-08 2020-06-11 신한대학교 산학협력단 지식융합형 학습정보제공장치
KR102131751B1 (ko) * 2018-11-22 2020-07-08 에스케이텔레콤 주식회사 인식 메타 정보를 이용한 구간 구분 정보 처리 방법 및 이를 지원하는 서비스 장치
KR102276216B1 (ko) * 2018-11-27 2021-07-12 에스케이텔레콤 주식회사 표정 기반 컨텐츠 추천 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102264744B1 (ko) * 2019-10-01 2021-06-14 씨제이올리브네트웍스 주식회사 영상 데이터를 처리하는 방법 및 이를 실행시키기 위한 명령어들이 저장된 컴퓨터 판독 가능한 기록 매체
KR102252522B1 (ko) * 2020-02-17 2021-05-13 제주대학교 산학협력단 내용 기반 동영상 목차 자동생성 방법 및 시스템
KR20210134866A (ko) * 2020-04-29 2021-11-11 엠랩 주식회사 동영상 내부의 정보를 검색하는 방법 및 장치
WO2021221210A1 (ko) * 2020-04-29 2021-11-04 엠랩 주식회사 스마트경로 생성방법 및 장치
CN113709521B (zh) * 2021-09-18 2023-08-29 物芯智能科技有限公司 一种根据视频内容自动匹配背景的系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210525B2 (en) 2017-09-15 2021-12-28 Samsung Electronics Co., Ltd. Method and terminal for providing content

Also Published As

Publication number Publication date
KR20150022088A (ko) 2015-03-04

Similar Documents

Publication Publication Date Title
KR101516995B1 (ko) 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법
US11197036B2 (en) Multimedia stream analysis and retrieval
JP6824332B2 (ja) 動画サービス提供方法およびこれを用いるサービスサーバ
US10565435B2 (en) Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
WO2012020668A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2002251197A (ja) オーディオビジュアルサマリ作成方法
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
JP2001515634A (ja) ストーリーセグメンテーション機能を有するマルチメディアコンピュータシステム及びその動作プログラム
KR20200054613A (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
KR101550886B1 (ko) 동영상 콘텐츠에 대한 부가 정보 생성 장치 및 방법
CN112738557A (zh) 视频处理方法及装置
CN111400513B (zh) 数据处理方法、装置、计算机设备和存储介质
CN107145509B (zh) 一种信息搜索方法及其设备
CN113766314A (zh) 视频切分方法、装置、设备、系统及存储介质
KR20210134866A (ko) 동영상 내부의 정보를 검색하는 방법 및 장치
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN109376145A (zh) 影视对白数据库的建立方法、建立装置及存储介质
US11386163B2 (en) Data search method and data search system thereof for generating and comparing strings
CN115665508A (zh) 视频摘要生成的方法、装置、电子设备及存储介质
CN110888896A (zh) 数据搜寻方法及其数据搜寻系统
WO2011039773A2 (en) Tv news analysis system for multilingual broadcast channels

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180313

Year of fee payment: 6