KR20210093743A

KR20210093743A - 미디어 인리치먼트 제공 방법 및 장치

Info

Publication number: KR20210093743A
Application number: KR1020200180765A
Authority: KR
Inventors: 안재용; 강민수
Original assignee: 주식회사 씨오티커넥티드
Priority date: 2020-01-20
Filing date: 2020-12-22
Publication date: 2021-07-28

Abstract

미디어 인리치먼트 제공 방법 및 장치가 개시된다. 일 실시예에 따른 미디어 인리치먼트 제공 방법은 영상 분석 엔진으로부터 영상의 각 쇼트(shot)에 대응하는 하나 이상의 키워드 및 키워드에 대응하는 컨피던스 값을 수신하는 단계, 하나 이상의 키워드 중에서, 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정하는 단계, 연속하는 쇼트들에 있어서, 각 쇼트의 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정하는 단계, 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 장면을 대표하는 최종 키워드를 결정하는 단계, 영상에 대한 이미지 분석 요청을 수신하는 단계 및 이미지 분석 요청을 수신한 시점에 대응하는 장면의 최종 키워드에 기초하여, 적어도 하나의 미디어 인리치먼트(enrichment) 객체를 획득하는 단계를 포함한다.

Description

미디어 인리치먼트 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING MEDIA ENRICHMENT}

아래 실시예들은 미디어 인리치먼트 제공 방법 및 장치에 관한 것이다.

종전의 영상 제공 서비스는, 시청자가 일방적으로 송출되는 영상을 시청하는 일방 적인 서비스의 형태를 취하고 있어, 시청자가 방송을 시청하면서 발생되는 궁금증을 해소하기에는 무리가 있다. 예를 들어, 시청자가 컨텐츠를 시청하는 도중 시청자가 등장 인물 또는 협찬 상품 등에 대한 정보를 얻고자 하는 경우 별도의 웹 검색 화면을 이용하여 검색하여야 하며, 등장 인물 또는 협찬 상품 등에 대한 검색 어를 알 수 없는 경우에는 검색 자체가 불가능한 문제점이 있었다.

실시예들은 영상에서 일정 시간 간격마다 키워드들을 추출하고자 한다.

실시예들은 추출된 키워드들에 기초하여 장면 전환 시점을 판단하고자 한다.

실시예들은 추출된 키워드를 이용하여 시청 중인 화면에 오버레이 방식으로 미디어/광고 콘텐츠를 제공하고자 한다.

일 실시예에 따른 미디어 인리치먼트 제공 방법은 영상 분석 엔진으로부터 영상의 각 쇼트(shot)에 대응하는 하나 이상의 키워드 및 상기 키워드에 대응하는 컨피던스 값을 수신하는 단계; 상기 하나 이상의 키워드 중에서, 상기 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정하는 단계; 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정하는 단계; 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 상기 장면을 대표하는 최종 키워드를 결정하는 단계; 상기 영상에 대한 이미지 분석 요청을 수신하는 단계; 및 상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 최종 키워드에 기초하여, 적어도 하나의 미디어 인리치먼트(enrichment) 객체를 획득하는 단계를 포함한다.

상기 하나의 장면으로 결정하는 단계는 상기 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 일치하는 후보 키워드의 수를 누적적으로 카운트하는 단계; 및 상기 누적된 카운트 값에 기초하여, 상기 후보 키워드의 일치 비율을 계산하는 단계를 포함할 수 있다.

상기 제1 임계값은 상기 컨피던스 값의 분포에 기초하여 결정될 수 있다.

상기 최종 키워드를 결정하는 단계는 상기 장면을 구성하는 쇼트들의 쇼트 별 가중치를 결정하는 단계; 상기 쇼트 별 가중치에 기초하여, 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 가중합하는 단계; 및 상기 가중합이 제3 임계값 이상인 키워드를 상기 최종 키워드로 결정하는 단계를 포함할 수 있다.

상기 쇼트 별 가중치를 결정하는 단계는 상기 장면을 구성하는 쇼트들 각각에 포함된 상기 후보 키워드의 수에 기초하여 상기 장면을 구성하는 쇼트들의 상기 쇼트 별 가중치를 결정하는 단계를 포함할 수 있다.

상기 제3 임계값은 상기 장면을 구성하는 쇼트들의 상기 키워드에 대응하는 상기 컨피던스 값의 분포에 기초하여 결정될 수 있다.

상기 가중합하는 단계는 상기 가중치에 기초하여, 상기 장면을 구성하는 상기 쇼트들의 상기 후보 키워드에 대응하는 컨피던스 값을 가중합하는 단계를 포함할 수 있다.

일 실시예에 따른 미디어 인리치먼트 제공 방법은 상기 적어도 하나의 미디어 인리치먼트 객체를 상기 영상에 오버랩 렌더링하는 단계를 더 포함할 수 있다.

상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계는 상기 최종 키워드를 적어도 하나의 서비스 서버에 쿼리로 입력하는 단계; 및 상기 서비스 서버로부터 상기 쿼리에 대응하는 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계를 포함할 수 있다.

상기 적어도 하나의 미디어 인리치먼트 객체는 사진, 텍스트, 사운드, 외부 연결 링크, 소셜 연계정보, 광고 컨텐츠 및 연관되어 재생가능한 별개 컨텐츠 중 적어도 하나의 썸내일 하이퍼링크를 포함할 수 있다.

일 실시예에 따른 미디어 인리치먼트 제공 방법은 상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 사운드를 음성인식한 결과에 기초하여 적어도 하나의 키워드를 결정하는 단계를 더 포함하고, 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계는 상기 키워드를 더 참조하여, 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계를 포함할 수 있다.

상기 영상 분석 엔진은 상기 영상을 입력 받아 상기 키워드 및 상기 키워드에 대응하는 상기 컨피던스 값을 생성하는 외부 영상 분석 엔진을 포함할 수 있다.

일 실시예에 따른 미디어 인리치먼트 제공 장치는 영상 분석 엔진으로부터 영상의 각 쇼트(shot)에 대응하는 하나 이상의 키워드 및 상기 키워드에 대응하는 컨피던스 값을 수신하고, 상기 하나 이상의 키워드 중에서, 상기 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정하고, 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정하고, 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 상기 장면을 대표하는 최종 키워드를 결정하고, 상기 영상에 대한 이미지 분석 요청을 수신하며, 상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 최종 키워드에 기초하여, 적어도 하나의 미디어 인리치먼트(enrichment) 객체를 획득하는 프로세서를 포함한다.

상기 프로세서는 상기 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 일치하는 후보 키워드의 수를 누적적으로 카운트하고, 상기 누적된 카운트 값에 기초하여, 상기 후보 키워드의 일치 비율을 계산할 수 있다.

상기 프로세서는 상기 장면을 구성하는 쇼트들의 쇼트 별 가중치를 결정하고, 상기 쇼트 별 가중치에 기초하여, 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 가중합하고, 상기 가중합이 제3 임계값 이상인 키워드를 상기 최종 키워드로 결정할 수 있다.

상기 프로세서는 상기 장면을 구성하는 쇼트들 각각에 포함된 상기 후보 키워드의 수에 기초하여 상기 장면을 구성하는 쇼트들의 상기 쇼트 별 가중치를 결정할 수 있다.

상기 프로세서는 상기 가중치에 기초하여, 상기 장면을 구성하는 상기 쇼트들의 상기 후보 키워드에 대응하는 컨피던스 값을 가중합할 수 있다.

상기 프로세서는 상기 적어도 하나의 미디어 인리치먼트 객체를 상기 영상에 오버랩 렌더링할 수 있다.

상기 프로세서는 상기 최종 키워드를 적어도 하나의 서비스 서버에 쿼리로 입력하고, 상기 서비스 서버로부터 상기 쿼리에 대응하는 상기 적어도 하나의 미디어 인리치먼트 객체를 획득할 수 있다.

상기 프로세서는 상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 사운드를 음성인식한 결과에 기초하여 적어도 하나의 키워드를 결정하고, 상기 키워드를 더 참조하여, 상기 적어도 하나의 미디어 인리치먼트 객체를 획득할 수 있다.

실시예들은 영상에서 일정 시간 간격마다 키워드들을 추출할 수 있다.

실시예들은 추출된 키워드들에 기초하여 장면 전환 시점을 판단할 수 있다.

실시예들은 추출된 키워드를 이용하여 시청 중인 화면에 오버레이 방식으로 미디어/광고 콘텐츠를 제공할 수 있다.

도 1은 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 일 실시예에 따른 미디어 인리치먼트 제공 시스템의 동작 방법을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 이미지 분석 요청을 수신한 시점에 대응하는 장면과 관련된 인리치먼트 객체를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 미디어 인리치먼트 제공 방법을 설명하기 위한 순서도이다.
도 5는 일 실시예에 따른 장면을 결정하는 구체적인 방법을 설명하기 위한 도면이다.

본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.

도 1을 참고하면, 일 실시예에 따른 네트워크 환경은 복수의 단말들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함할 수 있다. 이러한 도 1은 발명의 설명을 위한 일례로, 단말들의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다.

복수의 단말들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 단말들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, HMD(Head mounted Display), TV, 스마트 TV 등이 있다.

단말(110)은 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 단말들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있다. 서버(150)는 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 단말들(110, 120, 130, 140) 및/또는 다른 서버(160)와 통신할 수 있다.

통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(예를 들어, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식 뿐만 아니라 기기들 간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

서버(150, 160) 각각은 복수의 단말들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 콘텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.

서버(150)는 네트워크(170)를 통해 접속한 단말(110)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우 단말(110)은 서버(150)로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다. 또한, 단말(110)이 포함하는 운영체제(Operating System, OS) 및 적어도 하나의 프로그램(일례로 브라우저나 상기 설치된 어플리케이션)의 제어에 따라 서버(150)에 접속하여 서버(150)가 제공하는 서비스나 콘텐츠를 제공받을 수 있다. 예를 들어, 단말(110)이 어플리케이션의 제어에 따라 네트워크(170)를 통해 서비스 요청 메시지를 서버(150)로 전송하면, 서버(150)는 서비스 요청 메시지에 대응하는 코드를 단말(110)로 전송할 수 있고, 단말(110)은 어플리케이션의 제어에 따라 코드에 따른 화면을 구성하여 표시함으로써 사용자에게 컨텐츠를 제공할 수 있다.

도 2는 일 실시예에 따른 미디어 인리치먼트 제공 시스템의 동작 방법을 설명하기 위한 도면이다.

도 2를 참조하면, 일 실시예에 따른 미디어 인리치먼트 제공 시스템은 단말(210), 미디어 인리치먼트 제공 장치(220), 영상 분석 엔진(230)을 포함할 수 있다. 미디어 인리치먼트 제공 장치(220)는 프로세서(221)와 데이터베이스(222)를 포함한다. 일 실시예에 따른 단말(210)은 도 1의 단말들(110 내지 140) 중 하나일 수 있고, 미디어 인리치먼트 제공 장치(220)와 영상 분석 엔진(230)은 도 1의 서버(150, 160) 중 하나일 수 있다.

일 실시예에 따른 미디어 인리치먼트 제공 시스템에 따르면, 사용자가 단말(210)을 통해 미디어 인리치먼트 제공 장치(220)에 영상에 대한 이미지 분석 요청을 하는 경우, 미디어 인리치먼트 제공 장치(220)는 이미지 분석 요청을 수신한 시점에 대응하는 장면과 관련된 미디어 인리치먼트 객체를 획득하여 사용자에게 제공할 수 있다. 미디어 인리치먼트 객체는 사진, 텍스트, 사운드, 외부 연결 링크, 소셜 연계정보, 광고 컨텐츠 및 연관되어 재생가능한 별개 컨텐츠 중 적어도 하나의 썸내일 하이퍼링크를 포함할 수 있으나, 이에 제한되지 않는다.

이를 통해, 사용자는 별도의 검색을 하지 않고 시청하는 영상의 등장 인물 또는 협찬 상품 등에 대한 정보를 제공받을 수 있다. 예를 들어, 사용자는 단말(210)의 리모컨 등을 이용하여 영상을 시청 중, 원하는 시점에 미디어 인리치먼트 제공 장치(220)에 해당 시점의 영상에 대한 이미지 분석을 요청할 수 있다. 영상은 실시간 채널 영상, VOD 영상 뿐만 아니라 스트리밍 영상을 포함할 수 있다.

미디어 인리치먼트 제공 장치(220)는 이미지 분석 요청을 수신한 시점에 대응하는 장면과 관련된 객체를 획득하여 사용자에게 제공할 수 있다. 이미지 분석 요청을 수신한 시점에 대응하는 장면과 관련된 객체의 구체적인 예시는 아래에서 도 3을 참조하여 상세히 설명된다.

미디어 인리치먼트 제공 장치(220)는 일정 시간 간격마다 해당 시간에 대응하는 영상과 관련된 키워드들을 추출할 수 있다. 보다 구체적으로, 미디어 인리치먼트 제공 장치(220)는 일정 시간 간격마다 해당 시간에 대응하는 영상을 영상 분석 엔진(230)으로 전송할 수 있고, 영상 분석 엔진(230)으로부터 각 영상에 대응하는 키워드를 수신할 수 있다. 예를 들어, 영상을 최소 시간 간격으로 나눌 수 있고, 각 시간에 대응하는 영상을 쇼트(shot)라고 지칭할 수 있다. 미디어 인리치먼트 제공 장치(220)는 쇼트를 영상 분석 엔진(230)으로 전송할 수 있고, 영상 분석 엔진(230)으로부터 각 쇼트에 대응하는 제1 메타데이터를 수신할 수 있다. 제1 메타데이터는 영상에 대응하는 하나 이상의 키워드 및 키워드에 대응하는 컨피던스 값을 포함할 수 있다. 컨피던스 값은 해당 키워드와 쇼트 사이의 관련된 정도에 관한 수치일 수 있다. 예를 들어, 컨피던스 값은 0과 1 사이의 값일 수 있고, 1에 가까울수록 키워드가 해당 쇼트와 관련된 정도가 높음을 의미할 수 있다.

미디어 인리치먼트 제공 장치(220)는 하나 이상의 키워드 중에서, 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정할 수 있다. 미디어 인리치먼트 제공 장치(220)는 제1 메타데이터에 기초하여, 하나 이상의 쇼트로 구성된 장면(scene)을 결정할 수 있다. 이를 통해, 미디어 인리치먼트 제공 장치(220)는 제1 메타데이터에 기초하여, 장면 전환 시점도 판단할 수 있다. 일례로, 미디어 인리치먼트 제공 장치(220)는 연속하는 쇼트들에 있어서, 각 쇼트의 상기 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정할 수 있다. 제1 메타데이터에 기초하여, 장면을 결정하는 구체적인 방법은 아래에서 도 5를 참조하여 상세히 설명된다.

미디어 인리치먼트 제공 장치(220)는 장면에 대응하는 제2 메타데이터를 결정할 수 있고, 장면의 제2 메타데이터에 기초하여, 해당 장면에 대응하는 적어도 하나의 미디어 인리치먼트 객체를 획득할 수 있다. 일례로, 미디어 인리치먼트 제공 장치(220)는 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 장면을 대표하는 최종 키워드를 결정할 수 있다.

영상 분석 엔진(230)은 영상을 입력 받아 입력 영상에 대응하는 제1 메타데이터를 생성하는 외부 영상 분석 엔진을 포함할 수 있다. 예를 들어, 영상 분석 엔진(230)은 google vision API 일 수 있다. google vision API는 영상이 포함하고 있는 지배적인 객체를 찾아내 메타데이터를 구축하고 있고, 구축한 메타데이터를 이용하여 이미지 내의 객체를 수천개의 카테고리로 분류할 수 있다. 다만, 여기서 google vision API는 예시적인 사항일 뿐, 상술한 영상 분석 엔진 이외에 객체 인식 및 그에 상응하는 메타데이터를 출력하는 다양한 유형의 모델 또는 장치에 채용되어 응용될 수 있다.

미디어 인리치먼트 제공 시스템에 있어서 외부 영상 분석 엔진을 사용하는 경우, 미디어 인리치먼트 제공 장치(220)는 외부 영상 분석 엔진으로부터 수신한 제1 메타데이터를 활용할 뿐 미디어 인리치먼트 제공 장치(220)가 자체적으로 영상 분석을 하지 않기 때문에 처리 속도가 향상될 수 있다.

미디어 인리치먼트 제공 장치(220)는 프로세서(221)와 데이터베이스(222)를 포함한다. 미디어 인리치먼트 제공 장치(220)는 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 예를 들어, 미디어 인리치먼트 제공 장치(220)는 메모리, 통신 모듈, 입출력 인터페이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

메모리는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리에는 운영체제와 적어도 하나의 프로그램 코드에 설치되어 구동되는 브라우저나 상술한 어플리케이션 등을 위한 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다.

다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신 모듈을 통해 메모리에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템에 기반하여 메모리에 로딩될 수 있다.

프로세서(221)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리 또는 통신 모듈에 의해 프로세서(221)로 제공될 수 있다. 예를 들어 프로세서(221)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 모듈은 네트워크를 통해 단말(210)과 미디어 인리치먼트 제공 장치(220)가 서로 통신하기 위한 기능을 제공할 수 있으며, 다른 서버와 통신하기 위한 기능을 제공할 수 있다. 예를 들어, 미디어 인리치먼트 제공 장치(220)의 프로세서(221)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 통신 모듈과 네트워크(170)를 거쳐 단말(210)로 수신될 수 있다.

도 3은 일 실시예에 따른 이미지 분석 요청을 수신한 시점에 대응하는 장면과 관련된 인리치먼트 객체를 설명하기 위한 도면이다.

도 3의 도면(310, 320)을 참조하면, 일 실시예에 따른 미디어 인리치먼트 제공 장치는 하나의 화면에서 제1 영역에 영상이 표시되고 있을 때, 제2 영역에 상기 영상과 관련된 미디어 인리치먼트 객체를 제공할 수 있다.

미디어 인리치먼트 제공 장치는 키워드의 카테고리를 나누고, 카테고리 별로 미디어 인리치먼트 객체를 제공할 수 있다. 예를 들어, 도면(310)을 참조하면, 미디어 인리치먼트 제공 장치는 이미지 분석 요청을 수신한 시점에 대응하는 장면에 대응하는 키워드들을 획득하여 해당 키워드들을 '등장인물' 카테고리, '상품/쇼핑' 카테고리, '소셜' 카테고리로 나눌 수 있고, 각 카테고리 별로 미디어 인리치먼트 객체를 제공할 수 있다. 나아가, 미디어 인리치먼트 제공 장치는 해당 장면이 현재 영상에서 몇 번째 장면인지를 표시할 수 있고, 해당 장면에 대응하는 시간 구간도 표시할 수 있다.

마찬가지로, 도면(320)을 참조하면, 미디어 인리치먼트 제공 장치는 이미지 분석 요청을 수신한 시점에 대응하는 장면에 대응하는 키워드들을 획득하여 해당 키워드들을 '회차' 카테고리, '류현진' 카테고리, 'LA다저스' 카테고리로 나눌 수 있고, 각 카테고리 별로 미디어 인리치먼트 객체를 제공할 수 있다.

도 3에 도시된 실시예들은 이미지 분석 요청을 수신한 시점에 대응하는 장면과 관련된 인리치먼트 객체를 설명하기 위한 하나의 예시일 뿐, 미디어 인리치먼트 객체는 이에 한정되지 않는다. 예를 들어, 미디어 인리치먼트 객체는 뉴스, 드라마, 홈쇼핑, 예능 등 다양한 영상에서 활용될 수 있다.

도 4는 일 실시예에 따른 미디어 인리치먼트 제공 방법을 설명하기 위한 순서도이다.

도 4를 참조하면, 일 실시예에 따른 단계들(410 내지 460)은 도 2 내지 도 3을 참조하여 전술한 미디어 인리치먼트 제공 장치에 의해 수행될 수 있다. 미디어 인리치먼트 제공 장치는 하나 또는 그 이상의 하드웨어 모듈, 하나 또는 그 이상의 소프트웨어 모듈, 또는 이들의 다양한 조합에 의하여 구현될 수 있다.

단계(410)에서, 미디어 인리치먼트 제공 장치(220)는 영상 분석 엔진으로부터 영상의 각 쇼트에 대응하는 하나 이상의 키워드 및 상기 키워드에 대응하는 컨피던스 값을 수신한다. 영상 분석 엔진은 도 2를 참조하여 전술한 영상 분석 엔진(230)일 수 있다.

단계(420)에서, 미디어 인리치먼트 제공 장치(220)는 하나 이상의 키워드 중에서, 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정한다. 미디어 인리치먼트 제공 장치(220)는 쇼트에 대응하는 키워드들 중에서, 컨피던스 값이 제1 임계값 미만인 키워드들을 노이즈로 간주할 수 있다. 제1 임계값은 컨피던스 값의 분포에 기초하여 결정될 수 있다. 예를 들어, 제1 임계값은 특정 쇼트에 대응하는 컨피던스 값의 평균 및 분산에 기초하여 결정될 수 있다.

단계(430)에서, 미디어 인리치먼트 제공 장치(220)는 연속하는 쇼트들에 있어서, 각 쇼트의 상기 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정한다. 연속하는 하나 이상의 쇼트가 모여서 장면을 구성할 수 있다. 예를 들어, 주인공이 거리를 걸어가는 장면의 경우, 그 장면을 여러 각도에서 몇 개의 쇼트로 나누어 구성될 수 있지만 그 쇼트들은 전부 주인공이 걸어가는 장면일 수 있다. 장면을 결정하는 구체적인 방법을 도 5를 참조하여 설명한다.

도 5는 일 실시예에 따른 장면을 결정하는 구체적인 방법을 설명하기 위한 도면이다.

도 5를 참조하면, 일 실시예에 따른 쇼트1(510) 내지 쇼트3(530)은 연속하는 쇼트들이고, 아래 표 1은 영상 분석 엔진으로부터 수신한 쇼트1(510) 내지 쇼트3(530)에 대응하는 제1 메타데이터(예를 들어, 키워드 및 컨피던스 값)들을 나타낸 것이다.

쇼트1		쇼트2		쇼트3
Man	0.88	Woman	0.84	Woman	0.83
Picture frame	0.85	Man	0.84	Person	0.79
Person	0.81	Picture frame	0.78	Top	0.67
Clothing	0.69	Clothing	0.56	Gesture	0.81
Luggage & bags	0.57	Luggage & bags	0.55	Forehead	0.78
Art	0.86	Art	0.68	Finger	0.72
Visual Arts	0.82	Room	0.66	Scene	0.71
Modern Art	0.74	Event	0.63	Hand	0.70
Painting	0.74	Photography	0.62	Mouth	0.68
Organism	0.72	Conversation	0.57	Smile	0.64
Fun	0.70	Gesture	0.56	Photography	0.62
Event	0.67	Visual Arts	0.55	Black Hair	0.61
Adaptation	0.67			Conversation	0.58
Room	0.66			Jaw	0.57
Art Exhibition	0.65
Drawing	0.59
Portrait	0.57
Animation	0.56
Exhibition	0.56
Illustration	0.55
Conversation	0.54
Mural	0.53

미디어 인리치먼트 제공 장치(220)는 각 쇼트에 대응하는 키워드들 중에서, 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정할 수 있다. 제1 임계값은 컨피던스 값의 분포에 기초하여 결정될 수 있다. 예를 들어, 제1 임계값은 하위 20%에 대응하는 컨피던스 값으로 결정될 수 있다. 표 1을 참조하면, 쇼트1(510)의 제1 임계값은 0.565, 쇼트2(520)의 제1 임계값은 0.555, 쇼트3(530)의 제1 임계값은 0.615로 결정될 수 있다. 따라서, 쇼트1(510)의 키워드 'Animation', 'Exhibition', 'llustration', 'Conversation' 및 'Mural'은 후보 키워드에서 제외되고, 쇼트2(520)의 키워드 'Luggage & bags', 'Visual Arts'는 후보 키워드에서 제외되고, 쇼트3(530)의 키워드 'Black Hair', 'Conversation', 'Jaw'는 후보 키워드에서 제외될 수 있다.

미디어 인리치먼트 제공 장치(220)는 연속하는 쇼트들에 있어서, 각 쇼트의 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정할 수 있다.

일 실시예에 따르면, 미디어 인리치먼트 제공 장치(220)는 연속하는 쇼트들에 있어서, 각 쇼트는 직전 쇼트와의 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정할 수 있다. 표 1을 참조하면, 쇼트2(520)는 후보 키워드 10개 중에서 쇼트1(510)의 후보 키워드와 5개('Man', 'Picture frame', Clothing', 'Art', 'Event')가 일치한다. 또한, 쇼트3(530)은 후보 키워드는 10개 중에서 쇼트2(520)의 키워드와 3개('Woman', 'Photography', 'Gesture')가 일치한다. 제2 임계값이 예를 들어 0.5인 경우, 쇼트2(520)는 전체 키워드 10개 중에서 쇼트1(510)의 키워드와 5개가 일치하므로 쇼트1(510)과 쇼트2(520)는 0.5(5/10)의 일치 비율을 갖고, 이는 제2 임계값 0.5 이상이므로 하나의 장면을 구성하는 쇼트로 판단할 수 있다. 반면에, 쇼트3(530)은 전체 키워드 10개 중에서 쇼트2(520)의 키워드와 3개가 일치하므로 쇼트2(520)과 쇼트3(530)는 0.3(3/10)의 일치 비율을 갖고, 이는 제2 임계값 0.5 미만이므로 쇼트2(520)와 쇼트3(530)은 다른 장면을 구성하는 쇼트로 판단할 수 있다.

다른 실시예에 따르면, 미디어 인리치먼트 제공 장치(220)는 연속하는 쇼트들에 있어서, 각 쇼트의 일치하는 후보 키워드의 수를 누적적으로 카운트하고, 누적된 카운트 값에 기초하여, 후보 키워드의 일치 비율을 계산할 수 있다. 표 1을 참조하면, 쇼트3(530)은 후보 키워드는 10개 중에서 쇼트1(510)의 키워드와 1개('Person'), 쇼트2(520)의 키워드와 3개('Woman', 'Photography', 'Gesture')가 일치하여 누적하여 쇼트3(530)은 0.4(4/10)의 일치 비율을 갖을 수 있다.

다시 도 4를 참조하면, 단계(440)에서, 미디어 인리치먼트 제공 장치(220)는 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 장면을 대표하는 최종 키워드를 결정한다. 미디어 인리치먼트 제공 장치(220)는 장면을 구성하는 하나 이상의 쇼트들에 대응하는 키워드들 중에서 노이즈로 볼 수 있는 키워드들을 제거하여 장면을 대표하는 최종 키워드를 결정할 수 있다.

일 실시예에 따르면, 미디어 인리치먼트 제공 장치(220)는 장면을 구성하는 쇼트들의 쇼트 별 가중치를 결정하고, 쇼트 별 가중치에 기초하여 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 가중합할 수 있다. 나아가, 미디어 인리치먼트 제공 장치(220)는 가중합이 제3 임계값 이상인 키워드를 최종 키워드로 결정할 수 있다. 통계 처리 방법은 전술한 가중합에 한정되지 않고, 통계 처리에 관한 임의의 방식을 포함할 수 있다.

미디어 인리치먼트 제공 장치(220)는 장면을 구성하는 쇼트들의 중요도에 기초하여 쇼트 별 가중치를 결정할 수 있다. 예를 들어, 미디어 인리치먼트 제공 장치(220)는 더 높은 중요도를 갖는 쇼트에 더 큰 가중치를 부여할 수 있다.

일 실시예에 따르면, 미디어 인리치먼트 제공 장치(220)는 후보 키워드의 수가 많을수록 중요도가 높다고 판단할 수 있다. 이에, 미디어 인리치먼트 제공 장치(220)는 장면을 구성하는 쇼트들 각각에 포함된 후보 키워드의 수에 기초하여 장면을 구성하는 쇼트들의 쇼트 별 가중치를 결정할 수 있다. 예를 들어, 표 1에서, 쇼트1(510)은 17개의 후보 키워드를 갖고, 쇼트2(520)는 10개의 후보 키워드를 갖는 바, 쇼트1(510)은 0.63(17/27)의 가중치를, 쇼트2(520)는 0.37(10/27)의 가중치를 갖을 수 있다. 아래 표 2는 위 예시에 따른 장면을 구성하는 쇼트들(예를 들어, 쇼트1(510) 및 쇼트2(520))의 키워드들 및 이에 대응하는 컨피던스 값의 가중합을 나타낸 것이다.

장면1
Man	0.8652
Picture frame	0.8241
Art	0.8304
Event	0.4221
Clothing	0.6382
Visual Arts	0.5166
Person	0.5103
Modern Art	0.4662
Painting	0.4662
Organism	0.4536
Fun	0.441
Adaptation	0.4221
Room	0.4158
Art Exhibition	0.4095
Drawing	0.3717
Luggage & bags	0.3591
Portrait	0.3591
Animation	0.3528
Exhibition	0.3528
Illustration	0.3465
Conversation	0.3402
Mural	0.3339
Woman	0.3108
Room	0.2442
Photography	0.2294
Conversation	0.2109
Gesture	0.2072
Luggage & bags	0.2035
Visual Arts	0.2035

표 2를 참조하면, 미디어 인리치먼트 제공 장치(220)는 쇼트1(510) 및 쇼트2(520)의 키워드에 대응하는 컨피던스 값의 가중합이 미리 정해진 제3 임계값(예를 들어, 0.5) 이상인 키워드('Man', 'Picture frame', 'Art', 'Event', 'Clothing', 'Visual Arts', 'Person' )를 장면1의 최종 키워드로 결정할 있다.

일 실시예에 따른 제3 임계값은 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값의 분포에 기초하여 결정될 수 있다. 예를 들어, 제3 임계값은 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값들의 평균 및 분산에 기초하여 결정될 수 있다. 또는, 제3 임계값은 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값들의 미리 정해진 백분위 값에 기초하여 결정될 수 있다. 제3 임계값을 결정하는 방법은 위 예시에 한정되지 않고, 컨피던스 값의 분포에 기초하여 결정될 수 있는 임의의 방법을 포함한다.

단계(450)에서, 미디어 인리치먼트 제공 장치는 영상에 대한 이미지 분석 요청을 수신한다. 예를 들어, 미디어 인리치먼트 제공 장치는 사용자로부터 단말의 리모컨 등을 이용하여 영상을 시청 중, 원하는 시점의 영상에 대한 이미지 분석을 수신할 수 있다.

단계(460)에서, 미디어 인리치먼트 제공 장치는 이미지 분석 요청을 수신한 시점에 대응하는 장면의 최종 키워드에 기초하여, 적어도 하나의 미디어 인리치먼트 객체를 획득한다. 미디어 인리치먼트 제공 장치는 최종 키워드에 기초하여 미디어 인리치먼트 객체를 획득할 수 있다. 예를 들어, 미디어 인리치먼트 제공 장치는 최종 키워드를 조합하여 검색어를 생성할 수 있고, 생성된 검색어를 미디어 인리치먼트 제공 장치의 데이터베이스 또는 서비스 서버에 쿼리로 입력하여 미디어 인리치먼트 객체를 획득할 수 있다. 미디어 인리치먼트 제공 장치는 최종 키워드에 대응하는 컨피던스 값을 고려하여 검색어를 생성할 수 있다. 예를 들어, 복수의 최종 키워드들이 존재하는 경우, 미디어 인리치먼트 제공 장치는 컨피던스 값이 높은 최종 키워드를 다른 최종 키워드에 우선하여 검색어 후보로 결정 할 수 있다.

또한, 미디어 인리치먼트 제공 장치는 사용자 선호도에 따라 사용자에게 미디어 콘텐츠 또는 광고 콘텐츠 선택 및 제공할 수 있다. 미디어 인리치먼트 제공 장치는 사용자 선호도를 수신 및 저장할 수 있고, 이를 고려하여 사용자에게 미디어 인리치먼트 객체를 제공할 수 있다.

또한, 미디어 인리치먼트 제공 장치는 이미지 분석 요청을 수신한 시점에 대응하는 장면의 사운드를 음성인식한 결과에 기초하여 적어도 하나의 키워드를 결정할 수 있고, 사운드를 음성인식한 결과에 기초하여 결정된 키워드를 더 참조하여, 적어도 하나의 미디어 인리치먼트 객체를 획득할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

영상 분석 엔진으로부터 영상의 각 쇼트(shot)에 대응하는 하나 이상의 키워드 및 상기 키워드에 대응하는 컨피던스 값을 수신하는 단계;
상기 하나 이상의 키워드 중에서, 상기 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정하는 단계;
연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정하는 단계;
상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 상기 장면을 대표하는 최종 키워드를 결정하는 단계;
상기 영상에 대한 이미지 분석 요청을 수신하는 단계; 및
상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 최종 키워드에 기초하여, 적어도 하나의 미디어 인리치먼트(enrichment) 객체를 획득하는 단계
를 포함하는 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 하나의 장면으로 결정하는 단계는
상기 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 일치하는 후보 키워드의 수를 누적적으로 카운트하는 단계; 및
상기 누적된 카운트 값에 기초하여, 상기 후보 키워드의 일치 비율을 계산하는 단계
를 포함하는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 제1 임계값은 상기 컨피던스 값의 분포에 기초하여 결정되는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 최종 키워드를 결정하는 단계는
상기 장면을 구성하는 쇼트들의 쇼트 별 가중치를 결정하는 단계;
상기 쇼트 별 가중치에 기초하여, 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 가중합하는 단계; 및
상기 가중합이 제3 임계값 이상인 키워드를 상기 최종 키워드로 결정하는 단계
를 포함하는, 미디어 인리치먼트 제공 방법.
제4항에 있어서,
상기 쇼트 별 가중치를 결정하는 단계는
상기 장면을 구성하는 쇼트들 각각에 포함된 상기 후보 키워드의 수에 기초하여 상기 장면을 구성하는 쇼트들의 상기 쇼트 별 가중치를 결정하는 단계
를 포함하는, 미디어 인리치먼트 제공 방법.
제4항에 있어서,
상기 제3 임계값은
상기 장면을 구성하는 쇼트들의 상기 키워드에 대응하는 상기 컨피던스 값의 분포에 기초하여 결정되는, 인리치먼트 제공 방법.
제4항에 있어서,
상기 가중합하는 단계는
상기 가중치에 기초하여, 상기 장면을 구성하는 상기 쇼트들의 상기 후보 키워드에 대응하는 컨피던스 값을 가중합하는 단계
를 포함하는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 적어도 하나의 미디어 인리치먼트 객체를 상기 영상에 오버랩 렌더링하는 단계
를 더 포함하는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계는
상기 최종 키워드를 적어도 하나의 서비스 서버에 쿼리로 입력하는 단계; 및
상기 서비스 서버로부터 상기 쿼리에 대응하는 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계
를 포함하는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 적어도 하나의 미디어 인리치먼트 객체는
사진, 텍스트, 사운드, 외부 연결 링크, 소셜 연계정보, 광고 컨텐츠 및 연관되어 재생가능한 별개 컨텐츠 중 적어도 하나의 썸내일 하이퍼링크를 포함하는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 사운드를 음성인식한 결과에 기초하여 적어도 하나의 키워드를 결정하는 단계
를 더 포함하고,
상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계는
상기 키워드를 더 참조하여, 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는 단계
를 포함하는, 미디어 인리치먼트 제공 방법.
제1항에 있어서,
상기 영상 분석 엔진은
상기 영상을 입력 받아 상기 키워드 및 상기 키워드에 대응하는 상기 컨피던스 값을 생성하는 외부 영상 분석 엔진을 포함하는, 미디어 인리치먼트 제공 방법.
하드웨어와 결합되어 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
영상 분석 엔진으로부터 영상의 각 쇼트(shot)에 대응하는 하나 이상의 키워드 및 상기 키워드에 대응하는 컨피던스 값을 수신하고, 상기 하나 이상의 키워드 중에서, 상기 컨피던스 값이 제1 임계값 이상인 키워드를 후보 키워드로 결정하고, 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 후보 키워드의 일치 비율이 제2 임계값 이상인 쇼트들을 하나의 장면으로 결정하고, 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 통계 처리하여, 상기 장면을 대표하는 최종 키워드를 결정하고, 상기 영상에 대한 이미지 분석 요청을 수신하며, 상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 최종 키워드에 기초하여, 적어도 하나의 미디어 인리치먼트(enrichment) 객체를 획득하는 프로세서
를 포함하는 미디어 인리치먼트 제공 장치.
제14항에 있어서,
상기 프로세서는
상기 연속하는 쇼트들에 있어서, 상기 각 쇼트의 상기 일치하는 후보 키워드의 수를 누적적으로 카운트하고, 상기 누적된 카운트 값에 기초하여, 상기 후보 키워드의 일치 비율을 계산하는, 미디어 인리치먼트 제공 장치.
제14항에 있어서,
상기 제1 임계값은 상기 컨피던스 값의 분포에 기초하여 결정되는, 미디어 인리치먼트 제공 장치.
제14항에 있어서,
상기 프로세서는
상기 장면을 구성하는 쇼트들의 쇼트 별 가중치를 결정하고, 상기 쇼트 별 가중치에 기초하여, 상기 장면을 구성하는 쇼트들의 키워드에 대응하는 컨피던스 값을 가중합하고, 상기 가중합이 제3 임계값 이상인 키워드를 상기 최종 키워드로 결정하는, 미디어 인리치먼트 제공 장치.
제17항에 있어서,
상기 프로세서는
상기 장면을 구성하는 쇼트들 각각에 포함된 상기 후보 키워드의 수에 기초하여 상기 장면을 구성하는 쇼트들의 상기 쇼트 별 가중치를 결정하는, 미디어 인리치먼트 제공 장치.
제17항에 있어서,
상기 제3 임계값은
상기 장면을 구성하는 쇼트들의 상기 키워드에 대응하는 상기 컨피던스 값의 분포에 기초하여 결정되는, 인리치먼트 제공 장치.
제17항에 있어서,
상기 프로세서는
상기 가중치에 기초하여, 상기 장면을 구성하는 상기 쇼트들의 상기 후보 키워드에 대응하는 컨피던스 값을 가중합하는, 미디어 인리치먼트 제공 장치.
제14항에 있어서,
상기 프로세서는
상기 적어도 하나의 미디어 인리치먼트 객체를 상기 영상에 오버랩 렌더링하는, 미디어 인리치먼트 제공 장치.
제14항에 있어서,
상기 프로세서는
상기 최종 키워드를 적어도 하나의 서비스 서버에 쿼리로 입력하고, 상기 서비스 서버로부터 상기 쿼리에 대응하는 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는, 미디어 인리치먼트 제공 장치.
제14항에 있어서,
상기 프로세서는
상기 이미지 분석 요청을 수신한 시점에 대응하는 장면의 사운드를 음성인식한 결과에 기초하여 적어도 하나의 키워드를 결정하고, 상기 키워드를 더 참조하여, 상기 적어도 하나의 미디어 인리치먼트 객체를 획득하는, 미디어 인리치먼트 제공 장치.