KR20130108684A

KR20130108684A - 스마트 ｔｖ의 비디오 어노테이션 및 증강 방법 및 그 시스템

Info

Publication number: KR20130108684A
Application number: KR1020120030296A
Authority: KR
Inventors: 조근식
Original assignee: 인하대학교 산학협력단
Priority date: 2012-03-26
Filing date: 2012-03-26
Publication date: 2013-10-07
Also published as: KR101328270B1

Abstract

스마트 TV의 비디오 어노테이션 및 증강 방법이 개시된다. 비디오 어노테이션 방법은 제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로부터 상기 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 사용자가 선택한 장면(scene) 및 상기 장면에 대하여 상기 사용자가 작성한 어노테이션(annotation) 정보를 입력 받는 단계; 상기 비디오 콘텐츠에서 상기 사용자에 의해 선택된 장면의 비디오 단락(video segment)을 인식하는 단계; 및 상기 어노테이션 정보를 상기 비디오 단락에 넣어 상기 어노테이션 정보가 포함된 비디오 스트림을 생성하는 단계를 포함할 수 있다.

Description

스마트 ＴＶ의 비디오 어노테이션 및 증강 방법 및 그 시스템{ANNOTATION METHOD AND AUGMENTING VIDEO PROCESS IN VIDEO STREAM FOR SMART TV CONTENTS AND SYSTEM THEREOF}

본 발명의 실시예들은 스마트 TV 콘텐츠에 어노테이션 정보를 작성할 수 있는 비디오 어노테이션 방법 및 자동 어노테이션 시스템에 관한 것이다.

비디오 어노테이션(video annotation)을 위해, 비디오는 시간에 따라 단락 구분이 되어야 하고, 비디오 어노테이션 툴을 사용해서 비디오의 단락 별로 어노테이션 정보들을 작성할 수 있어야 한다.

한국공개특허 제10-2010-0123204호(공개일 2010년 11월 24일)에는 경과 시간에 따른 단락 구분을 위해 얼굴 인식을 이용하여 소정 장면에 대한 상황을 어노테이션 할 수 있는 기술이 개시되어 있다.

특정 장면(scene)에 객체 어노테이션(objects annotation)을 할 경우, 기존의 전통적인 어노테이션 툴을 사용하여 해결할 수 없는 문제점이 나타나게 된다.

종래의 어노테이션은 시간이 많이 소모되는 작업이고 자동적으로 수행하기에는 어려움이 많다. 만약, 같은 비디오에 대해 여러 사람이 어노테이션을 할 때 개인적으로 작성된 어노테이션 정보들을 하나의 비디오 스트림으로 합치고 협업하는 데에 어려움이 많고 많은 시간이 소비되는 한계가 있다.

더욱이, 어노테이션을 작성하거나 비디오 단락을 재생하기 위해서는 비디오의 단락을 찾아야 하는데, 대개 어노테이션 되어 있는 키워드 매칭에 의존하거나 사용자에 의해 작성되는 시간 척도에 의존하게 된다.

비디오 콘텐츠를 제공하는 기관에서는 여러 사용자들에 의해 작성된 어노테이션 정보를 수집하여 이를 다음 세대의 사용자들을 위한 유용한 정보로서 활용할 수 있다. 그러나, 개인들이 비디오의 특정 장면에서 작성한 어노테이션 각각에 대하여 비디오의 단락을 일일이 찾아 해당 단락에 어노테이션을 첨부해야 하기 때문에 여러 사용자에 의해 작성된 어노테이션들을 하나의 비디오 스트림을 통합하기 위해서는 많은 시간과 수고가 필요하다.

따라서, 여러 사용자에 의해 작성된 개별적인 어노테이션들을 자동으로 하나의 비디오 스트림에 통합하는 기술이 필요하다.

어노테이션을 비디오 단락에 작성하고 특정 장면의 객체를 비디오에 증강시킬 수 있는 비디오 어노테이션 방법 및 자동 어노테이션 시스템을 제공한다.

증강현실에서 특징(feature) 기반의 이미지 매칭 방법을 사용하여 비디오에 어노테이션 정보를 작성하는 비디오 어노테이션 방법 및 자동 어노테이션 시스템을 제공한다.

여러 사용자가 공동으로 소비한 콘텐츠에 대하여 개인에 의해 작성된 개별적인 어노테이션들을 통합하여 하나의 비디오 스트림으로 생성할 수 있는 비디오 어노테이션 방법 및 자동 어노테이션 시스템을 제공한다.

본 발명의 일 측면에 따르면, 사용자의 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 상기 사용자에 의해 어노테이션(annotation) 정보가 작성된 장면의 비디오 단락(video segment)을 인식하는 인식부; 및 상기 어노테이션 정보를 상기 비디오 단락에 넣어 상기 어노테이션 정보가 포함된 비디오 스트림을 생성하는 생성부를 포함하는 자동 어노테이션 시스템이 제공된다.

상기 자동 어노테이션 시스템은 상기 제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로부터 상기 사용자가 상기 비디오 콘텐츠에서 선택한 장면, 및 상기 장면에 대하여 상기 사용자가 작성한 상기 어노테이션 정보를 입력 받는 입력부를 더 포함할 수 있다.

상기 인식부는 상기 비디오 콘텐츠와 상기 장면을 비교하여 상기 장면의 시작 지점을 인식할 수 있다.

상기 생성부는 증강현실(Augmented Reality)에서 사용되는 특징 기반의 이미지 매칭 알고리즘 또는 상기 비디오 콘텐츠의 타임 프레임 정보(time frame information)를 이용하여 상기 비디오 스트림을 생성할 수 있다.

상기 자동 어노테이션 시스템은 상기 비디오 스트림을 저장하는 데이터베이스; 및 상기 사용자의 요청에 따라 상기 비디오 스트림을 상기 제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로 제공하는 제공부를 더 포함할 수 있다.

상기 제공부는 상기 비디오 스트림의 재생 시 상기 어노테이션 정보를 해당 장면에서 증강된 객체로 제공할 수 있다.

본 발명의 다른 측면에 따르면, 제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로부터 상기 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 사용자가 선택한 장면 및 상기 장면에 대하여 상기 사용자가 작성한 어노테이션 정보를 입력 받는 단계; 상기 비디오 콘텐츠에서 상기 사용자에 의해 선택된 장면의 비디오 단락(video segment)을 인식하는 단계; 및 상기 어노테이션 정보를 상기 비디오 단락에 넣어 상기 어노테이션 정보가 포함된 비디오 스트림을 생성하는 단계를 포함하는 비디오 어노테이션 방법이 제공된다.

본 발명의 실시예에 따르면, 비디오 단락의 정지된 이미지들을 어노테이션 하고 특징 기반의 이미지 매칭 기법이나 타임 프레임 정보를 이용하여 특정 장면의 객체를 비디오에 증강시킬 수 있다. 따라서, 비디오 방송 기관을 위한 새로운 어노테이션 방법을 제공함으로써 유저들을 위해 견해를 수집하고 고객들의 의견이나 다른 어노테이션 정보를 직접적으로 보여주거나, 그들의 의견이나 견해를 갱신하고 뉴스나 광고 직후에 어노테이션 정보를 P2P 네트워킹이나 어플리케이션을 통해 다양한 형태로 서비스 할 수 있다.

도 1은 본 발명의 일실시예에 있어서, TV 콘텐츠의 비디오 단락에 어노테이션을 작성하는 자동 어노테이션 시스템의 내부 구성을 도시한 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 비디오 어노테이션 툴을 설명하기 위한 예시 화면이다.
도 3은 본 발명의 일실시예에 있어서, 어노테이션 정보가 포함된 비디오를 생성하는 과정을 설명하기 위한 예시 화면이다.
도 4는 본 발명의 일실시예에 있어서, 어노테이션 정보가 포함된 비디오의 생성 및 서비스 형태를 설명하기 위한 예시 화면이다.
도 5는 본 발명의 일실시예에 있어서, 어노테이션 정보가 작성된 영상 목록을 보여주는 예시 화면이다.
도 6은 본 발명의 일실시예에 있어서, TV 콘텐츠의 비디오 단락에 어노테이션을 작성하는 비디오 어노테이션 방법을 도시한 흐름도이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 실시예들은 콘텐츠의 비디오 단락에 어노테이션을 작성할 수 있는 어노테이션 시스템에 적용될 수 있다. 특히, 본 실시예들은 비디오 단락의 정지된 이미지들을 어노테이션 하고 증강 현실에서 사용되는 특징 기반의 이미지 매칭(feature based image matching) 기법이나 비디오 콘텐츠의 타임 프레임 정보를 이용하여 특정 장면의 객체를 비디오에 증강시킬 수 있는 기술에 관한 것이다.

본 명세서에서, '어노테이션'이란 비디오 객체에 특정 이미지, 음성 또는 애니메이션 등을 덧붙여 사용자가 해당 영역에 어떤 액션(예를 들면, 클릭 또는 터치)을 취하면 비디오의 인터액티브 한 반응(interaction)을 구현할 수 있다.

스마트 TV 에서는 특정 드라마나 광고가 프레임 단위로 표시되므로 정지된 특정 화면이 시작점에서 몇 번째 프레임인지 확인할 수 있어 별도의 이미지 매칭이 필요 없이 증강된 객체를 비디오에 표시할 수 있다.

도 1은 본 발명의 일실시예에 있어서, TV 콘텐츠의 비디오 단락에 어노테이션을 작성하는 자동 어노테이션 시스템의 내부 구성을 도시한 블록도이다.

예컨대, 사용자가 스마트 TV(101)를 통해 한 남자가 스케이트보드를 타고 있는 비디오 콘텐츠를 시청하고 있는 상황에서 관심 있는 장면이나 특정 상품에 대하여 어노테이션을 작성할 수 있다.

이에, 자동 어노테이션 시스템(100)는 스마트 TV(101)를 통해 비디오 콘텐츠를 시청하는 사용자로부터 사용자가 원하는 장면의 스틸 이미지와 해당 장면의 객체들을 선택 받을 수 있다. 이때, 사용자로부터 선택 받은 장면에서의 객체와 해당 장면의 비디오 단락(video segment)은 사용자의 관심사가 포함된 스틸 이미지로 어노테이션 될 수 있다.

이러한 어노테이션을 통해 스틸 이미지에 해당되는 장면에 개인적인 의견이나 설명, 그리고 2차원 또는 3차원 그래픽 등을 첨부할 수 있다. 하나의 장면에는 여러 개의 어노테이션들이 포함될 수 있으며, 이러한 어노테이션들은 특정 웹 사이트 또는 텍스트 메시지에 링크될 수 있다.

자동화 된 컴퓨터에서는 이미 선택된 장면이나 개별적으로 어노테이션 된 장면을 비디오 이미지와 매칭함으로써 자동적으로 개별적인 어노테이션들을 수집하여 비디오 스트림에 병합하는 작업을 할 수 있다.

따라서, 자동 어노테이션 시스템(100)은 상기한 작업을 통해 시청 중인 비디오 콘텐츠에서 사용자가 선택한 장면과 해당 장면에 대하여 사용자가 작성한 어노테이션 정보를 합쳐서 어노테이션 정보가 포함된 새로운 비디오 스트림을 생성할 수 있다.

비디오 이미지가 어노테이션 된 후 네트워크 서버 상에 저장되면, 사용자는 스마트폰, 태블릿 등의 단말을 이용하여 네트워크 서버에 접근하여 어노테이션 된 비디오 이미지를 언제든지 볼 수 있다. 즉, 어노테이션 이미지는 단말 상에 디스플레이 될 수 있고, 이때 사용자는 이미지를 클릭하여 해당 이미지에 첨부된 추가적인 정보나 의견을 볼 수 있다.

특히, 자동 어노테이션 시스템(100)에서는 사용자에 의해 어노테이션이 작성된 비디오의 단락을 자동 인식함으로써 같은 비디오 콘텐츠에 대해 여러 사람이 어노테이션 한 경우 개별적으로 작성된 어노테이션들을 수집하여 이를 쉽게 하나의 비디오 스트림으로 통합할 수 있다. 방송사 등 비디오 콘텐츠를 공급하는 기관에서 개별적인 어노테이션 정보를 하나의 비디오 스트림으로 자동 통합하는 기술을 적용함으로써 추가적인 작업 없이 여러 사용자 간의 협업적인 어노테이션 작성 및 이용이 더욱 용이해질 수 있다.

도 1에 도시한 바와 같이, 자동 어노테이션 시스템(100)은 입력부(110), 인식부(120), 생성부(130), 데이터베이스(140), 제공부(150)를 포함하여 구성될 수 있다.

입력부(110)는 사용자가 시청하고 있는 비디오 콘텐츠에서 어노테이션을 위해 선택한 장면과, 해당 장면에 대하여 사용자가 작성한 어노테이션 정보를 입력 받을 수 있다. 일 예로, 사용자는 비디오 콘텐츠가 재생되고 있는 제1 단말을 통해 비디오 이미지에서 원하는 장면을 선택하고 어노테이션 정보를 입력할 수 있다. 다른 예로, 사용자는 제1 단말과 이기종의 제2 단말을 통해 제1 단말에서 재생 중인 비디오 이미지에서 원하는 장면을 선택하고 어노테이션 정보를 입력할 수 있다. 예컨대, 사용자가 제1 단말과 제2 단말을 대상으로 N 스크린 서비스 환경(여기서, 'N스크린 서비스'란, 스마트 TV와 스마트 패드에 동일한 비디오 콘텐츠를 볼 수 있는 서비스를 의미한다.)을 이용하는 경우 제2 단말을 통해 제1 단말에서 재생 중인 비디오의 특정 장면에 대한 어노테이션 작성이 얼마든지 가능하다. 또한, 제1 단말과 제2 단말이 자동 어노테이션 시스템(100)과 상호 간에 연동이 가능한 상태에서 제2 단말을 통해 제1 단말에서 재생 중인 비디오의 특정 장면을 촬영하여 촬영된 장면을, 사용자가 작성한 어노테이션 정보와 함께 자동 어노테이션 시스템(100)으로 전송할 수 있다.

이에, 입력부(110)는 제1 단말 또는 제2 단말로부터 사용자가 선택한 장면의 스틸 이미지와 사용자가 작성한 어노테이션 정보를 입력 받을 수 있다. 이때, 어노테이션 정보는 텍스트, 이미지, URL 주소 등 비디오 이미지에 첨부 가능한 모든 형태의 정보를 의미할 수 있다.

이를 위하여, 제1 단말 또는 제2 단말에는 자동 어노테이션 시스템(100)과의 연동 및 인터페이스를 지원하는 어노테이션 툴 또는 어노테이션 전용 어플리케이션이 설치될 수 있다. 이때, 제1 단말과 제2 단말은 CPU를 가진 장치면 충분하고 그 예시로서 스마트 TV는 물론, 태블릿(tablet), 스마트 폰, 스마트 패드와 같은 모바일 전용 스마트 디바이스 등이 있을 수 있으나 이에 한정될 것은 아니다.

도 2는 비디오 어노테이션 툴의 인터페이스 화면을 도시한 것으로, 이는 비디오 어노테이션 툴을 대한 이해를 돕기 위한 예시 화면이다. 사용자는 비디오 어노테이션 툴을 이용하여 비디오의 시간 단락에 맞추어 어노테이션 정보를 추가할 수 있다. 비디오 어노테이션 툴은 비디오 클립을 볼 수 있고, 시간 단락을 표시하거나, 이전 단락으로 되돌리거나, 해당 단락에 정보를 추가하는 등의 작업을 지원할 수 있다. 도 2에 도시한 비디오 어노테이션 툴은 비디오 파일에 정보를 추가하거나 재생하는데 사용되는 것으로, UI를 위한 4가지 부분으로 구성된다. 도 2에 도시한 바와 같이, 비디오 어노테이션 툴의 UI 중 'Chooser'(201)은 어노테이션 문서를 선택하여 열거나, 문서의 제목을 변경하거나, 또는 문서의 복사본을 저장하기 위해 사용된다. 그리고, 'Playback Control'(203)은 'Video Display'(202)에 해당되는 화면을 통해 비디오 클립을 재생하기 위해 사용되는 것으로, 이 패널은 재생, 일시정지, 앞으로 가기, 뒤로 가기, 재시작, 소리 조절, 재생 시간 등을 조작하기 위한 슬라이더로 사용된다. 또한, 'Note Editor'(204)는 어노테이션 정보(텍스트, 이미지 등)를 작성하기 위해 사용된다. 마지막으로, 'Timeline'(205)은 비디오 클립의 시간 척도를 보여주는 것으로, 현재 재생시간, 어노테이션 단락의 추적 시간을 보여줄 수 있다. 이때, 'Timeline'(205)은 어노테이션을 추가 또는 삭제하거나, 수정된 작업을 취소, 재시도를 수행하는 작업을 지원할 수 있다. 상기한 기능의 비디오 어노테이션 툴은 어플리케이션 형태로 구현될 수 있다.

인식부(120)는 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 사용자에 의해 어노테이션 정보가 작성된 장면(즉, 사용자에 의해 선택된 장면의 스틸 이미지)의 비디오 단락을 인식하는 역할을 수행한다. 일 예로, 인식부(120)는 제1 단말을 대상으로 비디오 콘텐츠를 제공하는 콘텐츠 서버(미도시)와 연동 가능하며, 사용자로부터 어노테이션 요청이 있으면 콘텐츠 서버에 접속하여 현재 사용자가 시청하고 있는 비디오 콘텐츠를 가져올 수 있다. 인식부(120)는 사용자가 시청 중인 비디오 콘텐츠와 사용자가 어노테이션을 위해 선택한 장면을 비교하여 해당 장면의 시작 지점을 인식할 수 있다. 일반적인 비디오 스트림의 경우 프레임 단위로 이루어지기 때문에 특정 정지된 화면이 시작점에서 몇 번째 프레임인지 확인 가능하고, 이에 사용자에 의해 어노테이션 정보가 작성된 장면의 비디오 단락을 인식할 수 있다.

생성부(130)는 인식부(120)에 의해 인식된 비디오 단락에 사용자에 의해 작성된 어노테이션 정보를 넣어 어노테이션 정보가 포함된 새로운 비디오 스트림을 생성할 수 있다. 다시 말해, 생성부(130)는 증강현실에서 사용되는 특징 기반의 이미지 매칭 기법 또는 타임 프레임 정보를 이용하여 어노테이션 정보가 포함된 비디오 스트림을 생성할 수 있다. 이때, 비디오 스트림에는 사용자뿐만 아니라 다른 사용자들에 의해 작성된 여러 개의 어노테이션 정보가 포함될 수 있다.

도 3은 본 발명의 일실시예에 있어서, 어노테이션 정보가 포함된 비디오를 생성하는 과정을 설명하기 위한 예시 화면이다.

도 3을 참조하면, 인식부(120)는 사용자에 의해 어노테이션 정보가 작성된 장면의 스틸 이미지(301)와 사용자가 시청 중인 콘텐츠의 비디오 스트림(302)을 비교하여 비디오 스트림(302)에서 스틸 이미지(301)가 존재하는 비디오 단락을 인식할 수 있다. 그리고, 생성부(130)는 비디오 스트림(302)의 해당 단락에 사용자에 의해 작성된 어노테이션 정보를 병합하여 어노테이션 정보가 포함된 비디오 스트림(303)을 생성할 수 있다.

데이터베이스(140)는 생성부(130)에 의해 생성된, 어노테이션 정보가 포함된 비디오 스트림을 저장 및 유지할 수 있다. 또한, 자동 어노테이션 시스템(100)이 제1 단말을 대상으로 비디오 콘텐츠를 제공하는 콘텐츠 서버에 적용되는 경우, 자동 어노테이션 시스템은 데이터베이스(140)를 통해 비디오 콘텐츠를 직접 저장 및 유지할 수 있다.

제공부(150)는 사용자의 요청에 따라 제1 단말 또는 제2 단말로 어노테이션 정보가 포함된 비디오 스트림을 제공할 수 있다. 제공부(150)는 사용자가 특정 장면 또는 특정 이미지를 클릭하면 해당 장면에 첨부되어 있는 어노테이션 정보를 재생 중인 화면 상에서 증강된 객체로 제공할 수 있다. 즉, 어노테이션 정보가 포함된 비디오 스트림은 제1 단말 또는 제2 단말 상에서 재생 시에 어노테이션 정보가 해당 장면에서 증강된 객체로 표현될 수 있다.

도 4는 본 발명의 일실시예에 있어서, 어노테이션 정보가 포함된 비디오의 생성 및 서비스 형태를 설명하기 위한 예시 화면이다.

상기한 구성의 자동 어노테이션 시스템(100)은 사용자가 시청 중인 콘텐츠의 비디오 스트림(401)을 이용하여 어노테이션 정보가 포함된 비디오 스트림(402)을 생성할 수 있다. 이후, 자동 어노테이션 시스템(100)은 어노테이션 정보가 포함된 비디오 스트림(403)을 저장하고 있다가, 사용자의 요청에 따라 특징 기반의 이미지 매칭 기법이나 타임 프레임 정보를 통해 특정 장면의 어노테이션 정보가 증강된 객체로 구현된 비디오(404)를 사용자의 단말로 제공할 수 있다.

하나의 비디오 스트림에는 다수의 장면에 어노테이션 정보가 첨부될 수 있고, 또한 하나의 장면에는 다수의 어노테이션 정보가 첨부될 수 있다. 이에, 제공부(150)는 비디오 스트림에 첨부된 어노테이션 목록을 제공할 수 있다. 도 5에 도시한 바와 같이, 제공부(150)는 사용자가 요청한 특정 콘텐츠를 재생하기 위한 동영상 플레이어(503)와, 재생 중인 콘텐츠에 대하여 어노테이션 정보가 작성된 이미지 목록(501)과, 이미지 각각에 첨부된 어노테이션 정보(502) 등을 포함하는 UI를 제공할 수 있다.

상기한 구성의 자동 어노테이션 시스템(100)은 다음의 절차에 따라 다양한 용도를 위해 사용될 수 있다.

1. 비디오를 시청하는 사용자 각각은 비디오에 등장하는 장면을 보는 동안 자신이 관심이 있는 다양한 객체들에 대해서 정지된 화면 혹은 사진(screen shot)을 찍을 수 있다.

2. 사용자 각각은 각 장면에 대해 다양한 객체들과 함께 어노테이션을 작성할 수 있다.

3. 개인적으로 어노테이션 된 장면 및 객체들은 지정된 서버(자동 어노테이션 시스템)에 보내질 수 있으며, 이때 어노테이션 된 장면들은 해당 서버에서 수집되어 자율적인 비디오 어노테이션 작업을 위해 사용될 수 있다.

4. 비디오 어노테이션 작업을 수행하는 서버에서는 사용자가 시청한 비디오와 사용자가 어노테이션을 작성한 장면을 기계적으로 비교함으로써 어노테이션 된 장면의 시작 지점을 인식할 수 있고, 또한 자동적으로 해당 콘텐츠의 비디오 스트림에 비디오 어노테이션과 객체 어노테이션을 넣을 수 있다. 이러한 방법을 통해 협업적인 어노테이션 작성이 자동으로 이루어질 수 있다.

5. 증강현실에서 사용되는 특징 점 검출 알고리즘 혹은 타임 프레임 정보를 통해서 사용자들로부터 수집된 어노테이션 된 스틸 이미지는 어노테이션 정보가 포함된 비디오 스트림을 생성하는 데에 이용될 수 있다.

6. 어노테이션 정보가 포함된 비디오 스트림은 특정 장면 또는 객체에 대해 추가적인 정보를 보여준다. 이러한 어노테이션 정보를 이용함으로써 www 내의 자원 및 개별 사용자에 의해 어노테이션 된 디지털 콘텐츠들과 함께 비디오 스트림의 장면이나 객체를 통합할 수 있다.

7. 비디오 스트림의 재생 시 어노테이션 된 장면은 어노테이션 정보의 노출 없이 보여질 수 있다. 하지만 만약 사용자가 단말을 이용하여 해당 장면을 본다면 어노테이션 정보가 단말의 화면 상에 증강되어 보여질 수 있다.

상기한 시나리오를 포함하는 본 발명의 솔루션은 TV 스크린과 상업적 스폰서나 시청자와 같은 참가자를 위한 어노테이션 정보를 통합함으로써 개인화 된 콘텐츠 서비스를 위하여 광고, 이러닝(E-Learning) 또는 대화형 TV 등에 적용될 수 있다.

도 6은 본 발명의 일실예에 있어서, TV 콘텐츠의 비디오 단락에 어노테이션을 작성하는 비디오 어노테이션 방법을 도시한 흐름도이다. 일실시예에 따른 비디오 어노테이션 방법은 도 1을 통해 설명한 자동 어노테이션 시스템(100)에 의해 각각의 단계가 수행될 수 있다.

단계(610)에서 자동 어노테이션 시스템은 사용자가 시청 중인 비디오 스트림에서 사용자에 의해 어노테이션 정보가 작성된 스틸 이미지의 비디오 단락을 인식할 수 있다. 이를 위하여, 자동 어노테이션 시스템은 제1 단말 또는 제1 단말과 이기종의 제2 단말로부터 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 사용자가 선택한 장면 및 해당 장면에 대하여 사용자가 작성한 어노테이션 정보를 입력 받을 수 있다. 그리고, 자동 어노테이션 시스템은 사용자가 시청 중인 비디오 콘텐츠와 사용자가 어노테이션을 위해 선택한 장면을 비교하여 해당 장면의 시작 지점을 인식함으로써 사용자에 의해 어노테이션 된 장면의 이미지 단락을 인식할 수 있다.

단계(620)에서 자동 어노테이션 시스템은 사용자에 의해 작성된 어노테이션 정보를 단계(610)에서 인식된 비디오 단락에 병합하여 어노테이션 정보가 포함된 새로운 비디오 스트림을 생성할 수 있다. 이때, 자동 어노테이션 시스템은 증강현실에서 사용되는 특징 기반의 이미지 매칭 기법 또는 타임 프레임 정보를 이용하여 어노테이션 정보가 포함된 비디오 스트림을 생성할 수 있다.

단계(630)에서 자동 어노테이션 시스템은 어노테이션 정보가 포함된 비디오 스트림을 저장 및 유지하고 있다가, 사용자의 요청에 따라 제1 단말 또는 제2 단말로 어노테이션 정보가 포함된 비디오 스트림을 제공할 수 있다. 이때, 어노테이션 정보가 포함된 비디오 스트림은 특징 기반의 이미지 매칭 기법이나 타임 프레임 정보를 통해 특정 장면의 어노테이션 정보가 증강된 객체로 표시되도록 구현되어 있다. 즉, 자동 어노테이션 시스템은 사용자가 해당 비디오를 재생하거나, 사용자가 특정 장면 또는 특정 이미지를 클릭하면, 해당 장면에 첨부되어 있는 어노테이션 정보를 재생 중인 화면 상에서 증강된 객체로 제공할 수 있다.

이와 같이, 본 발명의 실시예에 따르면, 비디오 단락의 정지된 이미지들을 어노테이션 하고 특징 기반의 이미지 매칭 기법이나 타임 프레임 정보를 이용하여 특정 장면의 객체를 비디오에 증강시킬 수 있다. 따라서, 비디오 방송 기관을 위한 새로운 어노테이션 방법을 제공함으로써 유저들을 위해 견해를 수집하고 고객들의 의견이나 다른 어노테이션 정보를 직접적으로 보여주거나, 그들의 의견이나 견해를 갱신하고 뉴스나 광고 직후에 어노테이션 정보를 P2P 네트워킹이나 어플리케이션을 통해 다양한 형태로 서비스 할 수 있다.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 시스템을 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상술한 파일 시스템은 컴퓨터 판독이 가능한 기록 매체에 기록될 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 자동 어노테이션 시스템
110: 입력부
120: 인식부
130: 생성부
140: 데이터베이스
150: 제공부

Claims

사용자의 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 상기 사용자에 의해 어노테이션(annotation) 정보가 작성된 장면(scene)의 비디오 단락(video segment)을 인식하는 인식부; 및
상기 어노테이션 정보를 상기 비디오 단락에 넣어 상기 어노테이션 정보가 포함된 비디오 스트림을 생성하는 생성부
를 포함하는 자동 어노테이션 시스템.
제1항에 있어서,
상기 제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로부터 상기 사용자가 상기 비디오 콘텐츠에서 선택한 장면, 및 상기 장면에 대하여 상기 사용자가 작성한 상기 어노테이션 정보를 입력 받는 입력부
를 더 포함하는 자동 어노테이션 시스템.
제1항에 있어서,
상기 인식부는,
상기 비디오 콘텐츠와 상기 장면을 비교하여 상기 장면의 시작 지점을 인식하는 것
을 특징으로 하는 자동 어노테이션 시스템.
제1항에 있어서,
상기 생성부는,
증강현실(Augmented Reality)에서 사용되는 특징 기반의 이미지 매칭 알고리즘 또는 상기 비디오 콘텐츠의 타임 프레임 정보(time frame information)를 이용하여 상기 비디오 스트림을 생성하는 것
을 특징으로 하는 자동 어노테이션 시스템.
제1항에 있어서,
상기 자동 어노테이션 시스템은,
상기 비디오 스트림을 저장하는 데이터베이스; 및
상기 사용자의 요청에 따라 상기 비디오 스트림을 상기 제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로 제공하는 제공부
를 더 포함하는 자동 어노테이션 시스템.
제5항에 있어서,
상기 제공부는,
상기 비디오 스트림의 재생 시 상기 어노테이션 정보를 해당 장면에서 증강된 객체로 제공하는 것
을 특징으로 하는 자동 어노테이션 시스템.
제1 단말 또는 상기 제1 단말과 이기종의 제2 단말로부터 상기 제1 단말을 통해 재생 중인 비디오 콘텐츠에서 사용자가 선택한 장면(scene) 및 상기 장면에 대하여 상기 사용자가 작성한 어노테이션(annotation) 정보를 입력 받는 단계;
상기 비디오 콘텐츠에서 상기 사용자에 의해 선택된 장면의 비디오 단락(video segment)을 인식하는 단계; 및
상기 어노테이션 정보를 상기 비디오 단락에 넣어 상기 어노테이션 정보가 포함된 비디오 스트림을 생성하는 단계
를 포함하는 비디오 어노테이션 방법.
제7항에 있어서,
상기 비디오 단락을 인식하는 단계는,
상기 비디오 콘텐츠와 상기 장면을 비교하여 상기 장면의 시작 지점을 인식하는 것
을 특징으로 하는 비디오 어노테이션 방법.
제7항에 있어서,
상기 비디오 스트림을 생성하는 단계는,
증강현실(Augmented Reality)에서 사용되는 특징 기반의 이미지 매칭 알고리즘 또는 상기 비디오 콘텐츠의 타임 프레임 정보(time frame information)를 이용하여 상기 비디오 스트림을 생성하는 것
을 특징으로 하는 비디오 어노테이션 방법.
제7항에 있어서,
상기 사용자의 요청에 따라 상기 비디오 스트림을 상기 제1 단말 또는 상기 제2 단말로 제공하되, 상기 어노테이션 정보를 해당 장면에서 증강된 객체로 제공하는 단계
를 더 포함하는 비디오 어노테이션 방법.