KR101359286B1 - 동영상 정보 제공 방법 및 서버 - Google Patents

동영상 정보 제공 방법 및 서버 Download PDF

Info

Publication number
KR101359286B1
KR101359286B1 KR1020120058284A KR20120058284A KR101359286B1 KR 101359286 B1 KR101359286 B1 KR 101359286B1 KR 1020120058284 A KR1020120058284 A KR 1020120058284A KR 20120058284 A KR20120058284 A KR 20120058284A KR 101359286 B1 KR101359286 B1 KR 101359286B1
Authority
KR
South Korea
Prior art keywords
feature points
frames
video
interest
descriptors
Prior art date
Application number
KR1020120058284A
Other languages
English (en)
Other versions
KR20130134638A (ko
Inventor
권연희
김보연
허준희
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020120058284A priority Critical patent/KR101359286B1/ko
Publication of KR20130134638A publication Critical patent/KR20130134638A/ko
Application granted granted Critical
Publication of KR101359286B1 publication Critical patent/KR101359286B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

동영상 정보 제공 방법 및 서버가 제공된다. 동영상 정보 제공 방법은 동영상 정보 제공 서버가 휴대용 단말기로부터 관심 동영상을 이루는 프레임을 복수 개 수신하면, 후보 특징점들을 프레임들로부터 추출하고, 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점들을 추출하며, 추출된 프레임 고정 특징점들을 이용하여 관심 동영상 또는 관심 동영상 내의 객체를 인식하며, 인식된 관심 동영상 또는 객체에 매핑된 정보를 휴대용 단말기로 전송할 수 있다.

Description

동영상 정보 제공 방법 및 서버{Method and Server for Providing Video-Related Information}
본 발명은 동영상 정보 제공 방법 및 서버에 관한 것으로, 보다 상세하게는 TV, 모니터 또는 옥외 광고 장치에 표시중인 동영상에 대해 별도로 제작된 추가 정보를 휴대용 단말기에게 제공할 수 있는 동영상 정보 제공 방법 및 서버에 관한 것이다.
TV, 모니터 또는 옥외 광고 장치를 통해 제공되는 광고 영상은 광고를 시청하는 시청자 또는 소비자에게 일방적으로 제공되고 있다.
또한, 쌍방향 통신을 이용한 인터렉티브 기능이 제공되는 스마트 TV의 보급이 진행되고 있으나, 스마트 TV 역시 일방적인 광고 영상을 제공하는 것이 주를 이루고 있으며, 시청자가 인터렉티브 기능을 사용하려는 경우 사용 편의성이 떨어지는 문제점에 의해, 인터렉티브 기능이 활성화되지 못 하고 있다.
한편, 휴대용 단말기에서 제공하는 디지털 카메라의 성능이 발전하고, 휴대용 단말기를 이용한 촬영과 관련된 사용 편의성을 높인 기능들이 늘어남에 따라, 휴대용 단말기의 디지털 카메라를 이용한 정지영상 또는 동영상 촬영이 대중화되고 있다.
본 발명적 개념의 예시적 실시예에 따르면, 스마트 TV, 일반 TV, 모니터, 옥외 광고 등 다양한 디스플레이 장치에서 표시되는 동영상에 대해, 휴대용 단말기를 이용하여 동영상과 관련된 추가 정보를 제공할 수 있는 동영상 정보 제공 방법 및 서버를 제공하는 것이다.
또한, 본 발명적 개념의 예시적 실시예에 따르면, 스마트 TV에서만 표시되도록 제한된 컨텐츠를 모니터, 일반 TV 또는 휴대용 단말기에서도 활용할 수 있는 동영상 정보 제공 방법 및 서버를 제공하는 것이다.
본 발명적 개념의 다른 예시적 실시예에 따르면, 동영상 정보 제공 서버가 휴대용 단말기로부터 관심 동영상을 이루는 프레임을 복수 개 수신하면, 후보 특징점들을 상기 프레임들로부터 추출하는 단계; 상기 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점들을 추출하는 단계; 상기 추출된 프레임 고정 특징점들을 이용하여 상기 관심 동영상 또는 상기 관심 동영상 내의 객체를 인식하는 단계; 및 상기 인식된 관심 동영상 또는 상기 객체에 매핑된 정보를 상기 휴대용 단말기로 전송하는 단계;를 포함하는 것을 특징으로 하는 동영상 정보 제공 방법이 제공된다.
한편, 본 발명적 개념의 다른 예시적 실시예에 따르면, 동영상 정보 제공 서버가 휴대용 단말기로부터 관심 동영상을 이루는 프레임을 복수 개 수신하면, 후보 특징점들을 상기 프레임들로부터 추출하는 후보 특징점 추출부; 상기 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점들을 추출하는 프레임 고정 특징점 추출부; 및 상기 추출된 프레임 고정 특징점들을 이용하여 상기 관심 동영상 또는 상기 관심 동영상 내의 객체를 인식하는 인식부; 및 상기 인식된 관심 동영상 또는 상기 객체에 매핑된 정보를 상기 휴대용 단말기로 전송하는 송수신부;를 포함하는 것을 특징으로 하는 동영상 정보 제공 서버가 제공된다.
본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 스마트 폰과 같은 휴대용 단말기의 보급이 증대되고 있는 점을 감안하여, 다양한 동영상과 관련된 정보를 다양한 영상과 매핑하여 데이터베이스화하고, 스마트 TV, 일반 TV, 모니터, 옥외 광고 장치 등에서 표시되는 영상과 관련된 정보를 휴대용 단말기를 통해 제공함으로써 많은 사용자들이 동영상 관련 정보를 제공받을 수 있다.
또한, 본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 활용도가 적은 스마트 TV용 컨텐츠를 일반 TV 또는 휴대용 단말기에서 활용함으로써 디스플레이용 컨텐츠의 활용도를 높일 수 있다.
도 1은 본 발명적 개념의 예시적 실시예에 따른 동영상 정보 제공 시스템을 도시한 도면,
도 2는 도 1에 도시된 휴대용 단말기 및 동영상 정보 제공 서버를 도시한 블록도,
도 3은 키 시간 서술자 생성부가 키 시간 서술자를 생성하는 방법을 예를 들어 설명하기 위한 도면,
도 4는 본 발명의 다른 실시예를 설명하기 위한 도면,
도 5는 본 발명의 또 다른 실시예를 설명하기 위한 도면,
도 6은 본 발명의 또 다른 실시예를 설명하기 위한 도면,
도 7은 본 발명적 개념의 예시적 실시예에 따른 동영상 정보 제공 시스템의 동영상 정보 제공 방법을 설명하기 위한 전체 흐름도, 그리고,
도 8은 도 7의 S720단계 내지 S735단계를 보다 자세히 설명하기 위한 흐름도이다.
이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 개재될 수도 있다는 것을 의미한다.
본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시예들은 그것의 상보적인 실시예들도 포함한다.
또한, 제1 엘리먼트 (또는 구성요소)가 제2 엘리먼트(또는 구성요소) 상(ON)에서 동작 또는 실행된다고 언급될 때, 제1 엘리먼트(또는 구성요소)는 제2 엘리먼트(또는 구성요소)가 동작 또는 실행되는 환경에서 동작 또는 실행되거나 또는 제2 엘리먼트(또는 구성요소)와 직접 또는 간접적으로 상호 작용을 통해서 동작 또는 실행되는 것으로 이해되어야 할 것이다.
어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.
또한 어떤 엘리먼트(또는 구성요소)가 구현됨에 있어서 특별한 언급이 없다면, 그 엘리먼트(또는 구성요소)는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명적 개념을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명적 개념을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명적 개념을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명적 개념을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명적 개념을 설명하는 데 있어 별 이유 없이 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.
도 1은 본 발명적 개념의 예시적 실시예에 따른 동영상 정보 제공 시스템을 도시한 도면이다.
도 1에 예시적으로 도시된 동영상 정보 제공 시스템은 디스플레이 장치(10), 휴대용 단말기(100) 및 동영상 정보 제공 서버(200)를 포함할 수 있다.
디스플레이 장치(10)는 비스마트 TV로서, 양방향 서비스가 가능한 TV, 단순히 TV 청취만 가능한 TV, 컴퓨터의 모니터 또는 옥외 광고를 위한 전광판일 수 있다.
휴대용 단말기(100)는 운영체제의 구동에 의해 어플리케이션을 설치하고 컴퓨터처럼 활용할 수 있는 단말기로서 스마트 폰, 태블릿 PC 등을 예로 들 수 있다. 특히, 휴대용 단말기(100)는 촬영중인 동영상 중 사용자가 선택한 영역을 관심 동영상으로서 정하고, 관심 동영상을 이루는 하나 이상의 프레임을 동영상 정보 제공 서버(200)로 전송하도록 하며, 동영상 정보 제공 서버(200)로부터 수신되는 관심 동영상과 관련된 정보를 화면에 표시할 수 있다.
자세히 설명하면, 사용자는 디스플레이 장치(10)를 통해 동영상을 시청하는 중 동영상 또는 동영상 내의 객체에 관심이 생기면, 휴대용 단말기(100)의 카메라를 이용하여 관심 동영상을 촬영한다. 그리고, 사용자는 촬영된 관심 동영상에 해당하는 한 개 이상의 프레임 또는 관심 동영상 내에 존재하는 관심 객체에 해당하는 한 개 이상의 프레임을 선택할 수 있다. 이러한 동작은 어플리케이션에 의해 실행될 수 있다.
동영상 정보 제공 서버(200)는 휴대용 단말기(100)로부터 관심 동영상을 이루는 프레임을 한 개 이상 수신하면, 수신된 한 개 이상의 프레임으로부터 프레임 고정 특징점들을 추출할 수 있다. 동영상 정보 제공 서버(200)는 추출된 프레임 고정 특징점들에 대한 서술자들 및 데이터베이스(260)에 저장된 기준 서술자를 이용하여 관심 동영상 또는 관심 동영상 내의 객체(이하 ‘관심 객체’라 한다)를 인식할 수 있다. 그리고, 동영상 정보 제공 서버(200)는 인식된 관심 동영상 또는 관심 객체에 매핑된 관련 정보를 휴대용 단말기(100)로 전송할 수 있다.
동영상 정보 제공 서버(200)가 제공하는 정보는 스마트 TV에서 활용되도록 만들어진 컨텐츠이거나, 관심 동영상과 관련된 부가 정보일 수 있다. 제공되는 정보가 스마트 TV에서 활용되도록 만들어진 디스플레이용 컨텐츠인 경우, 디스플레이용 컨텐츠는 관심 동영상의 상세정보(100a) 또는 관심 동영상의 구매 할인 쿠폰(100b), 관심 동영상과 관련된 광고 컨텐츠 등일 수 있으며, 그 종류는 다양하다. 제공되는 정보가 부가 정보인 경우, 부가 정보는 관심 객체의 이름, 판매장소, 색상 등 다양한 정보를 포함한다.
도 2는 도 1에 동영상 정보 제공 서버(200)를 도시한 블록도이다.
도 2를 참조하면, 동영상 정보 제공 서버(200)는 송수신부(210), 교정부(220), 후보 특징점 추출부(230), 프레임 고정 특징점 추출부(240), 인식부(250) 및 데이터베이스(260)를 포함할 수 있다.
송수신부(210)는 인터넷 또는 무선전화통신망과 같은 네트워크를 통해 휴대용 단말기(100)로부터 관심 동영상의 프레임 또는 관심 객체를 포함하는 프레임을 한 개 이상 수신할 수 있다. 또한, 송수신부(210)는 관심 동영상 또는 관심 객체와 관련된 정보(예를 들어, 도시된 컨텐츠)를 휴대용 단말기(100)에게 전송할 수 있다.
교정부(220)는 관심 동영상을 이루는 프레임이 복수 개 입력되면, 입력된 복수 개의 프레임들을 교정(calibration)할 수 있다. 자세히 설명하면, 교정부(220)는 휴대용 단말기(100)로부터 수신된 프레임들에서 디스플레이 장치(10)의 외곽 프레임을 검출한다. 그리고, 교정부(220)는 검출된 외곽 프레임들 각각의 네 꼭지점을 이용하여 외곽 프레임들 내의 영상을 교정/정합할 수 있다. 이러한 교정에 의해, 프레임들이 회전(rotation)하는 경우 동영상이 정합되지 않는 오류를 최소화할 수 있다.
송수신부(210)가 휴대용 단말기(100)로부터 관심 동영상을 이루는 프레임을 복수 개 수신하면, 후보 특징점 추출부(230)는 크기(scale), 회전(rotation) 또는 Perspective Distortion에 강인한(invariant) 후보 특징점들을 복수 개의 프레임들 중 적어도 하나로부터 추출할 수 있다. 후보 특징점 추출부(230)는 교정부(220)에서 교정된 프레임들 내에서 후보 특징점들을 추출할 수 있다.
먼저, 후보 특징점 추출부(230)가 크기에 강인한 후보 특징점들을 추출하는 동작에 대해 설명한다. 후보 특징점 추출부(230)는 SURF(Speed Up Robust Features) 알고리즘, SIFT(Scale Invariant Feature Transform) 알고리즘과 같이 주지된 특징점 추출 방식 또는 추후 발견될 다양한 특징점 추출 방식을 이용하여 각 프레임의 객체에 해당하는 특징점들을 추출할 수 있다. 즉, 프레임 고정 특징점들은 서로 인접하는 프레임들에서 추출된 후보 특징점들로부터 추출될 수 있다.
프레임 고정 특징점 추출부(240)는 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점(FIF: Frame Invariant Feature)들을 추출할 수 있다.
이를 위하여, 프레임 고정 특징점 추출부(240)는 공간 서술자 생성부(241), 매칭부(243) 및 추출부(245)를 포함할 수 있다.
공간 서술자 생성부(241)는 후보 특징점 추출부(230)에서 추출된 후보 특징점들 각각에 대해 공간 서술자(SD: Spatial Descriptor)들을 생성할 수 있다.
매칭부(243)는 생성된 공간 서술자들을 이용하여 복수 개의 프레임들 중 서로 인접하는 프레임들에서 후보 특징점들을 매칭시킨다. 예를 들어, 휴대용 단말기(100)로부터 입력된 프레임들이 세 개의 제1 내지 제3프레임인 경우, 매칭부(243)는 제1프레임과 제2프레임에서 추출된 후보 특징점들의 공간 서술자들을 이용하여 제1프레임과 제2프레임 사이의 점(예를 들어, 후보 특징점)들의 매칭을 시도하고, 제2프레임과 제3프레임에서 추출된 후보 특징점들의 공간 서술자들을 이용하여 제2프레임과 제3프레임 사이의 점들의 매칭을 시도한다.
추출부(245)는, 매칭부(243)의 매칭 시도 결과, 후보 특징점들 중 서로 매칭된 점들을 프레임 고정 특징점들로서 추출할 수 있다. 본 발명의 개념적 실시예에서, 프레임 고정 특징점은 동영상 검색에 최적화된 특징점이라 할 수 있다.
상술한 프레임 고정 특징점 추출부(240)는 복수 개의 프레임들에 대한 프레임 레이트를 변경하면서 프레임 고정 특징점들을 추출할 수 있다. 예를 들어, 프레임 레이트를 변경하기 이전에 세 개의 프레임들로부터 프레임 고정 특징점들을 추출한 경우, 프레임 고정 특징점 추출부(240)는 세 개의 프레임들에서 제1프레임 고정 특징점들을 먼저 추출하고, 세 개의 프레임들 중 한 개를 제외한 두 개의 프레임들에서 제2프레임 고정 특징점들을 추출한 후, 제1프레임 고정 특징점들과 제2프레임 고정 특징점들 중 일치하는 점들을 최종 프레임 고정 특징점들로서 추출할 수도 있다.
한편, 인식부(250)는 추출된 프레임 고정 특징점들을 이용하여 관심 동영상 또는 관심 객체를 인식할 수 있다. 즉, 인식부(250)는 휴대용 단말기(100)로부터 수신된 하나 이상의 프레임들로부터 사용자가 관심을 가지는 동영상이 무엇인지 또는 관심 객체가 무엇인지를 인식할 수 있다.
이를 위하여, 인식부(250)는 씬(scene) 결정부(251), 키 공간 서술자(KSD: Key Spatial Descriptor) 생성부(253), 키 시간 서술자(KTD: Key Temporal Descriptor) 생성부(255) 및 관심 영상 인식부(257)를 포함할 수 있다.
씬 결정부(251)는 서로 인접하는 프레임들 내에서 추출된 프레임 고정 특징점들의 차이값이 임계값 이하가 되면, 이전 프레임들까지를 연속된 하나의 씬으로 정할 수 있다. 프레임 고정 특징점들은 객체와 관련된 특징점이므로, 하나의 씬은 프레임 내의 객체를 기준으로 정해질 수 있다.
예를 들어 설명하면, 현재 프레임 고정 특징점들이 추출된 프레임들이 제n 및 제(n+1)프레임들인 경우, 씬 결정부(251)는 제n 및 제(n+1)프레임들 사이에서 추출된 프레임 고정 특징점들 각각의 속성값과 사전에 설정된 임계값을 비교한다. 프레임 고정 특징점의 속성값은 밝기(intensity) 또는 gradient 등 다양하다. 추출된 프레임 고정 특징점들 중 하나라도 속성값이 임계값 이하이면, 씬 결정부(251)는 제(n+1)프레임의 이전 프레임까지, 즉, 제1프레임부터 제n프레임까지를 하나의 씬으로 정할 수 있다. 이후, 제(n+5) 및 제(n+6) 프레임들에서 추출된 프레임 고정 특징점들 중 하나가 임계값 이하이면, 씬 결정부(251)는 이전 씬의 다음 프레임부터 제(n+6) 프레임의 이전 프레임까지, 즉, 제(n+1)프레임부터 제(n+5)프레임들까지를 하나의 씬으로 정할 수 있다.
휴대용 단말기(100)로부터 수신된 하나 이상의 프레임들을 분석하여 씬이 정해지면, 키 공간 서술자 생성부(253)는 추출된 프레임 고정 특징점들에 대한 공간 서술자들 중 유사한 공간 서술자들로부터 프레임 고정 특징점들에 대한 키 공간 서술자들을 생성할 수 있다. 키 공간 서술자 생성부(253)는 유사한 공간 서술자들의 중간값 또는 평균값을 하나의 키 특징점에 대한 키 공간 서술자로서 생성할 수 있다. 키 공간 서술자 생성부(253)는 정해진 씬 단위로, 각 씬에 속하는 키 특징점들마다 키 공간 서술자들(KSD: Key Spatial Descriptor)을 생성할 수 있다.
자세히 설명하면, 하나의 씬에서 매칭된 프레임 고정 특징점들은 유사한 공간 서술자를 갖는다. 키 공간 서술자 생성부(253)는 추출된 프레임 고정 특징점들 중 유사한 공간 서술자들을 가지는 프레임 고정 특징점들마다 하나의 키 특징점(Key Feature)을 정하고, 유사한 공간 서술자들로부터 키 특징점의 키 공간 서술자를 생성할 수 있다. 다시 말하면, 키 공간 서술자 생성부(253)는 하나의 씬에 속하는 프레임 고정 특징점들의 공간 서술자들 중 유사한 공간 서술자들을 가지는 특징점들을 하나로 취합(이하, 취합된 특징점을 키 특징점이라 한다)고, 유사한 공간 서술자들을 대표하는 키 공간 서술자를 생성할 수 있다.
즉, 하나의 관심 동영상은 복수 개의 씬으로 분리되며, 각 씬에 대한 키 공간 서술자들이 키 특징점들마다 생성될 수 있다. 이로써, 인식부(250)는 기존의 정지 영상의 특징점 서술자를 생성하는 방법에 비해 적은 개수의 서술자를 생성하게 되며, 결과적으로 관심 영상 또는 관심 객체를 검색하는데 소요되는 시간이 단축되도록 할 수 있다.
키 시간 서술자 생성부(255)는 하나의 씬에 존재하는 프레임들 간의 차이에 기반하여 키 시간 서술자(KTD: Key Temporal Descriptor)를 생성할 수 있다. 키 시간 서술자 생성부(255)는 각 프레임들 간의 차이인 시간 서술자들을 합하여 하나의 씬마다 하나의 키 시간 서술자를 생성할 수 있다. 프레임들 간의 차이는 예를 들어, 프레임의 밝기(intensity) 차이일 수 있다. 프레임들 간의 차이인 시간 서술자는 스칼라값이므로, 시간 서술자들의 모임인 키 시간 서술자는 하나의 벡터값을 갖는다.
도 3은 키 시간 서술자 생성부(255)가 키 시간 서술자를 생성하는 방법을 예를 들어 설명하기 위한 도면이다.
도 3을 참조하면, 하나의 씬은 제1 내지 제4프레임들(F1~F4)로 이루어지며, I1~I4는 각각 제1 내지 제4프레임들의 밝기이다. 씬 결정부(251)에서 하나의 씬이 결정되면, 키 시간 서술자 생성부(255)는 씬을 이루는 제1 내지 제4프레임들(F1~F4)을 입력받아 밝기(I1~I4)를 산출한다.
그리고, 키 시간 서술자 생성부(255)는 제1 내지 제4프레임들(F1~F4) 간의 밝기 차이를 시간 서술자로서 산출할 수 있다. 즉, 키 시간 서술자 생성부(255)는 제1프레임(F1)과 제2프레임(F2) 간의 밝기 차이(TD1), 제2프레임(F2)과 제3프레임(F3) 간의 밝기 차이(TD2), 제3프레임(F3)과 제4프레임(F4) 간의 밝기 차이(TD3), 제1프레임(F1)과 제3프레임(F3) 간의 밝기 차이(TD4), 제2프레임(F2)과 제4프레임(F4) 간의 밝기 차이(TD5), 제1프레임(F1)과 제4프레임(42) 간의 밝기 차이(TD6)를 시간 서술자들로서 산출한다. 산출되는 밝기 차이들(TD1~TD6)은 스칼라값 형태를 갖는다.
각 프레임 간의 밝기 차이가, 즉, 시간 서술자들(TD1~TD6)이 산출되면, 키 시간 서술자 생성부(255)는 산출된 시간 서술자들(TD1~TD6)을 합하여 하나의 키 시간 서술자(KTD)를 벡터값으로 생성할 수 있다.
관심 영상 인식부(257)는 생성된 키 공간 서술자들과 키 시간 서술자를 조합하여 키 특징점 서술자들을 생성할 수 있다. 관심 영상 인식부(257)는 각 프레임 고정 특징점 별로 키 특징점 서술자들을 생성할 수 있다. 그리고, 관심 영상 인식부(257)는 키 특징점 서술자들 각각과 데이터베이스(260)에 저장된 기준 서술자들을 비교하여 관심 동영상 또는 관심 동영상 내의 객체를 인식할 수 있다.
먼저, 휴대용 단말기(100)로부터 수신된 프레임이 하나인 경우, 비록 사용자가 동영상을 촬영하였어도 서버(200) 입장에서는 정지영상이 수신된 것으로 인지할 수 있다. 이러한 경우, 관심 영상 인식부(257)는 하나의 프레임에서 키 공간 서술자들만 생성할 뿐 시간 서술자를 생성할 수 없다. 따라서, 키 공간 서술자 생성부(255)는 생성된 키 공간 서술자들을 키 특징점 서술자들로서 정하고, 키 특징점 서술자들과 데이터베이스(260)의 기준 서술자들을 비교한다.
관심 영상 인식부(257)는 하나의 씬에 속하는 키 특징점들의 키 공간 서술자들과 일치하는 기준 서술자들이 데이터베이스(260)에 저장되어 있으면, 저장된 기준 서술자들에 매핑된 태그 정보를 확인한다. 태그 정보는 관심 동영상 또는 관심 객체에 대한 정보가 저장된 서버의 주소를 포함하거나, 관심 동영상 또는 관심 객체와 관련된 컨텐츠이거나 관심 객체와 관련된 부가 정보일 수 있다. 관심 영상 인식부(257)는 확인된 태그 정보를 휴대용 단말기(100)에게 제공할 수 있다.
다음, 휴대용 단말기(100)로부터 수신된 프레임이 복수 개인 경우, 키 공간 서술자들과 키 시간 서술자는 씬 별로 생성될 수 있다. 이러한 경우, 관심 영상 인식부(257)는 키 공간 서술자들 각각과 키 시간 서술자를 조합하여 하나의 키 특징점마다 하나의 키 특징점 서술자를 생성할 수 있다. 상술한 설명에 의하면, 키 시간 서술자는 씬마다 1개 생성되고, 키 특징점 서술자는 씬마다 키 특징점의 개수만큼 생성된다.
이러한 과정을 씬에 속하는 객체 별로 반복수행하여 객체를 이루는 키 특징점들의 서술자인 키 특징점 서술자들이 모두 생성되면, 관심 영상 인식부(257))는 생성된 키 특징점 서술자들과 데이터베이스(260)의 기준 서술자들을 비교한다. 관심 영상 인식부(257)는 키 특징점 서술자들과 일치하는 기준 서술자들이 데이터베이스(260)에 저장되어 있으면, 저장된 기준 서술자들에 매핑된 태그 정보를 확인한다. 그리고, 관심 영상 인식부(257)는 확인된 태그 정보를 휴대용 단말기(100)에게 제공할 수 있다.
데이터베이스(260)에는 휴대용 단말기(100)로부터 수신되는 관심 동영상 또는 관심 객체에 대한 정보가 사전에 작성되어 저장될 수 있다. 자세히 설명하면, 데이터베이스(260)에는 다양한 동영상들을 이루는 프레임 정보, 각 프레임으로부터 생성된 기준 서술자들과, 각 동영상 또는 동영상 내의 객체에 대한 태그 정보가 저장될 수 있다.
동영상과 관련된 정보를 제공하기 위해, 동영상 관련 정보를 제공하는 제공자는 동영상 정보 제공 서버(200)를 이용하거나 다른 장치(또는 모듈)를 이용하여 사전에 다양한 동영상들에 대한 데이터베이스(260)를 구축할 수 있다. 이하에서는 제공자가 동영상 정보 제공 서버(200)를 이용하여 데이터베이스(260)를 구축하는 방법에 대해 설명한다. 동영상 정보 제공 서버(200)는 도 2를 참조하여 설명한 것과 동일한 방법으로 데이터베이스(260)를 구축할 수 있다.
예를 들어, ‘AAA’이라는 영화에 대해 관련 정보를 제공하려는 경우, 제공자는 ‘AAA’의 모든 프레임들을 동영상 정보 제공 서버(200)에 저장한다. 동영상 정보 제공 서버(200)의 교정부(220)는 모든 프레임들을 교정 및 정합하고, 후보 특징점 추출부(230)는 교정된 프레임들에 속하는 객체들에 대한 후보 특징점들을 추출한다. 프레임 고정 특징점 추출부(240)는 추출된 후보 특징점들에 대한 공간 서술자들을 생성하고, 생성된 공간 서술자들을 프레임들에 매칭하여 매칭되는 점들을 프레임 고정 특징점들로서 추출한다. 씬 결정부(251)는 추출된 프레임 고정 특징점들과 임계값을 이용하여 프레임들을 다수의 씬들로 분리한다. 키 공간 서술자 생성부(253)는 씬에 존재하는 프레임 고정 특징점들 중 유사한 공간 서술자를 가지는 점들을 하나로 취합하고, 유사한 공간 서술자들로부터 키 공간 서술자를 생성한다. 또한, 키 시간 서술자 생성부(255)는 씬에 존재하는 프레임들 간의 차이로부터 키 시간 서술자를 생성한다. 키 공간 서술자 생성부(255)는 키 공간 서술자와 키 시간 서술자를 조합하여 각 프레임 고정 특징점마다 키 특징점 서술자를 생성한다. 그리고, 제공자는 생성된 키 특징점 서술자들과, 영화 제목, 주인공 이름, 개봉일 등 영화와 관련된 부가 정보, 또는 영화와 관련된 광고 컨텐츠 정보를 포함하는 태그 정보를 매핑하여 데이터베이스(260)에 저장한다. 이로써 데이터베이스(260)의 구축이 완료된다.
한편, 다시 도 1을 참조하여 본 발명의 일 실시예를 설명한다.
디스플레이 장치(10)에서 사용자가 관심을 가지고 있는 스마트 폰이 표시되고 있으면, 사용자는 휴대용 단말기(100)를 이용하여 스마트 폰을 동영상 촬영하고, 촬영된 동영상 중 스마트 폰에 해당하는 프레임들을 선택하여 동영상 정보 제공 서버(200)로 전송할 수 있다. 동영상 정보 제공 서버(200)는 수신된 프레임들에 대해 교정을 수행하고, 키 특징점 서술자들을 생성하여 데이터베이스(260)의 데이터와 비교한 후, 입력된 관심 동영상 또는 관심 객체를 인식한다. 그리고, 동영상 정보 제공 서버(200)는 인식된 관심 동영상과 관련된 상세한 정보나 쿠폰과 같은 정보를 휴대용 단말기(100)에게 전송할 수 있다. 휴대용 단말기(100)는 수신된 정보를 가공하여 관심 동영상 또는 객체의 상세한 정보를 보여주는 화면(100a) 또는 쿠폰을 보여주는 화면(100b)을 생성하여 디스플레이한다.
도 4는 본 발명의 다른 실시예를 설명하기 위한 도면이다.
도 4를 참조하면, 사용자는 휴대용 단말기(100)의 촬영부(120)를 통해 촬영 중인 동영상에서 특정 물체에 관심을 가질 수 있다. 이러한 경우, 사용자는 휴대용 단말기(100)에서 표시 중인 특정 물체를 터치 방식으로 선택함으로써, 해당 물체에 대한 정보를 휴대용 단말기(100) 또는 디스플레이 장치(10)에게 보여줄 수 있다.
이를 위하여, 동영상 정보 제공 서버(200)는 먼저, 터치된 물체에 대한 정보를 사전에 입력 및 저장하여 데이터베이스를 구축하여야 한다. 즉, 동영상 정보 제공 서버(200)를 통해 영상 관련 정보를 제공하는 제공자는, 데이터베이스 구축 시 해당 물체에 대한 정보를 트래킹(tracking)을 이용하여 입력할 수 있다. 이는, 현실적으로 해당 물체가 포함된 모든 동영상들의 프레임에 대해 수동으로 물체의 정보를 입력하는 것은 상당한 시간과 노력을 필요로 하기 때문이다. 따라서, 제공자는 해당 물체가 포함된 동영상을 여러 씬으로 분류하고, 물체에 대한 정보를 하나의 프레임에 입력하면 이후 나머지 프레임들에 대해서는 입력된 정보가 트래킹을 통해 자동으로 추적 및 입력되는 방식을 사용할 수 있다. 이를 위해서는 주지된 기술인 Contour-base Tracking 기술, Point-base Tracking 기술 등 다양한 기술이 사용될 수 있다.
이후, 사용자는 휴대용 단말기(100)에서 표시 중인 동영상 중 관심이 가는 객체를 터치 방식으로 선택할 수 있다. 휴대용 단말기(100)는 터치에 의해 선택된 특정 물체의 프레임을 한 개 이상 동영상 정보 제공 서버(200)로 전송한다. 동영상 정보 제공 서버(200)는 수신된 한 개 이상의 프레임으로부터 도 2를 참조하여 설명한대로 씬을 정하고, 각 씬마다 키 특징점들에 해당하는 키 특징점 서술자들을 생성할 수 있다. 각각의 키 특징점 서술자는 키 공간 서술자들과 키 시간 서술자의 조합으로 생성된다. 그리고, 동영상 정보 제공 서버(200)는 생성된 키 특징점 서술자와 데이터베이스(260)의 기준 서술자를 비교하여 객체를 인식하고, 인식된 객체와 관련된 정보를 휴대용 단말기(100)에게 전송한다.
만약, 터치에 의해 선택된 객체의 크기가 작아 프레임 고정 특징점의 추출이 어려운 경우, 동영상 정보 제공 서버(200)는 트래킹을 통해 객체에 대한 정보를 역추적하거나, 정지영상에서의 서술자를 생성하여 씬 내의 모든 프레임들과 매칭하는 과정을 통해 프레임 고정 특징점을 추출할 수도 있다.
한편, 휴대용 단말기(100)는 수신된 정보를 AR(Augmented Reality) 시스템의 트래킹을 통해 객체를 추적하며 표시할 수 있다. 즉, 촬영중인 객체가 이동하여 휴대용 단말기(100)에 표시되는 객체의 위치도 이동하는 경우, 휴대용 단말기(100)의 어플리케이션부(130)는 수신된 정보를 이동한 객체의 주변에 객체와 관련된 정보(100c)로서 보여줄 수 있다. 이때, 수신된 정보에 객체의 다양한 색상 정보가 포함되어 있고, 휴대용 단말기(100)가 객체에 대한 colorization 기능을 제공할 수 있으면, 휴대용 단말기(100)는 객체의 색상을 자동으로 바꿔 표시할 수 있다.
도 4에서 관심 객체가 넥타이이고, 디스플레이 장치(10)가 스마트 TV인 경우, 디스플레이 장치(10)는 휴대용 단말기(100)로부터 넥타이의 색상 정보를 수신한 후, 넥타이의 색을 colorization 기법을 이용하여 변경하면서 표시할 수도 있다.
도 5는 본 발명의 또 다른 실시예를 설명하기 위한 도면이다.
도 5를 참조하면, 사용자는 디스플레이 장치(10)에서 재생 중인 드라마를 시청하는 중 관심 물체가 표시되면 휴대용 단말기(100)를 이용하여 동영상 촬영한다. 그리고, 사용자는 휴대용 단말기(100)에서 촬영된 장면을 재생하고, 관심 물체가 표시되면, 관심 물체(예를 들어, 컵)를 터치하여 선택할 수 있다. 휴대용 단말기(100)는 터치된 관심 물체의 프레임을 동영상 정보 제공 서버(200)로 전송하면서 관심 물체를 판매하는 장소 검색을 요청할 수 있다. 동영상 정보 제공 서버(200)는 도 2를 참조하여 설명한 바와 같이, 후보 특징점 추출, 시공간 서술자 생성, 매칭, 씬 결정, 키 특징점 서술자 생성, 기준 서술자와의 비교 등의 과정을 통해 관심 물체를 인식하고, 관심 물체를 판매하는 장소를 휴대용 단말기(100)에게 제공할 수 있다. 이에, 휴대용 단말기(100)는 AR 기법을 통해 관심 물체를 판매하는 장소의 지도(100d)를 표시할 수 있다. 따라서, 사용자는 일반 디스플레이 장치(10)를 스마트 TV처럼 활용할 수 있다.
도 6은 본 발명의 또 다른 실시예를 설명하기 위한 도면이다.
도 6을 참조하면, 휴대용 단말기(100)는 리모트 컨트롤러와 같은 별도의 장치 없이, 직관적으로 디스플레이 장치(10)를 제어할 수 있다. 도 6에 도시된 디스플레이 장치(10)는 스마트 TV일 수 있다. 자세히 설명하면, 사용자는 휴대용 단말기(100)를 이용하여 디스플레이 장치(10)에서 재생 중인 관심 동영상을 촬영한 후 휴대용 단말기(100)에서 재생시킨다. 사용자는 휴대용 단말기(100)에서 재생 중인 동영상 중 관심 물체가 보여지면, 터치를 통해 관심 물체를 선택한다. 휴대용 단말기(100)는 도 2를 참조하여 설명한 방법에 의해, 동영상 정보 제공 서버(200)로부터 관심 물체와 관련된 정보(예를 들어, 스마트 TV용 컨텐츠)를 제공받아 식별번호 ‘100e’와 같이 표시할 수 있다. 그리고, 휴대용 단말기(100)는 휴대용 단말기(100)에 표시중인 관심 물체와 관심 물체의 정보를 보여주는 화면(100e)를 무선 통신을 통해 디스플레이 장치(10)에게 전송할 수 있다. 이에 의해, 디스플레이 장치(10)는 휴대용 단말기(100)에 표시중인 화면과 동일한 화면을 표시할 수 있다.
도 7은 본 발명적 개념의 예시적 실시예에 따른 동영상 정보 제공 시스템의 동영상 정보 제공 방법을 설명하기 위한 전체 흐름도이다.
도 7에 도시된 디스플레이 장치, 휴대용 단말기 및 동영상 정보 제공 서버는 도 2 내지 도 6을 참조하여 설명한 디스플레이 장치(10), 휴대용 단말기(100) 및 동영상 정보 제공 서버(200)일 수 있다.
도 7을 참조하면, 디스플레이 장치는 화면에 동영상을 표시하고 있다. 표시중인 동영상은 영화, 스포츠, 광고 등 다양할 수 있다(S700).
사용자는 디스플레이 장치를 통해 동영상을 시청하는 중 동영상 또는 동영상 내에 보여지는 객체에 관심이 생기면, 휴대용 단말기의 카메라를 이용해 디스플레이 장치에서 표시 중인 동영상을 관심 영상으로서 촬영한다(S705).
휴대용 단말기는 촬영된 관심 영상을 이루는 프레임들을 표시하고, 사용자로부터 한 개 이상의 프레임을 선택받는다(S710). 프레임 선택은 해당 기능을 제공하는 어플리케이션(미도시)을 통해 이루어질 수 있다.
그리고, 휴대용 단말기는 S710단계에서 선택된 한 개 이상의 프레임을 관심 영상 또는 관심 객체의 프레임으로서 동영상 정보 제공 서버로 전송한다(S715).
동영상 정보 제공 서버는 S715단계로부터 수신되는 프레임들을 교정한다(S720). S720단계에서, 동영상 정보 제공 서버는 수신된 프레임이 복수 개이면, 수신된 복수 개의 프레임들을 교정할 수 있다. 교정은 프레임들이 회전하는 경우 영상이 정합되지 않는 오류를 최소화하기 위해 수행된다.
교정이 완료되면, 동영상 정보 제공 서버는 크기(scale) 또는 회전(rotation)에 강인한 후보 특징점들을 복수 개의 프레임들 중 적어도 하나로부터 추출한다(S725).
그리고, 동영상 정보 제공 서버는 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점들을 추출한다(S730).
동영상 정보 제공 서버는 S730단계에서 추출된 프레임 고정 특징점들을 이용하여 관심 영상 또는 관심 객체를 인식하고, 인식된 관심 영상 또는 관심 객체의 태그 정보를 확인할 수 있다(S735).
동영상 정보 제공 서버는 S735단계에서 확인된 태그 정보를 휴대용 단말기에게 전송할 수 있다(S740). 전송되는 태그 정보는 스마트 TV에서 활용되도록 작성된 디스플레이용 컨텐츠이거나, 관심 객체에 대한 부가 정보일 수 있다.
휴대용 단말기는 S740단계에 의해 수신되는 태그 정보로부터 관심 객체에 대한 정보를 확인하고, 확인된 정보를 S710단계에서 선택한 프레임과 함께 또는 단독으로 표시할 수 있다(S745).
휴대용 단말기는 S740단계에서 수신된 태그 정보에 관심 객체에 적용가능한 다양한 색상 정보가 포함되어 있고, 휴대용 단말기가 colorization 기능을 제공하면, 관심 객체의 색상을 색상 정보를 이용하여 자동으로 바꿔 표시할 수 있다(S750, S755).
도 8은 도 7의 S720단계 내지 S735단계를 보다 자세히 설명하기 위한 흐름도이다.
도 8을 참조하면, 동영상 정보 제공 서버는 S720단계에 의해 교정된 복수 개의 프레임들 각각으로부터 크기, 회전 또는 Perspective Distortion에 강인한 특징점들을 추출한다(S800). S800단계는 SURF 알고리즘, SIFT 알고리즘 등 주지된 기술들 중 하나 또는 미래에 사용될 기술들 중 하나를 이용할 수 있다.
동영상 정보 제공 서버는 S800단계에서 추출된 후보 특징점들 각각에 대해 공간 서술자(SD: Spatial Descriptor)들을 생성한다(S805).
동영상 정보 제공 서버는 S805단계에서 생성된 SD들을 이용하여 복수 개의 프레임들 중 서로 인접하는 프레임들에서 후보 특징점들을 매칭시킨다(S810). 예를 들어, S715단계에서 수신된 프레임들이 세 개의 제1 내지 제3프레임인 경우, 동영상 정보 제공 서버는 제1프레임과 제2프레임에서 추출된 후보 특징점들의 SD 들을 이용하여 제1프레임과 제2프레임 사이의 점(예를 들어, 후보 특징점)들의 매칭을 시도하고, 제2프레임과 제3프레임에서 추출된 후보 특징점들의 SD들을 이용하여 제2프레임과 제3프레임 사이의 점들의 매칭을 시도한다.
동영상 정보 제공 서버는 매칭 시도 결과, 후보 특징점들 중 SD에 의해 서로 매칭된 점들을 프레임 고정 특징점(FIF: Frame Invariant Feature)들로서 추출할 수 있다(S815). 따라서, 서로 인접하는 두 프레임들의 객체들로부터 각각 추출되는 FIF들의 개수는 동일하다.
FIF들이 추출되면, 동영상 정보 제공 서버는 제1프레임부터 마지막 프레임까지의 FIF들을 분석하여 관심 객체를 인식한다. 제1프레임부터 마지막 프레임까지는 S715단계에서 수신된 복수 개의 프레임들을 의미한다.
자세히 설명하면, 동영상 정보 제공 서버는 먼저 제1프레임(Fi, i=1)을 고려한다(S820).
즉, 동영상 정보 제공 서버는 제1프레임(Fi, i=1)과 제2프레임(Fi+1, i=1) 사이에서 추출된 FIF들의 차이값을 산출한다(S825). S825단계에서 사용되는 FIF들의 차이값은 S810단계에서 매칭된 두 FIF 간의 속성 차이로서, 예를 들어, FIF의 intensity 또는 gradient의 차이일 수 있다. 따라서, 제1프레임과 제2프레임 사이에서 추출된 FIF의 개수가 n개이면, S825단계에서 산출되는 차이의 개수도 n개이다.
동영상 정보 제공 서버는 S825단계에서 산출된 n개의 차이와 사전에 설정된 임계값을 비교하여, n개의 차이값 중 적어도 하나가 임계값 이하이면(S830-Y), 이전 씬을 이루는 마지막 프레임의 다음 프레임부터 Fi까지를 하나의 씬으로 결정한다(S835). 이전에 정해진 씬이 없는 경우, 동영상 정보 제공 서버는 제1프레임부터 Fi까지를 하나의 씬으로 결정한다. FIF들은 객체와 관련된 특징점이므로, 하나의 씬은 프레임 내의 객체를 기준으로 정해질 수 있다.
그리고, 동영상 정보 제공 서버는 S835단계에서 결정된 씬에 존재하는 FIF들의 SD들로부터 각 FIF의 키 공간 서술자(KSD: Key Spatial Descriptor)를 생성한다(S840). S840단계에서 동영상 정보 제공 서버는 S835단계에서 정해진 씬에 속하는 FIF들의 SD들 중 유사한 SD를 가지는 FIF들을 하나의 키 특징점으로 취합하고, 키 특징점으로 취합된 FIF들의 SD들로부터 키 특징점에 대한 KSD를 생성할 수 있다.
예를 들어, S815단계에서 하나의 객체에 대해 제1 및 제2프레임으로부터 각각 세 개씩의 FIF들이 추출된 경우, 제1프레임에서 추출된 FIF들을 a1, a2, a3라 하고, 제2프레임에서 추출된 FIF들을 b1, b2, b3라 한다. a1과 b1이 S810단계에서 매칭된 점이고, a2와 b2가 매칭된 점이며 a3와 b3가 매칭된 점이다. S830단계에서, 동영상 정보 제공 서버는 a1과 b1의 밝기차이와 임계값을 비교하고, a2와 b2의 밝기차이와 임계값을 비교하며, a3와 b3의 밝기차이를 임계값과 비교한다. 그리고, S840단계에서는 a1과 b1의 SD가 유사하므로 동영상 정보 제공 서버는 a1과 b1을 하나의 키 특징점인 ‘a1’으로 취합하고, a1의 SD와 b1의 SD의 평균값 또는 중간값을 키 특징점인 a1의 KSD로서 생성할 수 있다. 이는, 나머지 특징점들인 a2와 b2, a3와 b3에 대해서도 동일하며, 이로서 S840단계에서는 세 개의 키 특징점 및 세 개의 KSD가 생성된다.
또한, 동영상 정보 제공 서버는 S835단계에서 결정된 씬이 복수 개의 프레임들로 이루어진 경우(S845-Y), 각 프레임 간의 차이로부터 시간 서술자(TD: Temporal Descriptor)들을 생성한다(S850). 씬이 두 개의 프레임으로 이루어지면, S850단계에서 생성되는 SD는 1개이며, 씬이 세 개의 프레임으로 이루어지면 생성되는 SD는 두 개이다. 이는 도 3을 참조하여 자세히 설명하였다.
동영상 정보 제공 서버는 S850단계에서 생성되는 한 개 이상의 SD로부터 하나의 키 시간 서술자(KTD: Key Temporal Descriptor)를 생성한다(S855). S850단계에서 생성되는 SD들은 스칼라값을 가지므로, 동영상 정보 제공 서버는 복수 개의 SD들을 취합하여 하나의 벡터값을 가지는 KTD를 생성할 수 있다.
KSD와 KTD가 생성되면, 동영상 정보 제공 서버는 S840단계에서 생성된 KSD들 각각과 S855단계에서 생성된 KTD를 조합하여 키 특징점 서술자(KFD: Key Feature Descriptor)들을 생성하여 메모리에 저장한다(S860). S840단계에서 생성된 KSD의 개수가 m개이면, S860단계에서도 m개의 KFD가 생성되며, 이 개수는 S815단계에서 추출된 FIF의 개수와 동일할 수 있다.
반면, S845단계에서 하나의 씬이 하나의 프레임으로 이루어진 경우(S845-N), 동영상 정보 제공 서버는 S840단계에서 생성된 각 KSD들을 각 FIF들에 대한 KFD로 정할 수 있다(S860).
S825단계 내지 S860단계에 의해 하나의 씬에 속하는 객체에 대한(또는 객체로부터 추출된 FIF들에 대한) KFD들이 모두 생성되면, 동영상 정보 제공 서버는 S715단계에서 수신된 모든 프레임들에 대한 씬 분류가 완료되었는지 판단한다(S865).
씬 분류가 완료되지 않은 경우, 즉, F(i+1, i=1) 이후의 프레임이 존재하는 경우(S865-N), 동영상 정보 제공 서버는 i=i+1를 적용한 후(S875), S825단계 내지 S865단계를 수행한다.
반면, 모든 프레임들에 대한 씬 분류가 완료된 경우(S865-Y), 동영상 정보 제공 서버는 각 씬의 KFD들과 데이터베이스에 사전에 정의된 기준 서술자를 비교하여 관심 객체 또는 관심 동영상을 인식한다(S870). S870단계에서 동영상 정보 제공 서버는 KFD들과 일치하는 기준 서술자들을 데이터베이스로부터 검색하고, 검색된 기준 서술자들에 매핑된 태깅 정보를 확인하여 관심 객체 또는 관심 동영상을 인식할 수 있다.
상기와 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 디스플레이 장치 100: 휴대용 단말기
110: 사용자 입력부 120: 촬영부
130: 어플리케이션부 140: 통신부
200: 동영상 정보 제공 서버 210: 송수신부
220: 교정부 230: 후보 특징점 추출부
240: 프레임 고정 특징점 추출부 250: 인식부
260: 데이터베이스

Claims (16)

  1. 동영상 정보 제공 서버가 휴대용 단말기로부터 관심 동영상을 이루는 프레임을 복수 개 수신하면, 후보 특징점들을 상기 프레임들로부터 추출하는 단계;
    상기 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점들을 추출하는 단계;
    상기 추출된 프레임 고정 특징점들이 가지는 공간 서술자들 중 유사한 공간 서술자들로부터 상기 프레임 고정 특징점들에 대한 키 공간 서술자(Key Spatial Descriptor)들을 생성하는 단계;
    상기 생성된 키 공간 서술자들과 데이터베이스에 저장된 기준 서술자들을 비교하여 상기 관심 동영상 또는 상기 관심 동영상 내의 객체를 인식하는 단계; 및
    상기 인식된 관심 동영상 또는 상기 객체에 매핑된 정보를 상기 휴대용 단말기로 전송하는 단계;를 포함하는 것을 특징으로 하는 동영상 정보 제공 방법.
  2. 제1항에 있어서,
    상기 프레임 고정 특징점들을 추출하는 단계는,
    상기 추출된 후보 특징점들에 대해 공간 서술자들을 생성하는 단계;
    상기 생성된 공간 서술자들을 이용하여 상기 복수 개의 프레임들 중 서로 인접하는 프레임들에서 상기 후보 특징점들의 매칭을 시도하는 단계; 및
    상기 후보 특징점들 중 매칭되는 점들을 상기 프레임 고정 특징점들로서 추출하는 단계;를 포함하는 것을 특징으로 하는 동영상 정보 제공 방법.
  3. 제1항에 있어서,
    상기 서로 인접하는 프레임들 내에서 추출된 프레임 고정 특징점들의 차이값이 임계값 이하가 되면, 이전 프레임들까지를 연속된 하나의 씬(scene)으로 정하는 단계;를 더 포함하며,
    상기 키 공간 서술자는 상기 씬 단위로 정해지는 것을 특징으로 하는 동영상 정보 제공 방법.
  4. 제3항에 있어서,
    상기 키 공간 서술자들을 생성하는 단계는,
    상기 추출된 프레임 고정 특징점들 중 유사한 공간 서술자들을 가지는 프레임 고정 특징점들마다 하나의 키 특징점(Key Feature)을 정하고, 상기 유사한 공간 서술자들로부터 상기 키 특징점들의 키 공간 서술자들을 생성하는 것을 특징으로 하는 동영상 정보 제공 방법.
  5. 제3항에 있어서,
    상기 씬에 포함된 프레임들 간의 차이에 기반하여 키 시간 서술자를 생성하는 단계; 및
    상기 생성된 키 공간 서술자들, 상기 키 시간 서술자 및 상기 저장된 기준 서술자들을 비교하여 상기 관심 동영상 또는 상기 관심 동영상 내의 객체를 인식하는 단계;를 더 포함하는 것을 특징으로 하는 동영상 정보 제공 방법.
  6. 제1항에 있어서,
    상기 후보 특징점들을 추출하는 단계 이전에,
    상기 관심 동영상을 이루는 프레임이 복수 개 입력되면, 상기 입력된 복수 개의 프레임들을 교정(calibration)하는 단계;를 더 포함하며,
    상기 후보 특징점들은 상기 교정된 프레임들 내에서 추출되는 것을 특징으로 하는 동영상 정보 제공 방법.
  7. 제1항에 있어서,
    상기 전송하는 단계는, 상기 인식된 관심 동영상 또는 상기 객체에 태깅된 태그 정보에 기초하여 상기 정보를 서버로부터 가져와 상기 휴대용 단말기로 전송하는 것을 특징으로 하는 동영상 정보 제공 방법.
  8. 제1항에 있어서,
    상기 휴대용 단말기에서 재생 중인 객체가 터치에 의해 선택되면, 상기 휴대용 단말기는 터치된 객체의 프레임을 상기 관심 동영상의 프레임으로서 상기 동영상 정보 제공 서버로 출력하며,
    상기 동영상 정보 제공 서버로부터 전송된 상기 정보에 상기 객체의 색상정보가 포함된 경우, 상기 휴대용 단말기는 상기 객체의 색상을 상기 색상정보에 근거하여 변경표시하는 것을 특징으로 하는 동영상 정보 제공 방법.
  9. 동영상 정보 제공 서버가 휴대용 단말기로부터 관심 동영상을 이루는 프레임을 복수 개 수신하면, 후보 특징점들을 상기 프레임들로부터 추출하는 후보 특징점 추출부;
    상기 수신된 복수 개의 프레임들 중 서로 인접하는 프레임들 내의 후보 특징점들로부터 연관성을 가지는 프레임 고정 특징점들을 추출하는 프레임 고정 특징점 추출부;
    상기 추출된 프레임 고정 특징점들이 가지는 공간 서술자들 중 유사한 공간 서술자들로부터 상기 프레임 고정 특징점들에 대한 키 공간 서술자(KSD: Key Spatial Descriptor)들을 생성하는 키 공간 서술자 생성부와, 상기 생성된 키 공간 서술자들과 데이터베이스에 저장된 기준 서술자들을 비교하여 상기 관심 동영상 또는 상기 관심 동영상 내의 객체를 인식하는 관심 영상 인식부를 포함하는 인식부; 및
    상기 인식된 관심 동영상 또는 상기 객체에 매핑된 정보를 상기 휴대용 단말기로 전송하는 송수신부;를 포함하는 것을 특징으로 하는 동영상 정보 제공 서버.
  10. 제9항에 있어서,
    상기 프레임 고정 특징점 추출부는,
    상기 추출된 후보 특징점들에 대해 공간 서술자들을 생성하는 공간 서술자 생성부;
    상기 생성된 공간 서술자들을 이용하여 상기 복수 개의 프레임들 중 서로 인접하는 프레임들에서 상기 후보 특징점들의 매칭을 시도하는 매칭부; 및
    상기 후보 특징점들 중 매칭되는 점들을 상기 프레임 고정 특징점들로서 추출하는 추출부;를 포함하는 것을 특징으로 하는 동영상 정보 제공 서버.
  11. 제9항에 있어서,
    상기 인식부는,
    상기 서로 인접하는 프레임들 내에서 추출된 프레임 고정 특징점들의 차이값이 임계값 이하가 되면, 이전 프레임들까지를 연속된 하나의 씬(scene)으로 정하는 씬 결정부;를 더 포함하며,
    상기 키 공간 서술자 생성부는 상기 정해지는 씬 단위로 상기 키 공간 서술자를 생성하는 것을 특징으로 하는 동영상 정보 제공 서버.
  12. 제11항에 있어서,
    상기 키 공간 서술자 생성부는,
    상기 추출된 프레임 고정 특징점들 중 유사한 공간 서술자들을 가지는 프레임 고정 특징점들마다 하나의 키 특징점(Key Feature)을 정하고, 상기 유사한 공간 서술자들로부터 상기 키 특징점들의 키 공간 서술자들을 생성하는 것을 특징으로 하는 동영상 정보 제공 서버.
  13. 제11항에 있어서,
    상기 인식부는,
    상기 씬에 포함된 프레임들 간의 차이에 기반하여 키 시간 서술자를 생성하는 키 시간 서술자 생성부;를 더 포함하며,
    상기 관심 영상 인식부는, 상기 생성된 키 공간 서술자들, 상기 키 시간 서술자 및 상기 저장된 기준 서술자들을 비교하여 상기 관심 동영상 또는 상기 관심 동영상 내의 객체를 인식하는 것을 특징으로 하는 동영상 정보 제공 서버.
  14. 제9항에 있어서,
    상기 관심 동영상을 이루는 프레임이 복수 개 입력되면, 상기 입력된 복수 개의 프레임들을 교정(calibration)하는 교정부;를 더 포함하며,
    상기 후보 특징점 추출부는 상기 교정된 프레임들 내에서 상기 후보 특징점들을 추출하는 것을 특징으로 하는 동영상 정보 제공 서버.
  15. 제9항에 있어서,
    상기 송수신부는, 상기 인식된 관심 동영상 또는 상기 객체에 태깅된 태그 정보에 기초하여 상기 정보를 서버로부터 가져와 상기 휴대용 단말기로 전송하는 것을 특징으로 하는 동영상 정보 제공 서버.
  16. 제9항에 있어서,
    상기 휴대용 단말기에서 재생 중인 객체가 터치에 의해 선택되면, 상기 휴대용 단말기는 터치된 객체의 프레임을 상기 관심 동영상의 프레임으로서 상기 동영상 정보 제공 서버로 출력하며,
    상기 동영상 정보 제공 서버로부터 전송된 상기 정보에 상기 객체의 색상정보가 포함된 경우, 상기 휴대용 단말기는 상기 객체의 색상을 상기 색상정보에 근거하여 변경표시하는 것을 특징으로 하는 동영상 정보 제공 서버.
KR1020120058284A 2012-05-31 2012-05-31 동영상 정보 제공 방법 및 서버 KR101359286B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120058284A KR101359286B1 (ko) 2012-05-31 2012-05-31 동영상 정보 제공 방법 및 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120058284A KR101359286B1 (ko) 2012-05-31 2012-05-31 동영상 정보 제공 방법 및 서버

Publications (2)

Publication Number Publication Date
KR20130134638A KR20130134638A (ko) 2013-12-10
KR101359286B1 true KR101359286B1 (ko) 2014-02-06

Family

ID=49982236

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120058284A KR101359286B1 (ko) 2012-05-31 2012-05-31 동영상 정보 제공 방법 및 서버

Country Status (1)

Country Link
KR (1) KR101359286B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102152627B1 (ko) * 2013-12-23 2020-09-09 주식회사 알티캐스트 미러링 화면에 관련된 콘텐츠 출력 방법 및 그 장치
CN105187911A (zh) * 2015-09-28 2015-12-23 努比亚技术有限公司 一种视频图片显示方法、装置及一种图片显示方法
KR102414925B1 (ko) * 2020-12-02 2022-06-29 여상 제품 간접 광고 표시 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080078217A (ko) * 2007-02-22 2008-08-27 정태우 영상에 포함된 객체 색인 방법과 그 색인 정보를 이용한부가 서비스 방법 및 그 영상 처리 장치
KR20090044221A (ko) * 2007-10-31 2009-05-07 주식회사 케이티 양방향 광고 정보 파일 저작 서비스 제공방법, 양방향 광고포함 동영상 서비스 제공 시스템 및 방법
KR20100118882A (ko) * 2009-04-29 2010-11-08 주식회사 케이티 관심 객체 정보를 제공하는 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080078217A (ko) * 2007-02-22 2008-08-27 정태우 영상에 포함된 객체 색인 방법과 그 색인 정보를 이용한부가 서비스 방법 및 그 영상 처리 장치
KR20090044221A (ko) * 2007-10-31 2009-05-07 주식회사 케이티 양방향 광고 정보 파일 저작 서비스 제공방법, 양방향 광고포함 동영상 서비스 제공 시스템 및 방법
KR20100118882A (ko) * 2009-04-29 2010-11-08 주식회사 케이티 관심 객체 정보를 제공하는 방법 및 장치

Also Published As

Publication number Publication date
KR20130134638A (ko) 2013-12-10

Similar Documents

Publication Publication Date Title
US11496814B2 (en) Method, system and computer program product for obtaining and displaying supplemental data about a displayed movie, show, event or video game
US9979788B2 (en) Content synchronization apparatus and method
US9860593B2 (en) Devices, systems, methods, and media for detecting, indexing, and comparing video signals from a video display in a background scene using a camera-enabled device
KR102246305B1 (ko) 증강 미디어 서비스 제공 방법, 장치 및 시스템
US9025023B2 (en) Method for processing image data in television having multiple image sensors and the television for controlling the same
US20120272279A1 (en) Apparatus for providing internet protocol television broadcasting contents, user terminal and method for providing internet protocol television broadcasting contents information
EP2520084A2 (en) Method for identifying video segments and displaying contextually targeted content on a connected television
KR20120051208A (ko) 멀티미디어 장치의 사물을 이용한 제스쳐 인식 방법 및 장치
US11600029B2 (en) Display synchronization using colored anchors
US20120331514A1 (en) Method and apparatus for providing image-associated information
WO2018148076A1 (en) System and method for automated positioning of augmented reality content
KR101359286B1 (ko) 동영상 정보 제공 방법 및 서버
JP2012203823A (ja) 画像認識装置
KR102426089B1 (ko) 전자 장치 및 전자 장치의 요약 영상 생성 방법
KR20180025754A (ko) 디스플레이장치 및 그 제어방법
EP4291996A1 (en) A system for accessing a web page
KR102208916B1 (ko) 영상 인식 기반의 방송 프로그램 인식 시스템
US10733491B2 (en) Fingerprint-based experience generation
EP3077955B1 (en) Display synchronization using colored anchors
KR102414925B1 (ko) 제품 간접 광고 표시 장치 및 방법
US20240232277A9 (en) A system for accessing a web page
US20190095468A1 (en) Method and system for identifying an individual in a digital image displayed on a screen
KR101515174B1 (ko) 스마트 디스플레이
JP2015099568A (ja) 行動記録装置、行動記録方法及びプログラム
CN115766992A (zh) 一种显示设备及图像识别方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171213

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191226

Year of fee payment: 7