KR100684484B1

KR100684484B1 - 비디오 세그먼트를 다른 비디오 세그먼트 또는 정보원에링크시키는 방법 및 장치

Info

Publication number: KR100684484B1
Application number: KR1020017003052A
Authority: KR
Inventors: 디미트로바네벤카
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-07-09
Filing date: 2000-07-04
Publication date: 2007-02-22
Also published as: US7356830B1; EP1110156A1; KR20010086393A; JP2003504952A; WO2001004792A1

Abstract

본 발명에 따라, 제공된 비디오 세그먼트는 하나 이상의 다른 비디오 세그먼트들 또는 정보원들에 대한 링크들을 포함하도록 구성된다. 제공된 비디오 세그먼트는 그 세그먼트의 대상, 실체, 특성 또는 다른 특징과 동일한 특징을 포함하는 적어도 하나의 부가적 정보원 사이의 연관을 결정하도록 처리된다. 이어서, 그러한 연관은 부가적 정보원으로부터 정보를 액세스하고, 그 정보를 원래 비디오 세그먼트와 관련하여 또는 그 대신에 사용자에게 디스플레이하기 위해 이용될 수 있다. 비디오 세그먼트에 대한 연관들의 세트는 처리 시스템에 기억될 수 있거나, 또는 예를 들면 비디오 세그먼트의 수송 스트림에 비디오 세그먼트 자체에 통합될 수 있다. 부가적 정보원은 예를 들면 부가적 비디오 세그먼트 또는 지정된 특징을 포함하는 오디오, 텍스트 또는 다른 정보의 소스일 수 있다. 특징은 비디오 세그먼트의 프레임으로부터 추출된 비디오 특징, 예를 들면 프레임 내의 특정한 얼굴, 장면, 사건 또는 대상물의 식별, 음악 기호 추출 등의 오디오 특징, 스피커 식별 또는 전사 추출 또는 텍스트 특징일 수 있다. 본 발명은 사용자가 디스플레이된 비디오 세그먼트 내의 대상물 또는 다른 특징을 클릭함으로써 또는 그렇지 않으면 선택함으로써 정보를 액세스하게 하고, 그럼으로써 그 세그먼트에 관련된 정보의 검색을 용이하게 한다.

비디오 세그먼트, 정보원, 수송 스트림, 연관세트, 텍스트

Description

비디오 세그먼트를 다른 비디오 세그먼트 또는 정보원에 링크시키는 방법 및 장치{Method and apparatus for linking a video segment to another video segment or information source}

본 발명은 일반적으로 비디오 신호 처리에 관한 것이며, 보다 상세하게는 디지털 비디오 스트림들 또는 다른 유형들의 비디오 세그먼트들의 처리 기술들에 관한 것이다.

비디오 세그먼트들을 하이퍼미디어 문서(document)들 및 다른 유사한 응용들로 처리하기 위한 종래 기술들은 일반적으로 매우 제한된 수준의 비디오에 기초한 상호 작용만을 제공한다. 웹 페이지들과 같은 하이퍼미디어 문서들은 종종 여러 가지 비디오 세그먼트들에 대한 링크들을 포함하지만, 그러한 문서들은 주로 텍스트에 기초하고, 전형적으로는 단지 도식적 실체(entity)들로서 이미지 및 비디오를 이용한다.

한가지 그러한 종래의 비디오 처리 시스템의 예는 PCT 출원 제 WO 97/22201호에 개시된 비디오 모자이크(Vosaic) 시스템이다. 보자이크 시스템은 실시간 비디오를 표준 하이퍼텍스트 페이지들에 통합하고, 인터넷 또는 다른 유형의 네트워크 상에서 실시간 비디오 전송을 다루기 위해 비디오 데이터그램 프로토콜(VDP)을 이용한다. VDP는 프레임간 지터(inter-frame jitter)를 최소화하도록 디자인되었고, 클라이언트 CPU 로드 및 네트워크 정체에 능동적으로 적응한다. 보자이크에서, 비디오 정보는 내장된 비디오들을 포함하는 웹 페이지에 대한 클라이언트 요청에 응답하여 네트워크상에서 서버로부터 클라이언트로 스트림된다. 보자이크 시스템은 계층 정보, 의미적 설명뿐만 아니라 비디오 정보의 계층적 접근, 브라우징, 탐색 및 다이내믹 조성을 지원하는 주해들을 포함하는 여러 클래스의 이른바 메타-정보를 제공한다.

그러나, 보자이크 시스템 및 다른 유사한 종래 시스템들에 의해 제공되는 상호작용은 과도하게 제한적이다. 보다 상세하게는, 이들 시스템들은 일반적으로 비디오 세그먼트와 연관된 정보에 대한 동시 액세스를 제공하지 못한다. 다른 단점은, 비디오가 진행됨에 따라 그와 같은 시스템들은 일반적으로 링크를 나타낼 수도 없고 사라지게 할 수도 없다는 것이다. 또한, 종래 시스템들에서 링크는 전형적으로 파일 또는 다른 문서의 어드레스 또는 물리적 위치를 포함하는 URL(Uniform Resource Locator)를 제공하지만, 일반적으로 링크 자체에 관한 현저한 추가 정보를 제공하지 않는다. 더욱이, 종래의 시스템 링크들은 일반적으로 링크와 파일 또는 다른 문서 사이의 1:1 매핑이다.

상기한 바로부터 명백하듯이, 상기 종래 시스템들과 관련한 제한들 없이, 개선된 비디오에 기초한 상호 작용을 사용자들에게 제공할 수 있는 비디오 처리 기술들에 대한 필요성이 존재한다.

본 발명에 따라, 비디오 세그먼트는 1개 이상의 다른 비디오 세그먼트들 또는 정보원(information source)들에 대한 링크들을 포함하도록 구성된다. 비디오 세그먼트는 그 세그먼트의 대상, 실체, 특성 또는 다른 특징과, 동일한 특징을 포함하는 적어도 하나의 부가적 정보원 사이의 연관(association)을 결정하기 위해 비디오 처리 시스템에서 처리된다. 이어서, 그러한 연관은 부가적 정보원으로부터 정보를 액세스하기 위해 이용됨으로써, 액세스된 정보는 원래 비디오 세그먼트와 관련하여 또는 그 대신에 사용자에게 디스플레이될 수 있다. 비디오 세그먼트에 대한 연관세트는 처리 시스템의 데이터베이스 또는 다른 메모리에 기억될 수 있거나, 또는 예를 들면 비디오 세그먼트의 수송 스트림에서, 비디오 세그먼트 자체로 통합될 수 있다. 부가적 정보원은 예를 들면 지정된 특징을 포함하는 부가적 비디오 세그먼트 또는 지정된 특징을 포함하는 오디오, 텍스트 또는 다른 정보의 소스일 수 있다. 특징은 비디오 세그먼트의 프레임으로부터 추출된 비디오 특징, 예를 들면 프레임 내의 특정한 얼굴, 장면, 사건 또는 대상물의 식별, 음악 기호(music signature) 추출 등의 오디오 특징, 스피커 식별 또는 전사(transcript) 추출 또는 텍스트 특징일 수 있다.

본 발명의 일 실시예에서, 사용자는 디스플레이된 비디오 세그먼트 내의 대상물 또는 다른 특징을 클릭함으로써 또는 그렇지 않으면 선택함으로써 부가적 관련 정보를 액세스한다. 다른 가능한 실시예에서, 비디오 세그먼트 자체의 정보는 비디오 세그먼트 콘텐트, 확정된 사용자 기호도, 시각 등의 인자들에 따라 관련된 정보를 자동으로 검색하기 위해 사용될 수 있다.

본 발명은 종래의 비디오 처리 시스템들에 비해 많은 장점들을 제공한다. 예를 들면, 본 발명은 주어진 비디오 세그먼트의 대상물, 실체들, 특성들 또는 다른 특징들과 연관된 광범위한 정보를 사용자가 액세스하게 함으로써 개선된 상호 작용을 제공한다. 또한, 링크들은 동적이고, 예를 들면, 링크들은 주어진 비디오 세그먼트 내에서 출현하거나, 또는 사라지거나 또는 그렇지 않으면 변화할 수 있다. 다른 링크들은 전체 세그먼트, 예를 들면 제목, 감독, 스타일, 장르 등의 텍스트 링크인 전체적 세그먼트를 통해 이용가능하게 될 수 있다. 다른 장점은 주어진 링크가 파일 또는 문서의 어드레스 또는 물리적 위치에 의해 간단히 URL보다 오히려 링크 자체의 속성에 관한 정보를 포함할 수도 있다는 것이다. 또 다른 장점은 상이한 링크들이 콘텍스트, 사용자, 시간, 위치 등의 인자들에 기초하여 발생될 수 있다는 것이다. 더욱이, 상기 링크들은 소정의 비디오 세그먼트에서의 m개의 대상물들, 실체들, 특성들 또는 다른 특징들과, 상기 m 개의 특징으로부터 액세스될 수 있는 n 개의 비디오 세그먼트 또는 다른 정보원 사이의 m:n 매핑을 수행하기 위해 사용될 수 있다. 이는 종래의 하이퍼미디어 문서들의 전형적인 1:1 매핑에 비해 현저히 개선된 것이다. 본 발명의 이들 특징 및 다른 특징 및 장점들은 수반된 도면 및 하기 상세한 설명으로부터 보다 명백해질 것이다.

도 1은 본 발명이 수행될 수 있는 비디오 처리 시스템의 블록도.

도 2는 본 발명의 예시적인 실시예에서 다중 비디오 세그먼트들 사이의 링킹을 예시하는 도면.

도 3은 본 발명에 따른 링킹에 의한 실제 비디오 세그먼트들의 일부들을 포함하는 사용자 인터페이스의 일 예를 보여주는 도면.

도 4 및 5는 본 발명의 예시적인 실시예들에서 다른 비디오 세그먼트들과 연관된 하나의 비디오 세그먼트로부터 추출을 예시하는 도면.

도 6은 본 발명의 예시적인 실시예에서 실행 시간 링킹 및 스위칭을 예시하는 도면.

도 1은 본 발명이 수행될 수 있는 비디오 처리 시스템(10)을 보여준다. 상기 시스템(10)은 데스크탑, 랩탑 또는 팜탑 컴퓨터, 개인 휴대 정보 단말기(PDA), 텔레비전 또는 셋톱 박스, 뿐만 아니라 이들 및 다른 장치의 일부들 또는 조합들을 나타낼 수 있다. 이 시스템(10)은 1개 이상의 비디오 공급원들(12), 1개 이상의 입력/출력장치들(14), 처리기(15) 및 메모리(16)를 포함한다. 입력/출력 장치들(14), 처리기 (15) 및 메모리(16)는 통신 매체(17)를 통해 통신한다. 통신 매체(17)는 예를 들면 버스, 통신 네트워크, 회로의 1개 이상의 내부 접속들, 회로 카드 또는 다른 장치뿐만 아니라 이들 및 다른 통신 매체의 일부들 및 조합들을 나타낼 수 있다.

상기 공급원(들)(12)로부터의 입력 비디오는 예를 들면 텔레비전 디스플레이, 컴퓨터 모니터 등일 수 있는 디스플레이 장치(18)에 공급된 출력 비디오를 발생시키기 위해 메모리(16)에 기억되고, 처리기(15)에 의해 실행되는 1개 이상의 소프트웨어 프로그램들에 따라 처리된다. 비디오 소스(들)(12)은 인터넷, 광역 네트워크, 대도시 지역 네트워크, 근거리 네트워크, 지상 방송 시스템, 케이블 네트워크, 인공위성 네트워크 또는 전화 네트워크 등의 글로벌 컴퓨터 통신 네트워크 뿐만 아니라 이들 유형 및 다른 유형의 네트워크들 또는 시스템들의 일부들 또는 조합들을 통해 서버 또는 서버들로부터 비디오를 수신하기 위한 1개 이상의 네트워크 접속들을 나타낼 수 있다.

도 1에 도시된 시스템(10)의 특정한 구성은 단지 실시예임을 이해해야 한다. 본 발명의 다른 실시예들에서, 본 명세서에 상세히 기재하게 될 1개 이상의 비디오 처리 오퍼레이션들은 분산된 방식, 예를 들면 네트워크에서, 또는 광범위한 다른 대안의 구성들에서 분산된 어크로스(across) 다중 컴퓨터 또는 다른 장치들에서 수행될 수 있다.

본 발명은 도 1의 시스템(10)으로 수행될 수 있는 "데자비디오(DejaVideo)"라 언급되는 비디오 처리 프레임워크(framework)를 제공한다. 이러한 비디오 처리 프레임워크는 주어진 시스템 사용자가 현재 시청하고 있는 비디오 세그먼트의 대상들, 오디오 또는 다른 특징들에 대해 확립된 연관 세트에 기초한 비디오 세그먼트, 텍스트 또는 다른 멀티미디어 문서를 액세스할 수 있게 한다. 따라서, 본 발명은 사용자가 예를 들면 이미 보고, 들은 것과의 유사성을 발견함으로써 다른 비디오 세그먼트들의 새로운 콘텐츠를 상호 작용에 의해 조사할 수 있게 한다. 본 발명은 또한, 예를 들어 그래픽스 오버레이 모드 또는 다른 유형의 디스플레이 모드로 텍스트 또는 다른 정보를 포함시킴으로써 현재 시청 중인 비디오 세그먼트에서 보이는 대상에 관한 부가적 정보를 제공할 수 있다. 비디오 세그먼트의 한 장면에서 다른 비디오 세그먼트의 다른 장면으로부터 원활한 변환은 이미지 모핑 등의 잘 공지된 종래의 시각 효과를 통해 수행될 수 있다. 본 발명의 바람직한 실시예는 다음 4가지 주요 요소를 포함한다:

1. 링크들. 링크는 2개의 실체들 또는 다른 특징들 사이의 물리적 관계를 정의한다. 예를 들면 비디오 세그먼트 news1.mpg에서의 프레임 12373 내의 폭=50, 높이 =60인 바운딩 박스(bounding box)의 좌표 x=150, y=20에서 중심에 배치된 대상(O1)은 비디오 세그먼트 news143.mpg의 프레임 1045에 링크된다.

2. 연관들. 연관은 일반적으로 2개의 실체들 또는 다른 특징들 사이에 생성된 대응하는 물리적 링크를 설명하는 정보를 포함한다. 예를 들면, 2개의 실체들, 예를 들면 주어진 배우의 얼굴 특징과 배우 이름이 언급된 비디오 클립 사이의 의미적 관계가 존재할 수 있다. 이러한 경우에, 연관은 링크가 어떻게 그리고 왜 생성되었는지를 설명하는 정보를 포함할 수 있다. 다른 실시예로써, 링크가 2개의 상이한 영화들로부터 2개의 비디오 세그먼트들 사이의 시각적 유사성에 기초하는 경우, 대응하는 연관은 유사성의 비율, 기간 등을 정의할 수 있다.

본 명세서에 사용된 바의 "연관"이라는 용어는 비디오 세그먼트의 주어진 특징과 다른 세그먼트 또는 다른 정보원의 관련된 특징 사이의 링크 또는 다른 관계를 식별하거나 또는 그렇지 않으면 특성화시키는 임의의 유형의 정보를 보다 일반적으로 의미하도록 의도된다. 예를 들면, 용도에 따라, 본 명세서에 광의로 정의된 바의 "연관"이라는 용어는 이미 기재된 물리적 링크 자체 이외의 어떠한 부가적 정보도 포함할 수 없다.

3. 2개의 관련 실체들 또는 다른 특징들을 접속시키기 위해 디스플레이하는 동안 변환 또는 상호 작용 모드. 예를 들면, 비디오 A의 프레임들에서 비디오 B로의 모핑(morphing), 링크된 텍스트의 오버레이, URL, 현재 비디오에 대한 영상 또는 해설 정보, 다른 윈도우의 디스플레이는 이후의 시청을 위한 관련 정보 등을 기억한다.

4. 콘텍스트, 사용자, 시간 등의 부가적 인자들. 현재 디스플레이되고 있는 프로그램, 즉 프로그램의 콘텐트 카테고리에 기초하여, 다른 콘텐트에 활성인 상이한 링크들이 존재할 수 있다. 예를 들면, 다큐멘터리 프로그램의 방송 중에, 백과 사전으로의 링크들이 활성화될 수 있다. 광고하는 동안, 관련 제품 또는 관련 가계로의 링크들이 활성화될 수 있다. 사용자의 배경, 예를 들면 연령, 성별, 관심들 등에 기초하여, 상이한 링크들이 활성화될 수 있다. 또한, 특정한 시간에 상호 작용 및 변환의 바람직한 모드는 기억된 사용자 기호도들에 기초하여 변화할 수 있다.

본 발명의 바람직한 실시예는 상기 기본 요소들 각각을 포함하더라도, 본 발명의 다른 실시예들은 이들 요소 모두 또는 부분 집합에 기초할 수 있다.

주어진 비디오 세그먼트와 1개 이상의 다른 비디오 세그먼트 또는 정보원 사이의 링크들을 설명하기 위해 사용된 상기 연관들은 다음을 포함하는 여러 가지 상이한 방식들로 생성될 수 있다:

1. 시각적 유사성. 연관들은 프레임들의 시각적 외관의 유사성에 기초하여 확립될 수 있다. 이러한 시각적 유사성은 예를 들면 컬러, 형상, 특정한 대상 유사성 또는 개념적 유형의 대상 유사성에 기초할 수 있고, 예를 들면 2차원, 2.5-차원, 즉, 컴퓨터 영상(vision) 또는 3차원일 수 있다. 연관들은 도 4와 관련하여 아래 보다 상세히 기재되는 것 등의 콘텐트-기반 특징 추출을 사용하는 경우에 결정될 수 있다. 비디오 시퀀스들 사이의 시각적 유사성을 추출하는 기술들에 관한 부가적 상세한 설명은 발명자들인 네벤카 디미트로바(Nevenka Dimitrova) 및 모하메드 아델-모탈레브(Mohamed Abdel-Mottaleb)의 1999년 2월 9일자로 발행된 "DC 및 동작 기호(motion signature)들을 사용하는 MPEG 압축된 시퀀스들의 비디오 검색"이라는 표제의 미합중국 특허 제5,870,754호에서 발견할 수 있다.

2. 장면 유사성. 예를 들면, 해변 장면은 유사한 해변 장면들과 비디오 세그먼트들의 링크를 제공하기 위해 사용될 수 있다. 이러한 경우의 연관은 예를 들면 특정한 비디오 장면들에 포함된 키워드들을 가진 용어사전(thesaurus)에 기초할 수 있다.

3. 사건 유사성. 예를 들면, 주어진 비디오 세그먼트의 결혼식은 결혼 비디오 세그먼트들에 대한 액세스를 링크할 수 있다. 사건 연관은 빠른 동작, 행동 또는 키워드들의 세트 등의 유사한 특징들을 사용함으로써 결정될 수 있다. 사건 연관은 예를 들면 하위 레벨의 특징, 및 개념들로 나타낸 의미적 특징들의 조합을 사용하여 확립될 수도 있다.

4. 텍스트 유사성. 연관들은 예를 들면 텍스트 전사 또는 타이틀 크레딧들에서 인식된 캐릭터들을 통해 확립될 수 있다. 이러한 경우의 연관은 예를 들면 통계학적 텍스트 색인 방법들을 사용하여 유도될 수 있다. 다른 예로써, 연관들은 평범한 키워드들을 사용하거나 또는 키워드가 그의 가장 근접한 개념들과 연관된 경우 개념 용어사전을 사용하여 유도될 수 있다.

5. 구어 유사성. 특정한 종류의 구어 또는 소리와 연관된 특정한 개념은 유사한 단어 또는 소리를 갖는 다른 비디오 세그먼트에 대한 링크를 제공할 수 있다. 이러한 경우에, 스피치-텍스트 변환은 실제 링크들이 구어 자체들에 기초한 것일 수 있더라도, 연관들을 확립하기 위한 기준으로서 사용될 수 있다.

6. 음성 유사성. 특정한 배우 또는 명사의 음성의 특성들이 동일하거나 또는 유사한 음성을 포함하는 다른 비디오 세그먼트와의 링크를 제공하기 위해 사용될 수 있다. 다른 실시예로써, 특수 에너지, 대역폭, 피치 또는 다른 특성으로 특성화된 청각적 이벤트는 다른 유사한 청각적 이벤트들과의 링크를 제공하기 위해 사용될 수 있다.

7. 다중 유형들. 상기 연관의 조합들 역시 사용될 수 있다. 예를 들면, 자연 영화의 비디오 세그먼트에서 붉은 색 및 "협곡(canyon)"이라는 단어가 조합된 흐르는 물소리는 하이킹 여행들의 비디오 세그먼트에 또는 하이킹 장비의 웹 페이지에 링크를 제공할 수 있다. 다른 실시예로써, 주어진 비디오 세그먼트에서 특정한 배우의 얼굴을 클릭하거나 또는 그렇지 않으면 선택하는 사용자는 배우의 성명을 제공받아 그 배우의 개인적인 웹 페이지에 링크할 수 있다.

8. 연관 유사성. 비디오 A 및 비디오 B가 비디오 C에 대해 유사한 연관들을 갖는 경우, 비디오들 A 및 B는 각각 비디오 A 및 B(또는 이들 연관의 적절한 조합 또는 부분 집합)로부터 모든 연관을 물려받을 수 있다.

상기 연관들을 수행하는 데 있어서 1차원 또는 다차원 특징 벡터들을 연산하기 위해 잘 공지된 특징 추출 방법들이 사용될 수 있다. 예를 들면, 본 발명은 특징 분류 및 클러스터링을 위한 종래 방법 뿐만 아니라 비디오 특징들 간의 연관들을 결정하기 위한 유사성 연산(또는 거리 연산, 여기서 거리 = 1-유사성)을 위한 방법을 이용할 수 있다. 비디오 및 오디오 유사성의 경우에, 본 발명은 L1, L2, 카이-스퀘어(chi-square)등의 표준 거리 척도들을 사용하여 특징 벡터들을 추출하고 유사성을 연산할 수 있다. 프레임 유사성은 1999년 일본 고오베에서 개최된 영상 처리에 대한 IEEE 국제 컨퍼런스의 N. 디미트로바, J. 마르티노, L. 아그니호트리 및 H. 엘렌바스의 "비디오 표시를 위한 컬러 수퍼-히스토그램"들에 기재된 기술을 사용하는 프레임 히스토그램에 기초하여 연산될 수 있다. 불연속 코사인 변환 계수들을 사용하여 프레임 유사성을 결정하는 다른 공지된 방법은 1997년 11월의 정보 및 지식 관리에 대한 ACM 컨퍼런스의 회보에서 N. 디미트로바, T. 맥기 및 H. 엘렌바스의 "비디오 키프레임 추출 및 필터링: 키프레임은 만인에 대한 키프레임은 아니다"에 기재되어 있다.

아래 보다 상세히 기재되는 바와 같이, 이들 연관들 및 대응하는 링크들에 관한 정보는 예를 들면 디지털 비디오 스트림의 일부로서 수행될 수 있거나 또는 별개의 데이터베이스 또는 다른 유형의 시스템 메모리에 기억될 수 있다.

본 발명에 따라, 각각의 비디오 세그먼트는 하이퍼문서로 고려될 수 있다. 예를 들면, 이미지들에서 나타나는 텍스트는 백과사전에 대한 링크로서 또는 온라인 신문 또는 다른 정보원에 대한 질문으로서 취급될 수 있다. 주어진 비디오 세그먼트 내의 임의의 정지하거나 또는 움직이는 대상은 다른 비디오 세그먼트 또는 정보원에 링크될 수 있다. 예를 들면, 특정한 배우의 영상을 포함하는 현재 시청중인 비디오 세그먼트로부터, 사용자는 그 배우와 연관된 다른 비디오 세그먼트를 액세스할 수 있다. 유사한 방식으로, 현재 시청중인 비디오 세그먼트의 모든 다른 실체들, 사건들, 현재 스토리들 또는 다른 특징들은 관련된 특징을 포함하는 다른 비디오 세그먼트들 또는 정보원들에 링크될 수 있다. 이들 링크들은 예를 들면 영화의 특정한 캐릭터가 다른 영화들, 문서들 등에 축적된 바의 캐릭터의 모든 다른 경험들 또는 "메모리들"과 연관시킬 수 있다.

도 2는 본 발명의 예시적인 실시예에서 비디오 세그먼트들 사이의 링킹의 일 예를 보여준다. 도 2의 실시예는 비디오 A, 비디오 B, 비디오 C 및 비디오 D로 나타낸 4개의 서로 연관된 비디오 세그먼트들을 포함한다. 각각의 비디오 세그먼트는 다수의 프레임들(20)을 포함한다. 본 발명에 따라, 링크는 주어진 비디오 세그먼트에서 특정한 프레임들과 다른 비디오 세그먼트에서 다른 유사한 프레임들 사이에 확립된다. 보다 상세하게는, 비디오 B의 프레임(20-1)은 프레임들 사이의 시각적 유사성, 예를 들면 각각의 프레임에서 하우스(house)의 존재에 기초하여 비디오 A의 유사한 프레임들(20-2), 비디오 C의 (20-3) 및 비디오 D의 (20-4)에 링크된다. 유사한 방식으로, 비디오 B의 프레임(20-5)은 다시 프레임들 사이의 시각적 유사성, 예를 들면 각각의 프레임에서 동일한 배우 또는 다른 개인의 존재에 기초하여 비디오 C의 유사한 프레임(20-6)에 링크된다.

본 명세서에 사용된 "비디오 세그먼트"는 주어진 비디오 신호의 오디오 부분을 포함하여 프레임들의 세트 또는 비디오 신호의 임의의 다른 부분을 포함하도록 의도되는 것에 주의해야 한다. 상이한 비디오 세그먼트들은 상이한 비디오 신호들의 일부들일 수 있지만 반드시 그럴 필요는 없다. 예를 들면, 도 2에 예시된 2개 이상의 비디오 세그먼트들은 동일한 비디오 신호의 구별된 부분들을 나타낼 수 있다.

도 3은 본 발명에 따라 비디오 세그먼트들 사이의 링킹을 수행하기 위해 이용될 수 있는 사용자 인터페이스의 일 예를 보여준다. 상기 실시예에서, 비디오 프레임(30)은 메인 윈도우(32) 및 메인 윈도우(32) 둘레에 배열된 윈도우(34) 등의 많은 2차적인 윈도우들을 포함한다. 본 발명에 따라, 프레임(20)의 각각의 2차 윈도우들은 메인 윈도우(32)의 디스플레이에 일부 관련이 있다. 이들 관계들은 프레임 (30)내에 작은 화살표들로 나타난다. 예를 들면, 윈도우(34)는 메인 윈도우(32)에 나타나는 동일한 사회자의 이미지를 포함한다. 상기 이미지는 동일한 사회자에 의한 서로다른 뉴스 방송의 다른 비디오 세그먼트의 프레임일 수 있다.

사용자는 시스템(10) 내에 적절한 선택 명령을 도입함으로써 윈도우(34)에 대응하는 비디오 세그먼트에 링크할 수 있으므로, 현재 디스플레이되고 있는 비디오 세그먼트는 프레임(30)의 2차 윈도우(34)에 이미 디스플레이된 프레임(36)을 포함하는 세그먼트로 된다. 많은 다른 유형의 사용자 인터페이스 배열들은 본 발명에 따라 주어진 비디오 세그먼트와 다른 비디오 세그먼트들 또는 정보원들 사이에 링킹을 제공하기 위해 사용될 수 있음을 인식해야 한다. 예를 들면, 링크는 시각적, 청각적 또는 개념적 연관에 기초할 수 있기 때문에, 인터페이스는 다양한 포인팅 장치, 예를 들면 원격 조정, 마우스 또는 다른 포인트 앤 클릭 장치에 의해 조절되는 온스크린 화살표들을 수용하기 위해 여러 가지 상이한 방식들로 디스플레이될 수 있다.

도 4는 예를 들면 시각적 유사성에 기초한 연관들과 관련하여 앞서 이미 기재한 바와 같이, 다른 비디오 세그먼트들과의 연관이 본 발명의 기술들을 사용하여 주어진 비디오 세그먼트로부터 추출될 수 있는 방식을 예시한다. 입력된 비디오는 먼저 종래의 비디오 컷(cut) 검출 모듈(40)로 처리되고, 그의 오퍼레이션은 당업계에 잘 공지되어 있다. 컷 검출 모듈(40)의 관련 출력은 연관들을 형성하기 위해 사용될 의미론적으로(semantically) 의미있는 특징을 추출하기 위해 추가로 처리될 수 있다. 주어진 비디오 세그먼트의 각각의 프레임은 일반적으로 컬러, 텍스춰, 형상들 등에 기초한 비디오 특징 세트로 특성화된다. 비디오 세그먼트의 프레임들의 영역들은 이들 특징들을 검출하기 위해 처리된다.

이 실시예의 비디오 특징 검출은 프레임 특성화(41), 얼굴 식별(42) 및 대상 식별(43)에 기초한다. 이어서, 검출된 특징들은 규칙 데이터베이스(45)에 기억된 의미적 연관 규칙들을 사용하여 연관 엔진(44)에서 처리된다. 예를 들면, 데이터베이스(45)에서 연관 규칙들 중의 주어진 것은 얼굴 A, 예를 들면 특정한 배우 또는 명사의 얼굴이 비디오 X에서 프레임 V와 연관될 것임을 나타낸다. 이어서, 1개 이상의 다른 비디오 세그먼트들은 동일한 특징을 검출하기 위해 유사한 방식으로 처리된다. 연관 엔진(44)의 출력은 연관들(48)의 인덱스에 기억된 1개 이상의 연관들이고, 특정한 비디오 특징이 나타나는 다중 비디오 세그먼트의 프레임을 나타낸다.

규칙 데이터베이스(45)에서 의미적 연관 규칙은 얼굴 특징, 예를 들면 주어진 소위 고유의 얼굴 벡터를 특정한 개인의 성명과 어떻게 연관시킬지를 설명하는 정보를 포함할 수 있다. 이들 규칙은 학습 알고리즘, 예를 들면 뉴럴 네트워크 (neural network)들을 통해 시간이 경과함에 따라 진화 및 변화될 수 있다. 이러한 경우에, 초기 규칙 세트는 시스템이 셋업될 때 시스템 설계자에 의해 확립될 수 있거나, 이 시스템은 일단 얼굴 및 성명 정보의 충분한 데이터베이스가 축적되면 자신의 연관 상에 새로운 얼굴-성명 연관을 부가할 수 있다.

도 5에 예시된 유사한 시도는 음악, 친숙한 음성 및 언어 연관 등의 오디오 특징들에 기초한 연관들을 추출하기 위해 사용될 수 있다. 이러한 경우에, 입력된 비디오는 그의 오디오 부분을 단일 음성 스피치, 다중 음성 스피치, 음악, 침묵 및 잡음 등의 카테고리들로 세그먼트화하기 위해 오디오 특성화 모듈(50)에서 처리된다. 주어진 비디오 세그먼트의 각각의 프레임은 일반적으로 멜(mel)-주파수 셉스트럼 (cepstrum) 계수들(MFCC), 푸리에 계수들, 기본 주파수, 대역폭 등의 오디오 특징들의 세트로 특성화된다. 비디오 세그먼트의 프레임들은 이들 오디오 특징을 검출하기 위해 처리된다.

이 실시예에서 오디오 특징 검출은 음악 세그먼트 기호(signature) 추출 (51), 스피커 식별(52) 및 전사 식별(53)에 기초한다. 이어서, 검출된 오디오 특징들은 의미적 관련 규칙들 데이터베이스(45)로부터 규칙과 검출된 오디오 특징을 매치시키고자 시도하는 매칭 오퍼레이션(54)으로 처리된다. 예를 들면, 데이터베이스(45)에서 의미적 연관 규칙 중의 소정의 하나는, 음성 A, 예를 들면 특정한 배우 또는 명사의 음성이 비디오 Y에서 프레임 C와 연관됨을 나타낸다. 이어서, 1개 이상의 다른 비디오 세그먼트들은 동일한 오디오 특징들을 검출하기 위해 유사한 방식으로 처리된다. 매칭 오퍼레이션(54)의 출력은 연관들(48)의 인덱스에 기억된 1개 이상의 부가적 연관들이고, 이는 특정한 오디오 특징이 출현하는 다중 비디오 세그먼트의 프레임을 나타낸다.

도 6은 예를 들면 도 4 및 5에 기재된 방식으로 결정된 연관에 기초하여, 본 발명의 예시적인 실시예에서 실행 시간 링킹 및 스위칭을 예시한다. 사용자가 주어진 비디오 세그먼트, 즉, 비디오 X를 시청할 때, 실행 시간(run-time) 그래픽스 환경(60)은 사용자의 행동들을 모니터한다. 비디오 세그먼트의 대상이 "활성화"되는 경우, 예를 들면 사용자에 의해 클릭되거나 또는 그렇지 않으면 선택되는 경우, 이러한 작용은 검출 오퍼레이션(62)에서 검출된다. 이어서, 연관들(48)의 인덱스는 행동 연관 규칙들(65)의 데이터베이스에 기초하여 대상 및 적절한 비디오 스위칭 작용(64)이 수행되는 것을 찾는다. 예를 들면, 연관들(48)의 인덱스가 비디오 X에서 선택된 대상과 유사한 다른 비디오 세그먼트, 예를 들면 유사한 프레임 콘텐트를 갖는 유사한 비디오 세그먼트 비디오 Y가 존재함을 나타내는 경우, 그 작용은 현재 시청중인 비디오 X를 비디오 Y로 이형시키는(morph) 것일 수 있다. 따라서, 이 시스템은 비디오 X에서 사용자가 선택한 대상에 기초하여 비디오 Y로 스위칭된다. 상기한 바와 같이, 비디오 세그먼트의 한 장면, 즉 비디오 X로부터 다른 장면, 즉 비디오 Y로의 원활한 전이는 이미지 모핑 등의 잘 공지된 종래의 시각적 효과를 통해 수행될 수 있다.

도 6에 예시된 바의 실행 시간 링킹 및 스위칭이 능동 모드 또는 수동 모드로 수행될 수 있음을 인식해야 한다. 능동 모드에서, 링킹 및 스위칭은 사용자, 예를 들면 비디오 세그먼트에서 주어진 특징을 클릭하거나 또는 그렇지 않으면 선택한 사용자들에 의해 능동적으로 이루어진 실제 선택에 기초한다. 수동 모드에서, 비디오 세그먼트 자체에 포함되거나 또는 시스템의 다른 부분에 기억된 실마리 또는 다른 적절한 정보 식별자들은 예를 들면 PIP 또는 다른 디스플레이 윈도우에 디스플레이를 위해 링크된 정보의 검색을 자동으로 활성화시키기 위해 사용될 수 있다.

본 발명의 다른 실시예들에서, 현재 시청중인 비디오 세그먼트와 다른 비디오 세그먼트 또는 정보원 사이에 스위치될 필요가 없다. 예를 들면, 선택된 링크가 텍스트 형태의 정보에 대한 것인 경우, 그 정보는 오버레이 모드, 예를 들면 비디오로, 선택된 대상 위로 또는 임의의 형상의 개별 박스로 디스플레이될 수 있다. 이러한 유형의 하나의 특정한 수행에서, 선택된 링크는 인터넷 또는 다른 네트워크 상으로 이용될 수 있는 1개 이상의 하이퍼텍스트 문서의 검색을 시작할 수 있다. 다른 실시예로서, 선택된 링크가 청각적 정보에 관한 것인 경우, 청각적 정보는 현재 시청중인 비디오 세그먼트의 오디오 신호와 혼합될 수 있거나 또는 텍스트 포맷으로 전사되고 비디오 세그먼트를 따라 디스플레이될 수 있다. 또한, 링크가 다른 비디오 세그먼트에 관한 것인 경우, 이들 세그먼트는 현재 시청중인 비디오 세그먼트에 대한 대체물이기보다는 오히려 현재 시청중인 비디오 세그먼트와 동시에 별개의 디스플레이 윈도우, 예를 들면 화상-인-화상(picture-in-picture)(PIP) 윈도우로 디스플레이될 수 있다.

본 발명의 특정한 수행들에 관한 부가적 상세한 설명은 이하 기재될 것이다. 본 발명에 따라, MPEG 비디오 비트스트림 또는 다른 유형의 비디오 세그먼트는 이 비디오 세그먼트의 프레임들과 다른 비디오 세그먼트들의 프레임들 사이의 유사성 수치들 또는 다른 정보를 연관시키는 연관들에 의해 증강될 수 있다. 이들 연관들을 사용자 데이터 필드의 MPEG 비트스트림 또는 수송 스트림에 삽입할 수 있다. 상기 강화된 비트스트림 수행에서, 비디오 인코더는 사용자 데이터 필드의 지정된 코드에 직면할 때마다 적절히 구성된 데자비디오 실행 엔진에 대한 호출을 수행한다. 그러한 실행 엔진은 사용자 입력들들에 따르고 수용하고, 사용자가 선택한 바의 링크들에 대한 액세스를 실행하고, 선택된 링크들의 정보의 디스플레이를 수행하는 간단한 방식으로 수행될 수 있다. 비-MPEG 스트림들에 대해, 연관들을 포함하는 수송층은 비디오 세그먼트 둘레에 생성될 수 있다.

다른 가능한 수행은 연관들, 상호 작용 방식 및 새로운 콘텐트, 즉, 특정한 링크에 의해 식별된 목적 콘텐트의 디스플레이 방식을 포함하는 별개의 데이터베이스를 생성하는 것을 포함한다. 비디오 재생 중에, 일시적인 카운터 기준은 대응한 프레임들 중에서만 특정한 명령들 또는 링크들을 인에이블시키는 일시적인 마스크를 제공하기 위해 대응하는 링크에 관하여 계속될 수 있다. 그러한 수행에서, 링크들에 의해 식별되는 유용한 비디오 세그먼트들 또는 다른 정보원은 데이터베이스에 기억될 수 있거나, 또는 URL 또는 다른 적당한 식별자에 의해 액세스할 수 있는 원격 기계 상들에 기억될 수 있다.

따라서, 본 발명에 따라 구성된 주어진 비디오 세그먼트는 상기 연관들; 포인팅 방식, 즉, 비디오 세그먼트에서 대상들 또는 다른 특징들을 선택하는 방법; 링크된 정보의 디스플레이 방법; 링크된 정보의 변환 방법, 즉, 오버레이, PIP 등; 저중량 타겟, 예를들면 텍스트 또는 웹 페이지를 위한 위치 지정기들, 및 큰 중량 타겟들, 예를 들면 다른 비디오 세그먼트들을 위한 위치 지정기, 및 사용자, 예를 들면 사용자 프로필, 위치, 시간, 기호도들 등에 관한 부가적 정보에 기초한 링크를 결정하는 데 있어서 연관에 의해 사용하기 위한 배경 기능 등의 정보를 포함할 수 있다.

본 발명의 링킹 기술들은 비디오 탐색 및 브라우징, 뿐만 아니라 콘텐트 생성, 예를 들면 비디오 편집 소프트웨어, 게임들 등의 용도에 사용하기에 특히 적절하다. 다음은 본 발명이 이용될 수 있는 특정한 비디오 처리 용도의 예이다:

1. 콘텐트 저작(authoring) 기구. 그러한 기구는 어떠한 적절한 원시 척도도 존재하지 않는 경우조차 현존하는 재료로부터 비디오 재료를 생성하고, 상이한 환경에서 비디오 대상물에 대한 액세스를 제공하기 위해 사용된다.

2. 비디오 액세스. 본 발명은 텔레비전 브라우징, 서핑 및 다른 유형의 비디오 액세스 기술들에 사용될 수 있다. 예를 들면, 사용자는 현재 시청중인 비디오 세그먼트, 예를 들면 현재 시청중인 비디오 세그먼트에서 목적하는 특정한 장면과 유사한 장면을 포함하는 모든 다른 영화들 또는 프로그램들에 관한 정보의 광대한 어레이를 액세스하기 위해 확립된 링크를 이용할 수 있다. 본 발명은, 액세싱 정보가 상당히 용이하도록 비디오와 다른 정보 콘텐트 사이의 상호 작용 관계를 제공한다.

3. 비디오 보관소 탐색. 본 발명은 장르, 감독, 배우, 사건들, 장면들 등의 특징들에 기초하여 비디오 가게들, 필름 보관소들 또는 다른 유형의 비디오 보관소들에서 비디오들을 링크하기 위해 사용될 수 있다. 링크들은 대여될 수 있는 다른 비디오들 또는 특정한 배우들 또는 영화 팬 그룹들과 연관된 웹 페이지들 등의 다른 정보 채널로 사용자를 유도할 수 있다.

4. 웹에 기초한 비디오 브라우징. 본 발명은 현재 시청중인 비디오 세그먼트의 링크된 대상들에 기초한 웹 문서들에 액세스하기 위해 사용될 수 있다.

5. 교육 기구. 교육적인 비디오를 시청하면서, 어린이들은 개념적으로 관련된 정보에 따라 특정한 대상을 클릭하고 유사한 비디오들 또는 웹 페이지들을 검색할 수 있다.

본 발명은 종래의 비디오 처리 시스템들에 비해 많은 장점들을 제공한다. 예를 들면, 본 발명은 주어진 비디오 세그먼트의 대상들, 실체들, 특성들 또는 다른 특징과 연관된 광범위한 정보에 대한 동시 액세스를 제공할 수 있다. 또한, 링크들은 동적이고, 예를 들면, 링크들은 주어진 비디오 세그먼트 내에서 출현하거나, 사라지거나 또는 그렇지 않으면 변화할 수 있다. 다른 링크들은 전체 세그먼트, 예를 들면 표제, 감독, 스타일, 장르 등의 텍스트 링크들 전반에 이용될 수 있다.

다른 장점은, 주어진 링크가 파일 또는 문서의 어드레스 또는 물리적 위치에 따라 URL을 단순화시키기보다는 오히려 링크 자체의 특성에 관한 정보를 포함할 수도 있다는 것이다. 예를 들면, 특정한 지리적 영역에 관한 다큐멘터리 영화에서, 사용자는 예를 들면 주어진 프레임의 배경의 맵을 가리킴으로써 인구, 출생률, 또는 간결한 역사에 관한 정보를 얻을 수 있다.

부가적 장점은 상이한 링크들이 콘텍스트, 사용자, 시간, 위치 등의 요인에 기초하여 발생될 수 있다는 것이다. 예를 들면, 어린이 및 성인에 대한 링크들은 완전히 상이할 수 있다.

더욱이, 링크들은 주어진 비디오 세그먼트에서 m개의 대상들, 실체들, 특성들 또는 다른 특징들과 m개의 특징들로부터 액세스될 수 있는 n개의 비디오 세그먼트 또는 다른 정보원들 사이의 m:n 매핑을 수행하기 위해 사용될 수 있다. 이는 종래의 하이퍼미디어 문서들의 전형적인 1:1 매핑에 비해 현저히 개선된 것이다.

본 발명의 상기 실시예들은 단지 예시적으로 의도된 것이다. 예를 들면, 본 발명은 임의의 목적하는 유형의 비디오 처리 시스템 또는 장치, 및 본 명세서에 기재된 것 이외의 많은 용도들의 다른 유형의 비디오 링킹을 수행하기 위해 사용될 수 있다. 본 발명은 종래의 전자, 자기 또는 광학적 기록 매체 또는 다른 유형의 메모리에 기억된 1개 이상의 소프트웨어 프로그램의 형태로 적어도 일부 수행될 수 있고, 적절한 마이크로프로세서, 중앙 처리 장치, 용도 특정한 집적 회로(ASIC) 또는 다른 유형의 처리기에 의해 실행될 수 있다. 예를 들면, 그러한 프로그램들은 도 1의 시스템(10)에서 메모리(16)에 기억될 수 있고 처리기(15)에 의해 실행될 수 있다. 하기 특허 청구의 범위에 속하는 이들 실시예 및 다른 많은 실시예들이 당업계의 숙련자들에게 명백할 것이다.

Claims

비디오 처리 방법에 있어서,

특정한 특징(feature)을 포함하는 제 1 비디오 세그먼트(20-1, 20-5, 32)와, 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(information source)(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관(association)을 결정하는 단계; 및

상기 제 1 비디오 세그먼트내의 상기 특징의 사용자에 의한 선택에 적어도 부분적으로 기초하는 상기 부가적 정보원으로부터 정보를 디스플레이하기 위해 상기 연관을 이용하는 단계를 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 결정 단계는 메모리(16)로부터 상기 연관을 검색하는 단계를 더 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 결정 단계는 상기 비디오 세그먼트의 일부의 정보로부터 상기 연관을 결정하는 단계를 더 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 부가적 정보원은 상기 특징을 또한 포함하는 부가적 비디오 세그먼트를 포함하는, 비디오 처리 방법.
제 4 항에 있어서,

상기 이용 단계는 상기 제 1 비디오 세그먼트의 디스플레이로부터 상기 특징을 또한 포함하는 상기 부가적 비디오 세그먼트의 디스플레이로 스위칭하는 단계를 포함하는, 비디오 처리 방법.
제 4 항에 있어서,

상기 이용 단계는 상기 제 1 비디오 세그먼트의 적어도 일 부분을 또한 포함하는 디스플레이의 분리된 부분내에 상기 부가적 비디오 세그먼트를 적어도 부분적으로 디스플레이하는 단계를 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 특징은 상기 비디오 세그먼트의 적어도 한 프레임으로부터 추출된 비디오 특징인, 비디오 처리 방법.
제 7 항에 있어서,

상기 비디오 특징은 프레임 특성, 얼굴 식별, 장면 식별, 사건 식별 및 대상물 식별 중의 적어도 하나를 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 특징은 상기 비디오 세그먼트의 적어도 하나의 프레임으로부터 추출된 오디오 특징인, 비디오 처리 방법.
제 9 항에 있어서,

상기 이용 단계는 상기 오디오 특징에 대응하는 오디오 신호를, 상기 제 1 비디오 세그먼트와 관련되거나 또는 텍스트 포맷으로 전사되어 상기 비디오 세그먼트와 함께 디스플레이된 오디오 신호와 결합시키는 단계를 포함하는, 비디오 처리 방법.
제 9 항에 있어서,

상기 이용 단계는 상기 오디오 특징에 대응하는 오디오 신호를 상기 제 1 비디오 세그먼트로 디스플레이되는 텍스트 포맷으로 변환시키는 단계를 포함하는, 비디오 처리 방법.
제 9 항에 있어서,

상기 비디오 세그먼트의 적어도 일부를 그로부터 상기 오디오 특징을 추출하기 위해 단일 음성 스피치, 다중 음성 스피치, 음악, 침묵 및 잡음중 하나 이상을 포함하는 오디오 카테고리들로 분리하는 단계를 더 포함하는, 비디오 처리 방법.
제 9 항에 있어서,

상기 오디오 특징은 음악 기호(music signature) 추출, 스피커 식별 및 전사(transcript) 추출중 적어도 하나를 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 특징은 상기 비디오 세그먼트의 적어도 한 프레임으로부터 추출된 텍스트 (textual) 특징인, 비디오 처리 방법.
제 14 항에 있어서,

상기 이용 단계는 상기 텍스트 정보에 대응하는 정보를, 상기 제 1 비디오 세그먼트의 디스플레이 상의 오버레이 (overlay)로서 디스플레이하는 단계를 포함하는 , 비디오 처리 방법.
제 1 항에 있어서,

상기 결정 단계는 특징 추출 기술을 사용하여 상기 비디오 세그먼트의 일부로부터 추출된 적어도 하나의 다차원 특징 벡터에 적어도 부분적으로 기초하는 상기 연관을 결정하는 단계를 더 포함하는, 비디오 처리 방법.
제 1 항에 있어서,

상기 결정 단계는 유사성 측정 및 클러스터링(clustering) 기술 중 적어도 하나에 적어도 부분적으로 기초하는 상기 연관을 결정하는 단계를 더 포함하는, 비디오 처리 방법.
비디오 처리 장치에 있어서,

특정한 특징을 포함하는 제 1 비디오 세그먼트(20-1, 20-5, 32)와 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관을 기억하기 위한 메모리(16); 및

상기 메모리에 결합되고, 상기 제 1 비디오 세그먼트내의 상기 특징의 사용자에 의한 선택에 적어도 부분적으로 기초하는 상기 부가적 정보원으로부터 정보의 디스플레이를 지시하기 위해 상기 연관을 이용하도록 작동하는 처리기(15)를 포함하는, 비디오 처리 장치.
비디오 처리 장치에 있어서,

(i) 특정한 특징을 포함하는 제 1 비디오 세그먼트(20-1, 20-5, 32)와 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관을 결정하고;

(ii) 상기 제 1 비디오 세그먼트내의 특징의 사용자에 의한 선택에 적어도 부분적으로 기초하는 상기 부가적 정보원으로부터 정보를 디스플레이하기 위해 상기 연관을 이용하도록 동작하는 처리기(15)를 포함하는, 비디오 처리 장치.
하나 이상의 소프트웨어 프로그램들을 포함하는 기계-판독가능 매체를 포함하는 제조 물품에 있어서,

상기 프로그램은 실행시:

특정한 특징을 포함하는 제 1 비디오 세그먼트(20-1, 20-5, 32)와 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관을 결정하는 단계; 및

상기 제 1 비디오 세그먼트내의 특징의 사용자에 의한 선택에 적어도 부분적으로 기초하는 상기 부가적 정보원으로부터 정보를 디스플레이하기 위해 상기 연관을 이용하는 단계를 수행하는, 기계-판독 가능 매체를 포함하는 제조 물품.
비디오 처리 방법에 있어서,

제 1 비디오 세그먼트(20-1, 20-5, 32) 일부의 정보로부터, 상기 제 1 비디오 세그먼트의 특정한 특징과 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관을 결정하는 단계; 및

상기 부가적 정보원으로부터 정보를 디스플레이하기 위해 상기 연관을 이용하는 단계를 포함하는, 비디오 처리 방법.
비디오 처리 장치에 있어서,

(i) 제 1 비디오 세그먼트(20-1, 20-5, 32) 일부의 정보로부터, 상기 제 1 비디오 세그먼트의 특정한 특징과 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관을 결정하고,

(ii) 상기 부가적 정보원으로부터 정보를 디스플레이하기 위해 상기 연관을 이용하도록 동작하는 처리기(15)를 포함하는, 비디오 처리 장치.
하나 이상의 소프트웨어 프로그램들을 포함하는 기계-판독가능 매체를 포함하는 제조 물품에 있어서,

상기 프로그램은 실행시:

제 1 비디오 세그먼트(20-1, 20-5, 32) 일부의 정보로부터, 상기 제 1 비디오 세그먼트의 특정한 특징과 상기 특징을 또한 포함하는 적어도 하나의 부가적 정보원(20-2, 20-3, 20-4, 20-6, 34) 사이의 연관을 결정하는 단계; 및

상기 부가적 정보원으로부터 정보를 디스플레이하기 위해 상기 연관을 이용하는 단계를 수행하는, 기계-판독 가능 매체를 포함하는 제조 물품.