KR20020059706A

KR20020059706A - 저장 매체상에 저장된 정보 신호를 재생하는 장치

Info

Publication number: KR20020059706A
Application number: KR1020027005913A
Authority: KR
Inventors: 바르비에리마우로
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-09-08
Filing date: 2001-09-05
Publication date: 2002-07-13
Also published as: CN1394342A; EP1319230B1; DE60140755D1; JP5005154B2; US6957387B2; JP2004508756A; EP1319230A1; ATE451691T1; US20030020743A1; WO2002021529A1; CN100392749C

Abstract

본 발명은 제 1 저장 매체(4)상에 저장된 정보 신호를 재생하기 위한 장치에 관한 것이다. 이 장치는 제 1 저장 매체로부터 정보 신호를 판독하기 위한 판독 유닛(2)과, 정보 신호를 디스플레이 유닛으로 공급하기 위한 출력 유닛(6)과, 정보 신호를 사용자가 액세스할 수 있도록 명령들을 수신하기 위한 사용자 제어가능 입력 유닛(8)을 포함한다. 사용자 제어가능 입력 유닛은 임의의 순간에 제 1 명령을 수신하도록 적용된다. 상기 장치는 상기 제 1 명령에 응답하여 제 2 위치에서 상기 저장 매체로부터 정보 신호를 판독하기 시작하도록 상기 판독 유닛을 제어하기 위한 유닛(10)을 더 포함하며, 상기 제 2 위치에 있는 정보 신호는 상기 제 1 명령의 수신 순간에 판독된 제 1 위치에 있는 정보 신호의 특징들과 유사성을나타내거나, 또는, 상기 순간 이전에 판독된 정보 신호의 특징들과 유사성을 나타내는 특징들을 가진다.

Description

저장 매체상에 저장된 정보 신호를 재생하는 장치{An apparatus for reproducing an information signal stored on a storage medium}

통상적으로, 비디오는 기본 VHS 테이프 기능, 즉, 재생, 빨리 감기 및 되감기를 사용하여 선형적 방식으로 액세스 및 시청된다.

하드 디스크들에 기반한 비디오 레코더들이 급속하게 출시되고 있다. 이들은 저장된 정보의 양을 현저히 증가시키며, 이는 임의적으로 액세스될 수도 있다. 빨리 감기 및 되감기 같은 통상적인 VCR 기능들은 이 특성을 활용하지 못하며, 사용자들이 비디오 내용을 신속하게 브라우징하는 것을 돕지도 못한다.

현재의 경향은 오디오 비디오 정보와 함께, 내용의 설명을 제공하는 것이다(이번 국제 표준 MPEG-7은 멀티미디어 컨텐츠를 위한 기술자(descriptor)들의 표준 세트를 생성하는 것을 목적으로 한다). 이 설명은 가정 사용자들이 수 시간의 기록된 프로그램들 내에서 신속하고 효과적으로 검색하는 것을 가능하게 하는 방식으로 활용되어야만 한다. 주된 논점은 사용자-시스템 상호작용이다. 그러나, 사용이 편리하면서, 직관적인 도구들은 키보드 기반 검색을 수행하는 것에 한정되어 있다.

현재까지, 빨리 감기 및 되감기는 테이프 또는 디스크 매체상에 기록된 비디오물을 브라우징 및 액세스하기 위한, 가장 대중적인, 사용이 용이한 도구들이다. 그러나, 가전 기기들내에 저장될 수 있는 멀티미디어 데이터의 극적인 증가로 인해 이들은 부적합해져가고 있다.

본 발명은 제 1 저장 매체상에 저장된 정보 신호를 재생하기 위한 장치에 관한 것으로, 상기 장치는,

- 제 1 저장 매체로부터 정보 신호를 판독하기 위한 판독 수단과,

- 정보 신호를 디스플레이 유닛에 공급하기 위한 출력 수단과,

- 사용자가 정보 신호를 액세스하는 것을 가능하게 하기 위해 명령들을 수신하기 위한 사용자 제어가능 입력 수단을 포함한다.

또한, 본 발명은 저장 매체상에 저장된 정보 신호를 재생하는 방법, 컴퓨터 프로그램 및 상기 컴퓨터 프로그램을 담고 있는 유형 매체 및 신호에 관한 것이다.

도 1은 본 발명에 따른 장치의 실시예를 도시하는 도면.

도 2는 다음 유사 영상으로 건너뜀 기능을 수행할 수 있도록 취해지는 단계들을 도시하는 도면.

도 3은 8개의 상이한 색상들의 시각적 항목을 사용하는 추출 절차를 예시하는 도면.

도 4는 본 발명에 따른 장치의 다른 실시예를 도시하는 도면.

본 발명의 목적은 그림들이나 슬라이드 쇼 같은 영상들을 가진 수시간의 기록된 프로그램들 또는 데이터베이스들 같은 비디오물내에서 신속하고 유효하게 검색하기에 적합한 사용이 용이하면서 직관적인 다른 도구를 제공하는 것이다.

본 발명에 따른 장치는 사용자 제어가능 입력 수단이 임의의 순간에 제 1 명령을 수신하도록 적응되는 것을 특징으로 하며, 이 장치는 정보 신호내에 위치된 제 2 위치에서 상기 저장 매체로부터의 정보 신호를 판독하기 시작하도록 상기 판독 수단을 제어하기 위한 수단을 더 포함하고, 제 2 위치에 있는 정보 신호는 상기 순간 이전에 판독된 정보 신호의 일부 또는 상기 제 1 명령을 수신하는 상기 순간에 판독된 제 1 위치에 있는 정보 신호와 유사성을 나타낸다.

본 발명은 하기의 인식에 기반한다. 뉴스 프로그램들, 토크쇼, 기상 예보 같은 다수의 프로그램들은 매우 빈번하게 방송된다. 이런 종류의 프로그램들에서, 영상들의 배경은 거의 동일하다. 부가적으로, 동일한 사람이 프로그램에서 연기한다. 뉴스 프로그램에서는 일반적으로 뉴스 항목들의 변경 동안 방송자가 보여진다. 방송자가 존재하는 영상을 검색함으로써, 다음 뉴스 아이템으로 건너뛰는 것이 가능하다. 이 특성은 사용자들이 비디오 스트림내의 영상으로부터 다음(이전) "유사" 영상으로 건너뛸 수 있게 해준다. 본 발명의 양호한 실시예에서, 유사성 기준들(두 영상들 사이의 유사성 수준의 평가)은 비디오 신호로부터 추출된 로우 레벨 특성들(유사 색상, 텍스쳐, 형상 및 에지들)에 기초하거나, 수동 또는 반자동으로 생성되는 하이 레벨 설명들 같은 보조 정보에 기초할 수 있다. "다음(이전) 유사 영상으로 건너뜀(jump to the next(previous) similar image)" 기능은 영상들이 비교되는 방식 및 사용되는 유사성의 개념과는 독립적이다. 내용-기반 영상 검색은 멀티미디어 검색 분야에 널리 공지된 기술이다. 본 발명은 그 결과를 사용하며, 사용자들에게 강력한, 직관적이며 사용이 용이한 비디오 데이터 브라우징용 도구를 제공한다. 본 발명의 목적은 비디오 내용에 기초한 비디오 데이터에 대한 액세스 포인트들을 허용하는 것이다. 통상적 재생 동안, 또는, 예로서, 키-프레임 브라우저 같은 비디오 내용 등을 액세스하는 다른 방식을 사용함으로써, 사용자는 현재 영상을 질문 영상(query image)으로서 선택하고, 시스템은 유사 영상들을 검색하기 위해 필요한 작업을 수행하며, 이는 "다음(이전)"인 부가적인 제약에 따른 하나의 결과를 선택하고, 마지막으로, 이는 비디오 스트림내의 대응 위치로 건너뛴다. 이기능은 각 검색 방향에 대해 하나씩, 두 개의 버튼을 사용하여 구현될 수 있다. 이 방식에서, 프로그램의 관심 부분으로 건너뛰기 위해서 사용자가 수행하여야되는 유일한 작업은 버튼을 누르는 것이다. 따라서, 본 발명은 소비자 디지털 비디오 리코더들내의 비디오물을 통한 브라우징시 최종 사용자들을 지원하기에 특히 적합하다.

이들 및 본 발명의 다른 양태들은 도면들을 참조로 하는 세가지 실시예들에 의해 명백 및 명확해질 것이다.

예시적인 도면들을 참조로 본 발명의 실시예들을 보다 상세히 설명한다.

도 1은 본 발명에 따른 장치의 실시예를 도시하고 있다. 이 장치는 저장 매체(4)상에 저장된 정보 신호를 판독하기 위한 판독 유닛(2)을 포함한다. 장치는 기록 매체를 포함하는 비디오 리코더들 또는 셋-톱 박스들로부터 공지된 기능을 가질 수 있다. 정보 신호는 사전기록된 기록 캐리어(CD 또는 테이프 같은)나 하드 디스크 드라이브 같은 기록 장치상에 저장된 TV 신호일 수 있다. 정보 신호는 화면상에 디스플레이 될 수 있는 소정 종류의 정보일 수 있다. 양호한 실시예에서, 정보 신호는 영상들의 시퀀스를 포함하는 비디오 신호이다. 그러나, 본 발명은 기록 매체상에 저장된 그림들 또는 슬라이드 쇼들의 집합 같은 소정 종류의 영상들의 집합을 통한 브라우징을 위해 사용될 수 있다. 저장 매체는 하드디스크 드라이브, 예로서, 광 디스크(DVD나 CD 같은)나 고상 메모리 같은 제거가능한 기록 매체의 형태일 수 있다. 그러나, 대량의 정보를 저장하기 위한 임의의 다른 적절한 저장 매체가 사용될 수 있다. 저장 매체로부터 판독된 정보 신호는 도시되지 않은 디스플레이 유닛에 정보를 공급하기 위해 출력 유닛(6)으로 공급된다. 디스플레이 유닛은 상기 장치에 통합될 수 있다.

상기 장치는 기록된 정보 신호를 사용자가 액세스하고 볼 수 있게 하기 위해 명령들을 수신하기 위한 사용자 제어가능 입력 유닛(8)을 더 포함한다. 사용자 제어가능 입력 유닛은 원격 제어장치의 형태인 것이 적합하다. 그러나, 음성 제어 장치의 사용도 마찬가지로 적합할 수 있다. 원격 제어 장치 형태의 제어가능 입력 유닛은 "다음 유사 영상으로 건너뜀(jump to next similar image)" 명령을 발생시키기 위한 키와, "이전 유사 영상으로 건너뜀(jump to previous similar image)" 명령을 발생시키기 위한 키를 포함하는 것이 바람직하다. 이 명령들은 제어 유닛(10)으로 공급된다. 제어 유닛은 판독 유닛(2)을 제어하기 위해 배열되어 있다. 판독 유닛이 정상 재생 모드에 있을 때, 다음 유사 영상으로 건너뜀에 따라 제어 유닛은 기록 매체로부터의 정보 신호 판독을 중단하고, 다음 유사 영상으로 건너뜀 명령이수신될 때 판독된 영상과 유사한 시각적 기술자들을 가진 다음 영상으로 건너뛰도록 적용된다. 무슨 유사 영상들인지, 그리고, 무슨 다음 또는 이전 유사 영상이 되어야 하는지를 결정하는 방법들을 이하에 보다 상세히 설명한다. 영상의 시각적 기술자들은 영상들의 색상 정보에 의해 특정화될 수 있다. 그러나, MPEG-7 표준에 따른 내용의 설명 같은 다른 시각적 기술자들이 적합하다.

상기 장치는 다음/이전 유사 영상을 발견하도록 배열된 검색 유닛(14)을 더 포함한다. "다음/이전으로 건너뜀(skip to next/previous)" 명령의 수신 이후에, 검색 유닛은 가장 먼저, 상기 명령이 주어진 순간에 판독된 정보 신호의 시각적 기술자(visual descriptor)들을 결정한다. 제 1 실시예에서, 검색 유닛은 데이터베이스로부터 판독된 정보 신호에 대응하는 시각적 기술자를 판독함으로써 판독 유닛(2)에 의해 판독된 정보 신호를 위한 시각적 기술자들을 결정한다. 데이터베이스는 정보 신호화 함께 저장 매체(4)상에 저장될 수 있다. 그러나, 데이터 베이스는 검색 유닛이 액세스할 수 있는 모든 적절한 저장 매체상에 저장될 수 있다. 예로서, 데이터 베이스는 인터넷 접속을 경유하여 액세스될 수 있는 서버상에 저장될 수 있다. 데이터베이스는 유사한 시각적 기술자들을 가진 정보 신호내의 영상에 관한 정보와, 정보 신호내의 그 위치에 관한 정보를 포함한다. 예로서, 정보 신호가 기록된 비디오 프로그램인 경우에, 데이터베이스는 비디오 프로그램내의 각 장면에 대한 기록을 가진 테이블을 포함한다. 더욱이, 각 기록은 비디오 프로그램내의 다음 유사 시각적 기술자(판독 영상)에 대한 포인터와, 비디오 프로그램내의 이전 유사 시각적 기술자에 대한 포인터를 가진다. 따라서, "다음/이전으로 건너뜀(skipto next/previous)" 명령이 수신되었을 때, 검색 유닛은 현재 판독된 장면에 대응하는 기록을 판독하고, 다음/이전 영상의 위치를 판독 유닛(2)으로 공급한다. 판독 유닛은 검색 유닛(14)에 의해 공급된 위치에 있는 정보 신호를 판독하기 시작한다.

데이터베이스는 예로서, 전화 라인 또는 케이블 같은 임의의 적절한 접속을 경유하여 서비스 공급자들로부터 얻어질 수 있다. 또한, 데이터베이스는 기록된 프로그램과 동시에 보내질 수도 있다. 또한, 데이터베이스는 기록매체상에 정보 신호를 기록하는 것과 동시에 상기 장치에서 발생될 수도 있다. 따라서, 장치는 도시되지 않은 추출 유닛을 포함한다. 정보 신호를 기록매체상에 기록하는 동안, 정보 신호가 추출 유닛으로 공급된다. 추출 유닛은 예로서 각 장면에 대하여, 정보 신호를 위한 시각적 기술자들을 발생시킨다. 시각적 기술자들은 기록매체상의 데이터베이스에 저장된다. 상기 기록 매체는 정보 신호가 저장되는 기록 매체와 동일할 필요는 없다. 시각적 기술자들을 추출하기 위한 방법을 하기에 설명한다. 부가적으로, 장치는 각 장면에 대하여, 어떤 영상 또는 장면이 다음 및 이전 유사 영상으로서 간주되어야만 하는지를 결정하는 유닛을 포함한다. 상기 영상들의 위치는 데이터베이스내의 각 위치들에 저장된다. 상기 영상들을 결정하는 방법을 하기에 보다 상세히 설명한다.

데이터베이스는 모든 엔트리가 정보 신호내의 다음 및/또는 이전 위치에 대한 포인터를 포함하는 링크된 리스트의 형태일 수 있다. 그러나, 데이터베이스의 엔트리는 정보 신호 중 일부의 신호 영상, 예로서, 장면일 수 있는 상기 위치들에 있는 내용에 관한 정보를 포함할 수 있다. "유사 영상으로 건너뜀(jump to similar)" 명령에 응답하여, 검색 유닛은 다음 위치를 데이터베이스 내에서 검색한다. 내용의 테이블 형태인 데이터베이스는 다수의 적절한 방식으로 조직될 수 있다. 데이터베이스는 다수의 리스트들을 포함할 수 있다. 모든 리스트는 규정된 특성과의 관계를 가진다. 동일 특성을 가진 정보 신호의 부분들의 위치들이 동일 리스트내에 배치되며, 그 정보 신호내의 위치에 의해 순차적으로 저장되는 것이 바람직하다. "다음으로 건너뜀(jump to next)" 명령은 이 리스트와, 상기 명령을 수신하는 순간의 판독 위치에 대응하는 상기 리스트내의 엔트리를 검색함으로써 실현될 수 있다. 리스트내의 다음 엔트리를 취함으로써, 판독 유닛은 상기 다음 엔트리에 대응하는 위치에 있는 신호를 판독하도록 제어될 수 있다.

데이터베이스의 다른 실시예에서, 데이터베이스내의 각 엔트리는 정보신호내의 위치에 대응한다. "다음으로 건너뜀" 명령이 수신될 때마다, 내용의 테이블이 다시 재배열(sorting)된다. 엔트리들의 순서는 명령을 수신하는 순간에 판독된 위치에 대응하는 엔트리와의 유사도에 의해 결정된다. 본 실시예는 사용자가 가장 유사한 정보 신호의 부분으로 건너뛰는 것을 가능하게 한다.

도 4는 비디오 프로그램 같은 영상들의 시퀀스를 포함하는 정보 신호를 통한 건너뜀에 적합한, 본 발명의 장치의 실시예를 도시하고 있다. 정보 신호는 MPEG 비디오 신호의 형태인 것이 적합하다. 본 실시예에서, 검색 유닛은 판독 유닛(2)으로부터 정보 신호를 수신하기 위해 입력부를 갖는다. "다음/이전 유사 영상으로 건너뜀(skip to next/previous similar image)" 명령을 수신한 이후에, 검색 유닛은 먼저 현재 판독된 정보 신호의 시각적 기술자를 결정한다. 그후, 판독 유닛(2)은 검색 모드로 배치된다. 이 모드에서, 정보 신호를 통한 판독은 정상 모드에서보다 신속하다. 정보 신호는 기록 매체로부터 완전히 판독되거나, 예로서, 단지 MPEG 신호의 I-프레임들만이 부분적으로 판독될 수 있다. 판독된 신호는 검색 유닛(14)으로 공급되고, 검색 유닛은 공급된 신호로부터 시각적 기술자들을 추출하며, 추출된 시각적 기술자가 명령이 수신되었을 때 판독된 정보 신호의 시각적 기술자와 유사한지 아닌지를 분석한다. 유사한 기술자가 발견되자마자, 판독 유닛(2)은 정상 모드로 복귀한다.

"다음 유사 영상으로 건너뜀(jump to the next similar image)" 기능은 다수의 유용한 목적에 사용될 수 있다. 적용될 수 있는 예들의 선택은 하기와 같다.

- 프로그램과, 광고 방송의 시작(종료) 사이를 구분하기 위해 방송자가 정지 영상(즉, 풀 스크린 채널 로고)을 사용할 때, 광고 방송 시간을 건너뛰기 위해 사용될 수 있다.

- 뉴스 프로그램에서 앵커 영상을 사용하여 다음 뉴스 아이템으로 건너뛰는데 매우 유용하다. 뉴스 프로그램들은 일반적으로 부제들(subtitles)을 가지고 방송되며, 그래서, 그들에 관한 매우 상세하며 정밀한 문자 정보를 추정할 수 있다. 이런 가정에서, 그들에 대하여 "다음(이전) 유사 영상으로 건너뜀(jump to the next(previous) similar image)" 기능 대신 키워드-기반 검색을 사용하는 것이 양호한 것으로 생각된다. 어땠든, 이 도구는 사용자가 문자 정보를 읽을 필요 없이 뉴스 중 하나로부터 다음(이전) 것으로 신속하게 건너뛰는 것을 허용한다.

- 고정된 표제를 가진 프로그램내에서 기상 예보, 스포츠뉴스 또는 특정 섹션으로 건너뛰는 것을 허용한다.

- 그 자체의 고정된 크래디트(credit)나 마감 타이틀을 가지고 있는 프로그램의 시작 또는 끝으로 건너뛰기 위해 사용될 수 있다.

- 비디오 클립의 집합인 음악 프로그램들이 최근 보편화되고 있다. "다음(이전) 유사 영상으로 건너뜀(imp to the next(previous) similar image)" 기능은 하나의 비디오 클립으로부터 다음 것으로 건너뛰도록 사용될 수 있다.

- 다수의 다큐멘타리들은 특정 로고와 함께 시작하는 상이한 주제의 특정 섹션들을 가지고 있다. 사용자는 시간 소모적인 빨리 감기를 사용하지 않고, 다음 주제를 나타내는 로고로 바로 건너뛸 수 있다.

마지막 두 가지의 예들에서와 같이, "다음/이전 유사 영상으로의 이동 버튼 (jump to the next/previous similar image button)"은 하기의 구조(동일한 문자들이 유사한 프레임들에 대응), 즉,

AAAAAAAAbbbbbbbbbAAAccccccAAAdddAAAAeeeeeeeeeeeeeeAAAAAAAAAAAA...의 구조를 가진 모든 프로그램에서 A 프레임들 사이를 건너뛰기 위해 사용될 수 있다. A 프레임들은 한편의 뉴스를 읽는 앵커에 대응한다. 다큐멘터리에서, 쇼맨(쇼걸)이 주제를 제시하는 장면에 대응하며, 이들은 다큐멘터리 아이템들과 함께 삽입된다. A 프레임에서, 쇼맨(쇼걸)이 이벤트를 진행하거나, 게스트가 등장하는 TV 쇼에서도 거의 동일한 상황이 이루어진다. 쇼에서와 같이, 쇼맨(쇼걸)이 일반적으로 뮤직 비디오 클립들을 소개한다. 실제로, 이 구조는 통상적인 방송 TV 프로그램들에서 매우 일반적이다.

비디오를 장면들내에 구성하고, 단지 다음 장면으로 건너뜀 버튼을 사용하는 것에 의해 유사한 결과가 달성될 수 있다. 본 발명에 따른 브라우징 기능은 다음 장면 또는 키-프레임들에 대한 것 뿐만 아니라, 다음 유사 장면으로 바로 건너뛰는 것을 허용하기 때문에, 보다 통상적인 계층적 비디오 예비 구성 방식과는 상이하다. 다음(이전) 유사 영상으로 건너뜀 기능은 비디오 네비게이션 목적을 위해 사용될 수 있을 뿐만 아니라 사진들 또는 슬라이드 쇼들을 통한 브라우징을 위해서도 사용될 수 있다.

비디오 프로그램들의 트레일러들은 프로그램의 시작에 위치되어 있을 때, 또는, 이들이 광고 방송 등의 형태일 때 매우 유용할 수 있다. 전자의 경우는 사용자가 트레일러로부터 영상을 선택할 수 있고, 일단 방송 및 기록되고 나면, 프로그램내의 유사 영상으로 건너뛸 수 있다. 이 방식으로, 사용자는 상기 영상에 대응하는 위치에 있는 비디오 프로그램을 보기 시작할 수 있다. 후자의 경우(즉, 뉴스 프로그램의 헤딩)에는, 사용자가 상기 프로그램내의 관심 부분으로 건너뛰기 위하여 트레일러로부터 선택된 영상을 활용할 수 있다. 이 경우, 트레일러는 프로그램을 위한 내용의 테이블로서 간주될 수 있다.

사용자가 일부 영상들을 선호 영상들로서 선택할 수 있게 하는 경우에, 다음/이전 유사 영상으로 건너뜀은 이들에 기반할 수 있다. 비디오 스트림의 영상 부분을 사용하는 대신, 사용자는 선호하는 것들의 세트 사이에서 선택할 수 있다. 이 소위 선호 영상 리스트는 예로서, 하기의 시나리오들을 가능하게 한다.

- 사용자가 뉴스 프로그램을 시청하고, 그는 그가 좋아하는 락 밴드가 새로운 비디오 클립을 만드는 것을 발견한다. 뉴스 프로그램은 단지 비디오의 일분 시연(one-minute preview)만을 포함하고 있다. 사용자는 그의 선호 영상 리스트내에 비디오의 일부 영상을 저장하고, 그는 새로운 비디오 클립이 전송되는 수 시간의 비디오 클립 컨피던트(confidant)를 녹화한다. 다음날 그는 이미 저장된 영상을 사용함으로써 기록물내의 전체 비디오 클립을 찾을 수 있다.

-사용자가 뉴스 프로그램을 시청하고, 그는 Mc 라렌(Laren) F1 차량을 가진 하키넨(Hakkinen)이 오후에 매우 큰 사고를 당했다는 것을 알았다. 그는 전체 레이스를 녹화하였었지만, 그는 시간이 없기 때문에 이를 보기를 원하지 않는다. 이제, 그는 그의 선호 영상 리스트에 저장된 뉴스 프로그램으로부터 사고의 영상을 사용하여 차량 사고의 시퀀스로 건너뛸 수 있다.

다음(이전) 유사 영상으로 건너뜀 기능은 비디오 시퀀스의 모든 영상이 다음(이전) 가장 유사한 것에 연계될 것을 필요로 한다. 두 개의 연속적 프레임들은 통상적으로 매우 유사하다. 다음(이전) 유사 영상으로 건너뛸 때, 이들 프레임들은 버려져야만 한다. 한가지 해결 방법은 연속적인 유사 프레임들의 그룹내에서 단 하나의 프레임만을 고려하는 것일 수 있다. 이는 비디오를 샷 들로 분할하고, 각 샷에 대하여 대표 정지 영상(키-프레임)을 선택하며, 그후, 키-프레임들 사이에서만 유사성을 검색하는 것과 등가이다.

다음/이전 유사 영상으로의 건너뜀 기능은 기술자들이 얻어지는 방식 및 유사성이 측정되는 방식과는 독립적이라는 것을 인지하는 것이 중요하다.

양호한 구현에 있어서, 각 키-프레임으로부터 시각적 기술자가 자동으로 추출된다. 그 시각적 기술자들 사이의 거리가 사전설정된 임계값 보다 낮은 경우에 두 개의 키-프레임들이 유사한 것으로 추정된다. 다음(이전) 유사 영상으로의 건너뜀 기능은 유사성을 고려할 뿐만 아니라, 프레임들의 상대 위치들도 고려하며, 그 이유는 이것이 단 하나의 다음(이전) 유사 영상들을 검색하여야만 하기 때문이다. 도 2는 양호한 구현에 의해 수행되는 단계들을 도시하고 있다.

사용자가 다음 유사 영상으로 건너뜀 버튼을 누를 때, 시스템은 이어지는 샷들의 기술자들을 검색하며, 두가지 필터링 작업들을 수행한다. 첫 번째는, 질문 키-프레임의 시각적 기술자를 이어지는(선행하는) 키-프레임들의 기술자들과 비교한다. 그 기술자들이 고정된 임계값 보다 큰 질문 키-프레임으로부터의 거리를 가지는 키-프레임들은 버려진다. 두 번째 필터링 작업은 나머지 키-프레임들을 특성 공간(feature space)내에서 그 질문로부터의 거리에 따라 적어도 두 개의 클러스터들로 분할하는 것으로 이루어진다. 두 개의 클러스터들은 그 유사성에 따라 영상들을 재배열하고, 그 질문로부터의 거리들 사이의 연속적 편차를 고려함으로써 얻어진다. 이들 편차들 중 하나가 소정 임계값을 초과할 때, 모든 연속적인 영상들이 하나의 다른 클러스터내로 집어넣어진다. 질문에 가장 가까운 영상들의 클러스터가 시간적 순서(chronological order)에 따라 재배열되며, 상기 첫 번째 프레임이 다음 유사물에 대응하는 것이다.

하기에 사용될 수 있는 시각적 기술자들에 관한 일부 세부 사항들을 설명한다.

현재 패턴 매칭 및 영상 이해 기술들은 여전히 의미적 용어들의 시각적 내용을 해석하는 목적과는 괴리되어 있다. 따라서, 로우-레벨 시각적 특성들에 의존할 필요가 있다. 색상, 텍스쳐, 형상 및 움직임이 가장 일반적으로 사용되는 지각적 시각 특징들이다. 색상 정보는 영상 크기, 방향성 및 폐쇄(occlusion)에 대해 보다 강인성을 가진다. 텍스쳐 기술자들은 균질 텍스쳐 패턴들을 분류하는데 강력하지만, 그러나, 이들은 자연 장면들의 비균질 영역들을 취급하는데는 효과적이지 못하다. 또한, 형상 기술자들이 사용될 수 있다. 이들 기술자들이 영상 세그먼트화를 필요로하고, 이 영상 세그먼트화가 많은 연산력을 필요로하기 때문에, 이들은 현재 소비재 전자 제품들에는 너무 고가이다. 부가적으로, 현재 이용가능한 영상 세그먼트화 기술들은 광범위한 실세계(real-world) 영상들에 대해서는 충분히 강하지 못하다.

인간의 색상 인지는 복합 프로세스이다. 시각적 데이터 및 컬러 표현들을 취급할 때, 다수의 단순화 가정들이 이루어진다. 색상 특성들은 화소 레벨에서 처리되며, 이는 색상의 인지가 주변 색상들에 의해 영향을 받지 않는 것을 의미한다. 부가적으로, 주변광, 관측 거리 및 디스플레이 품질 같은 시계 조건들은 고려되지 않는다. 시각적 아이템의 첫 번째 정의가 주어져있다. 시각적 아이템(I)은 전체 영상 또는 색상 공간(CS)내의 화소값들의 세트로서 표현되는 영상의 소정의 임의 형상 영역(직사각형 또는 불규칙형)이다.

하기의 문단들은 지각적 시각적 특징들의 정량적 표현들을 인코딩하는 기술자들의 세트를 제공한다. 추출 절차 및 연계된 유사성 매칭 기준들도 제공된다.

컬러 히스토그램은 시각적 아이템들의 로우 레벨 색상 특질을 설명하는 널리공지된 방식이다. 이는 색상 채널들에 걸친 하나의 분포로서 또는 세 개의 독립적인 색상 분포들로서 표현될 수 있다. 컬러 히스토그램은 n 개의 별개의 색상들이 존재하도록 이산된, 색상 공간(CS)내의 주어진 시각적 아이템(I)을 위해 정의된다. 컬러 히스토그램(H(I))은 벡터〈H₁, H₂, …, H_n〉이며, 여기서, 각 요소(H_j)는 시각적 아이템(I)내의 색상(C_j)의 화소들의 비율을 포함한다.

컬러 히스토그램들은 색상 내용의 보다 효과적인 표현이다. 한가지 긍정적 특성은 그 연산이 효율적이라는 것이다. 부가적으로, 컬러 히스토그램들은 카메라 회전, 줌, 해상력의 변경 및 부분적 폐쇄에 의해 발생된 변화들에 완전히 영향을 받지 않는다. 그러나, 이들은 광 조건들에 민감하며, 색상 공간 양자화로 인해 색상 내용의 표현에 문제가 있을 수 있다. 양자화는 반드시 지각적으로 별개의 색상들이 동일 빈(bin)내에 존재하지 않을 정도로 충분히 미세하여야만 한다. 이 고려 사항은 하기의 장들에 제시되는 모든 히스토그램 기반 기술자들에 적용될 수 있다.

컬러 히스토그램 추출은 시각적 아이템들내의 각 화소값에 대하여 양자화된 값을 연산하고, 히스토그램내의 대응 빈을 증분시키는 것에 의해 수행된다. 그후, 빈들내의 화소들의 수는 시각적 아이템의 크기에 따라 정규화되어야만 한다. 이 마지막 단계는 동일한 치수의 시각적 아이템들을 취급하는 경우에 회피될 수 있다. 추출 절차는 선형적 시간을 필요로한다.

컬러 히스토그램들을 사용하여 색상적 유사성을 결정하기 위해 상이한 거리 척도들이 사용될 수 있다. 이들은 연산적 복합성과 효율성 양자 모두에 관하여 상이한 검색 성능들을 초래한다. 색상 공간 및 색상 양자화의 선택과 함께, 유사성 매칭 기준의 선택은 시각적 검색 기술의 구현에 결정적인 특성이다.

컬러 히스토그램들에 대한 동질성 측정에 통상적으로 사용되는 세가지 유사성 척도들은 L₁거리, 유클리드 또는 L₂거리 및 이차 거리(quadratic distance)이다. H(I_q) 및 H(I_t)를 각각 질문 및 목표 히스토그램들이라 하면, 이때, L₁은 하기와 같이 정의된다.

(2.1)

유클리드 거리 또는 L₂거리는 하기와 같이 정의된다.

(2.2)

이들 정의들에서, 색상 버킷들을 가로지른 편차들은 공평하게 가중된다. L₁및 L₂거리들 양자 모두는 유사하지만 동일하지 않은 히스토그램 요소들을 비교하지 않는다. 예로서, 어두운 적색 영상은 청색 영상과 마찬가지로 적색 영상과 동등하게 다르다. 거리 연산내의 히스토그램 요소 유사성의 척도들을 사용함으로써, 히스토그램 매칭을 향상시키는 것이 가능하다.

이차 거리 척도는 이 논점에 주안점을 두고 있으며, 하기와 같이 정의된다.

(2.3)

여기서, W=[a_ij]이며, a_ij는 인덱스 i와 j를 가지는 색상들의 지각적 유사성을 나타낸다. 이 매트릭은 모든 히스토그램 요소들을 비교하고, 요소간 거리를 쌍단위 가중 인자들에 의해 요소들 상호간 거리들을 가중한다. 상호 연관(a_ij)을 위한 적절한 값은 a_ij= 1-d_ij에 의해 주어지며, 여기서, d_ij는 색상 공간내의 두 색상들 사이의 최대 거리에 관하여 정규화된 인덱스 i와 j의 색상들 사이의 거리이다. 이차 거리는 모든 요소들 사이의 상호 유사성을 연산하기 때문에, L₁및 L₂보다 연산적으로 보다 많은 비용을 소모한다.

MPEG-2 표준에 채택된 압축 알고리즘이 사용될 때, 단지 부분적 디코딩만으로, 저가로 DC-영상들이라 지칭되는 프레임들의 축소 재설계된 버전들(64배 작음)을 비디오 스트림으로부터 추출하는 것이 가능하다. 이들은 천체 크기의 프레임의 8×8 블록들의 양방향 이산 코사인 변환의 DC 계수들만을 고려함으로써 얻어진다. DC 영상들이 보다 작게 축소 재설계되거나, 프레임들의 블록 해상 버전들이기 때문에, 이들이 동일한 내용을 표현하는 것으로 가정할 수 있다. 유사한 키-프레임들을 검색하는 목적을 위해서, 디지털 비디오 스트림내에서 저가로, I-프레임들을 위해, 이용가능한 DC 영상들로부터 직접적으로 시각적 기술자들을 추출하는 것이 가능하다. MPEG 스트림에서, I-프레임은 키-프레임으로서 간주된다. 그 구현을 단순화하기 위해서, 추출 절차는 특정화된 색상 공간내의 화소값들의 어래이를 입력으로서 취하도록 설계된다. 또한, 그들을 장면 변경 알고리즘과 통합하고, MPEG-2 디코딩을 최소 필요치로 제한하는 기술자들의 연산을 수행하는 것도 가능하다.

컬러 히스토그램 기술자(colour histogram descriptor)는 YC_bC_r과 HSV 색상 공간들 양자 모두에 사용될 수 있다. YC_bC_r색상 공간은 MPEG-2 표준에 사용되는 포맷이고, 따라서, 비디오 스트림으로부터 직접적으로 추출된 색상 정보가 부가적인 변환을 필요로하지 않을 때 적합하다. 더욱이, 엄격히 지각적으로 균일하지 않은 경우라도, 이 관점으로부터, 사용자 인터페이스내에 키-프레임들을 디스플레이하기 위해 사용되는 RGB 색상 공간보다 양호하다.

다음에, 사용될 수 있는 YC_bC_r색상 공간의 세가지 상이한 색상 양자화들이 정의된다. 다른 양자화들도 마찬가지로 적합할 수 있다는 것을 인지하여야만 한다.

- Y, C_b및 C_r색상 채널들이 각각 16, 4 및 4 레벨들로 선형적으로 양자화된다. 결과적인 기술자는 256 빈들의 단일 가변 히스토그램으로서 나타난다.

- Y, C_b및 C_r색상 채널들이 각각 16, 8 및 8 레벨들로 선형적으로 양자화된다. 결과적인 기술자는 1024 빈들의 단일 가변 히스토그램으로서 나타난다.

- Y, C_b및 C_r색상 채널들이 각각 16, 16 및 16 레벨들로 선형적으로 양자화된다. 결과적인 기술자는 4096 빈들의 단일 가변 히스토그램으로서 나타난다.

HSV 색상 공간도 마찬가지로 적합하며, 그 이유는 실질적으로 지각적으로 균일하고, 따라서, 축약적이고 완전한 색상들의 집합이 적절한 양자화를 정의함으로써 얻어질 수 있기 때문이다. RGB로부터 HSV로의 변환은 하기의 식들[36]을 통해달성된다.

여기서, (r, g, b)는 RGB 공간의 지점이고, (h, s, v)는 HSV 공간내의 대응 지점이며, (r', g', b')는 max(r, g, b)≠min(r, g, b)일 때 하기와 같이 정의된다.

r, g, b∈[0…1]인 경우에, 이 변환은 h, s, v∈[0…1]을 제공한다.

이산 컬러 히스토그램을 연산하기 위해 필요한 색상 공간 양자화는 166 색상들의 축약 세트[5, 7, 8, 19, 23]를 생성하도록 설계된다. 빛깔이 지각적으로 보다 현저한 특징인 것으로 생각하면, 이를 위해 가장 미세한 양자화가 사용된다. 원통형 HSV 색상 공간의 빛깔 원은 20°의 단계들로 분할된다. 이 방식으로, 삼원색 및 노랑, 마젠타 및 시안이 각각 세 개의 서브 디비젼들을 가지는 상태로 표현된다. 채도 및 값은 각각 세 개의 레벨들로 양자화되어 이들 치수들에 따라 보다 큰 지각적 색범위(tolerance)를 산출한다. 18 빛깔들, 3 채도, 3 값들 더하기 4 부가적 그래이를 채용함으로써, 166개의 별개의 색상들이 고려된다(18×3×3+4=166)

세 개의 YC_bC_r양자화들 및 HSV 하나를 고려함으로써 얻어진 네 개의 컬러 히스토그램들이 전체 크기 영상들과 DC-영상들 양자 모두로부터 추출된다. 따라서, 각 키-프레임은 8개의 상이한 컬러 히스토그램들이 연계되어 있다.

상이한 영상들의 컬러 히스토그램들은 L₁및 유클리드 거리들을 사용함으로써 비교될 수 있다. YC_bC_r색상 공간내의 세 개의 양자화들 사이에서, DC-영상들로부터 추출되고, L₁거리와 비교된 256 빈들 히스토그램들을 사용하여 최상의 결과가 얻어진다. 따라서, L₁거리는 보다 고가의 유클리드 거리 보다 양호하게 수행되는 것으로 판명되었다. 또한, 전체 크기 프레임들이 아닌 DC-영상들로부터 히스토그램들을 추출하는 것이 이 기술자의 검색 성능들을 열화시키지 않는 것으로 판명되었다.

DC-영상들로부터 추출된 HSV 색상 공간내의 166 빈들 히스토그램은 YC_bC_r색상 공간의 것 보다 양호한 것으로 판명되었다. 이 결과는 HSV 색상 공간이 실질적으로 지각적으로 균일하며, 166개의 별개의 색상들이 YC_bC_r색상 공간의 256 이산화 보다 양호한 색상 범위를 제공한다는 사실로 인한 것이다.

비록, 컬러 히스토그램에 의해 제공되는 것 같은 포괄적 색상 설명은 신뢰성있게 구분될 수 있지만, 공간적 정보의 결여는 시각적 아이템들의 비교시 너무 많은 오답들을 줄 수 있다. 검색 효율 및 정밀도를 향상시키기 위해서, 색상 특징 및 공간적 관계 양자 모두가 사용될 수 있다. 컬러 그리드 히스토그램과 하기의 히스토그램 기반 기술자들은 공간적 정보를 마찬가지로 취함으로써 포괄적 색상 특징을 지역적인 것으로 확장시킨다.

종래의 컬러 히스토그램에 의해 표현된 전체적 색상 특징을 확장하기 위하여, 자연적 접근 방법은 시각적 아이템을 서브 블록들로 분할하고 서브 블록들 각각으로부터 색상 특징들을 추출하는 것이다. 컬러 그리드 히스토그램은 이 접근 방법을 따르며, 이는 열 개의 히스토그램들로 구성될 수 있다. 이 경우에, 시각적 아이템은 3×3 정사각형 그리드를 사용하여 아홉 개의 영역들로 분할된다. 각 영역으로부터 종래의 컬러 히스토그램이 연산된다. 열번째 히스토그램은 전체 시각적 아이템의 컬러 히스토그램이다. 서브 블록 분할은 중첩 영역들을 고려함으로써 개선될 수 있다. 이 접근 방법에서, 기술자는 작은 영역 변형에 비교적 둔감하다.

컬러 그리드 히스토그램 추출 절차는 종래의 컬러 히스토그램에서와 실질적으로 동일하다. 단지 차이점은 시각적 아이템내의 화소값들의 공간적 위치에 따라서도 히스토그램 요소들이 증분된다는 것이다.

컬러 그리드 히스토그램이 종래의 컬러 히스토그램들로 구성되어 있기 때문에, 히스토그램들을 비교하기 위해 사용되는 동일 거리 메트릭들이 서브 블록 히스토그램들에 사용될 수 있다. 두 개의 컬러 그리드 히스토그램들 사이의 거리는 서브 블록 거리들의 총 합계이다. 부가적으로, 영상 내의 그 위치에 따라 서브 블록 히스토그램들 사이의 거리를 가중할 수 있다. 예로서, 중앙 블록은 다른 것 들 보다 많이 가중될 수 있으며, 그 이유는 대부분의 시각적 아이템들에 대해서, 중앙 영역이 관측자의 주목을 끌기고, 그래서, 인간들은 유사성 판정에 영상의 중앙에 보다 많은 비중을 두기 때문이다.

컬러 그리드 히스토그램 기술자는 3×3 정사각형 그리드를 사용하여 전체 크기의 키-프레임들을 9개의 영역들로 분할하고, 각 서브 블록에 대해 64 빈들 컬러 히스토그램을 연산함으로써 구현된다. 부가적으로, 전체 영상에 대하여 다른 64빈들 히스토그램이 연산된다. 따라서 기술자는 10개의 히스토그램들로 구성된다.

각 히스토그램은 YC_bC_r색상 공간내에서 연산된다. Y, C_b및 C_r색상 채널들은 각각 하나씩이 4 레벨들로 선형적으로 양자화된다. YC_bC_r색상 공간은 MPEG-2 스트림내의 색상 정보가 이 포맷으로 이용가능할 때 사용되는 것이 적합하다.

다른 영상들의 컬러 그리드 히스토그램들을 비교하기 위해 사용되는 거리들은 대응 서브 영역 히스토그램들 사이의 유클리드 거리들의 또는 L₁거리들의 합이다. 부가적으로, 영상내의 그 위치에 따라서 서브 블록 히스토그램들 사이의 거리를 가중하였다. 중앙 블록 거리는 나머지들 보다 2 내지 10배 가중되었다.

실험적 테스트들은 동일 영상들에 대하여, 컬러 그리드 히스토그램이 보다 양호한 결과들을 주었지만, 평균적으로 이는 종래의 것 보다 양호하게 수행되지 않는다는 것을 보여준다. 거리의 연산에 상이한 가중들을 사용하는 것에 의해서도,검색 효율은 그 추출, 비교 및 저장의 부가적인 비용을 고려할 때 충분히 개선되지 않는다.

컬러 구조 히스토그램들(또한, 문헌에서는 블로브 히스토그램들(blob histograms)이라 명명되는)은 다수의 화소값들로 구성되어 있는 구조 요소들을 사용하여 시각적 아이템들의 지역적 색상 구조를 표현한다. 종래의 컬러 히스토그램들은 특정 색상을 가진 단일 화소값들의 상대적 빈도수를 특징화한다. 색상 구조 히스토그램들은 이들이 특정 색상을 가진 화소를 포함하는 구조 요소들의 상대적 빈도수를 인코딩하기 때문에 이들과는 다르다. 이들은 종래의 컬러 히스토그램들로부터 불변 특질들을 계승하며, 공간적 정보를 이식함으로써, 그 판별력(discriminative power)을 현저히 증가시킨다.

그들이 n 개의 별개의 색상들이 되도록 이산된 색상 공간(CS)을 고려하면, 시각적 아이템(I)을 위한 컬러 구조 히스토그램은 하기와 같이 정의될 수 있다.

정의 2: 색상 구조 히스토그램(H(I))은 벡터<H₁, H₂, …, H_n>이며, 여기서 각 요소 (H_j)는 색상(C_j)의 하나 이상의 화소들을 포함하는 시각적 아이템(I)내의 구조 요소들의 수를 포함한다.

구조 요소의 공간적 범위는 시각적 아이템 크기에 의존하지만, 그러나, 동시에 구조 요소와 시각적 아이템을 서브샘플링함으로써 구조 요소내의 샘플들의 수는 일정하게 유지된다. 8×8 패턴으로 배열된 구조 요소내에서 다수의 64 샘플들을 선택하는 경우에, 이 패턴에서 두 샘플들 사이의 거리는 시각적 아이템의 크기를 증가시킴에 따라 증가된다, 시각적 아이템들이 고정된 기본 크기로 크기 재설정되는 경우에, 동일한 8×8 구조 요소가 사용될 수 있고, 한편 서브 샘플링 인자 및 구조 요소 폭 및 높이는 하기와 같이 결정될 수 있다. E를 원래 시각적 아이템(I)내의 구조 요소의 공간적 범위라 하면, 공간적 범위는 E×E이다. K를 적용된 서브샘플링 인자라 하면, K={1, 2, 4, 8, 16, …}이고, 여기서, K=1은 어떠한 서브샘플링도 없는 것을 의미하며, K=2는 수평적 및 수직적으로 2만큼 서브샘플링된다는 것을 의미하는 등등 이다. K와 E는 하기와 같이 정의된다.

K=2p

E=8K

여기서, 폭 및 높이는 직사각형 시각적 아이템(I)에 관한 것이다. p<0인 경우에, 이때 P=0로 생각한다.

컬러 구조 히스토그램은 시각적 아이템의 모든 위치들을 방문하고, 각 위치에 오버레잉된 구조 요소내에 포함된 모든 화소들의 색상들을 검색하고, 대응 빈들을 증분함으로써 연산된다. 히스토그램 빈들은 절차의 종료시 구조 요소들의 수에 의해 정규화될 수 있다. 도 3은 8개의 상이한 색상들의 시각적 아이템을 이용한 추출 절차를 예시하고 있다.

4×4 화소들의 정사각형인 구조 요소(32)가 슬라이딩 윈도우로서 시각적 아이템 위로 통과된다. 특정 위치(도면에는 단지 시각적 아이템의 일부만이 도시됨)에서, 구조 요소는 색상 C₀의 4 화소들과, 색상 C₁의 6 화소들 및 색상 C₂의 6 화소들을 포함한다. 이때, 열들(C₀, C₁및 C₂)내의 빈들은 증분된다. 그래서, 이 경우에, 구조 요소(structuring element)는 구조 요소 영역내에 존재하는 각 색상에 대하여 한번씩 세배로 계수된다(counted).

색상 구조 히스토그램들, 색상 상관도들(colour correlograms), 색상 자기상관도들(colour autocorrelograms), 색상 응집 벡터들(colour coherent vectors) 및, 조인트 히스토그램들은 모두 히스토그램 기반 기술자들이기 때문에, 종래의 컬러 히스토그램들을 위해 제공되는 동일한 유사성 매칭 기준들이 모든 이들 다른 시각적 기술자들을 비교할 때에도 적용될 수 있다. 서로다른 특성 공간들내의 거리값들은 물론 비교할 수 없다.

색상 상관도는 색상 쌍들에 의해 인덱스된 테이블이며, 여기서, <i,j>에 대한 k 번째 엔트리는 색상 C_i의 화소로부터 거리 k에 있는 색상 C_j의 화소를 발견할 가능성을 특정한다. 색상 상관도들은 색상의 공간적 상관 관계가 거리에 따라 변화하는 방식을 나타낸다.

주어진 시각적 아이템(I)과 n 개의 별개의 색상들이 존재하도록 이산화된 색상 공간(CS)이 주어지고, I(p)가 p∈I인 화소값의 색상을 나타내는 것이라 한다. 따라서, 표시법 p∈I_c는 P∈I, I(p)=c와 같은 의미이다. 화소값들 사이의 거리는 화소들 p₁=(x₁, y₁), p₂=(x₂, y₂)에 대하여 L_∞-norm으로 측정되며, 하기와 같이 정의한다.

상기 세트 {1, 2, …, n}를 [n]으로 나타낸다. 이러한 표기로써, 컬러 히스토그램 H(I)는 ∀i∈[n]에 대하여 하기와 같이 정의된다.

시각적 아이템(I)내의 임의의 화소값에 대하여, h_ci(i)는 화소의 색상이 c_i일 가능성을 제공한다. 거리 d∈[n]을 우선적으로(a priori) 고정되게 한다. 이때, I의 색상 상관도는 ∀i, j ∈[m], k∈[d]에 대하여 하기와 같이 정의된다.

영상내의 색상 c_i의 임의의 화소가 주어지면,는 주어진 화소로부터 거리 k에 있는 화소가 색상 c_j로 이루어져 있을 가능성을 제공한다.

시각적 아이템내의 상이한 색상들의 수가 높을 때, 색상 상관도의 공간적 및 시간적 연산적 복합성은 증가하며, 그 검색성능들은 감소된다. 이는 동일한 색상들 사이의 상관관계만을 고려함으로써 부분적으로 회피될 수 있다. 이 색상 상관도의 특수화는 색상 자기상관도라 지칭된다. I의 자기상관도는 동일한 색상들 사이의 공간적 상관관계만을 포착하며, 이는 하기와 같이 정의된다.

시각적 아이템에 걸친 색상 분포에 관한 공간적 정보를 포함시킴으로써, 색상 상관도들과 자기상관도들은 특히 유사한 색상들을 가지지만 컬러 레이아웃이 상이한 시각적 아이템들을 취급할 때 컬러 히스토그램들 보다 많은 식별력을 제공한다.

시각적 아이템(I)의 색상 상관도를 연산하기 위한 원시 알고리즘(naive algorithm)은 색상 c_i의 각각의 p₁∈I인 것을 고려하며, 각각의 k∈[d]에 대하여, ∥p₁- p₂∥ = k로써 색상 c_j의 모든 p₂∈I를 계수(count)한다. 애석하게도, 이는 O(d²S) 시간을 취하며, 여기서 S는 I의 화소값들의 총수이다. 이 고가의 연산을 제거하기 위해서, International Journal of Computer Vision Vol.35, 1999, pp 245-268의 "공간적 색상 인덱싱 및 어플리케이션(Spatial Colour Indexing and Application)"이란 논문에 동적 프로그래밍에 기반한 효과적 알고리즘이 서술되어 있다. 소요 연산 시간은 O(dS)로 감소된다.

검색 효율에 관련하여, L₁거리를 가진 색상 자기상관도가 종래의 히스토그램보다 양호하게 실행되는 것으로 판명되었다. 그럼에도 불구하고, 그 연산, 비교 및 저장의 부가적인 비용들을 고려하면, 최상의 기술자는 값싸고 효과적인 컬러 히스토그램이다.

널리 공지된 색상 응집 벡터들은 기본적으로 색상 분포에 관한 일부 공간적 정보를 포함하도록 확장된 컬러 히스토그램들이다. 색상의 응집은 그 색상의 화소들이 시각적 아이템(I)의 대형 유사 채색 영역들의 구성원이 되는 정도로서 정의된다. 시각적 아이템(I)을 고려하면, 컬러 히스토그램(H(I))의 주어진 색상 버켓내의 각 화소는 대형 유사 채색 영역의 일부인지 아닌지에 기초하여, 응집성 또는 비응집성 중 어느 한쪽으로 분류된다. 색상 응집 벡터(CCV)는 각 색상을 가진 응집 대 비응집 화소들의 비율을 저장한다. j번째 이산된 색상의 응집 화소들의 비율(α_j)과, 비응집 화소들의 비율(β_j)을 호출하면, 색상 응집 벡터는 각 이산된 색상에 대해 하나씩 벡터들의 쌍들로 표현될 수 있다.

<(α₁, β₁), …, (α_n, β_n)>

심볼들(α_j및 β_j)에 대하여 동일 의미를 유지시킴으로써 종래의 컬러 히스토그램은 벡터에 의해 하기와 같이 표현될 수 있다.

<α₁+ β₁, …, α_n+ β_n>

색상 응집 벡터들(Colour Coherence Vectors)(CCV)은 일 시각적 아이템내의 응집 화소들이 다른 것들내의 비응집 화소들과 매칭되는 것을 방지한다. 응집 화소들을 비응집 화소들로부터 분리시킴으로써, CCV's는 컬러 히스토그램들 보다 세밀한 판별을 제공한다.

색상 응집 벡터를 추출하는 첫 번째 단계에서, 시각적 아이템(I)은 화소값들을 작은 지역적 이웃(통상적으로 여덟 개의 인접 화소들)내의 평균값으로 교체함으로써 다소 흐려지게 된다. 이는 이웃 화소들 사이의 작은 변화들을 소거한다. n 개의 별개의 색상들의 이산된 색상 공간이 사용되는 것이 바람직하다.

다음 단계는 주어진 색상 버켓내의 화소들을 응집성 또는 비응집성으로 분류하는 것이다. 응집성 화소는 동일 색상의 화소들의 큰 그룹의 일부이고, 비응집성 화소는 아니다. 연결된 콤포넌트들을 연산함으로써 화소 그룹들을 결정한다.

정의 3: 연결된 콤포넌트 C는 임의의 두 개의 화소들 p, p'∈ C에 대하여 p와 p' 사이의 C에 하나의 경로가 있도록 화소들의 극대화된 세트이다.

정의 4: C내의 경로는 각 화소 p'∈C와 임의의 두개의 순차 화소들 p_i, p_i+1이 서로 인접하는 화소들의 시퀀스 p=p₁, p₂, …, p_n= p'이다. 하나의 화소가 나머지중 여덟 개의 가장 근접한 이웃들 사이에 있는 경우 두 개의 화소들을 인접한 것으로 간주한다.

주어진 색상 버켓들내의 연결된 콤포넌트들만이 연산된다는 것을 주목하라. 연결된 콤포넌트들의 연산이 완료되었을 때, 각 화소는 정확하게 하나의 연결된 콤포넌트에 속한다. 화소들을 연결된 콤포넌트의 화소들내의 크기에 따라서, 응집성 또는 비응집성 중 어느 한쪽으로 분류한다. 그 연결된 콤포넌트의 크기가 고정된 값(τ)을 초과하는 경우 화소는 응집성이며, 그렇지 않으면, 화소는 비응집성이다. τ는 대개 시각적 아이템 크기의 1%로 설정된다.

L₁거리에 비해, 166 색상들(하나의 332 빈들 벡터를 제공)로 양자화된 HSV 색상 공간내의 색상 응집성은 검색 효율성, 연산적 비용 및 응답 시간에 관하여 시험된 최상의 시각적 기술자들인 것으로 판명되었다.

종래의 컬러 히스토그램들과 유사하게, 색상 응집 벡터들은 광 조건들의 변화에 민감할 수 있다. 광 독립적 색상 특질들을 유지하기 위한 방식은 HSV 색상 기술자들내의 빛깔 및 채도 콤포넌트들만을 사용하거나, 그 합을 통해 RGB 색상 공간의 적색, 녹색 및 청색을 정규화하는 것이 될 수 있다.

본 기술 분야의 숙련자들에게 널리 공지되어 있는, 조인트 히스토그램들은 색상 응집 벡터들과 컬러 히스토그램들의 일반화이다. 색상 응집성 뿐만아니라, 지역 화소 특징들의 세트를 고려함으로써, 이들은 다차원 히스토그램들로서 보여질 수 있다. 조인트 히스토그램내의 각 엔트리는 특징값들의 특정 조합에 의해 기술된 영상내에 다수의 화소들을 포함한다. 보다 명확하게는, l 번째 특징이 n_l가능값들을 가지는 k 특징들의 세트가 주어질 때, 조인트 히스토그램은 k 차원 벡터이며, 그래서, 조인트 히스토그램내의 각 엔트리가 특성값들의 k 개의 집합에 의해 설명되는 시각적 아이템내의 화소들의 비율을 포함한다. 따라서, 조인트 히스토그램의 크기는 n=Ц _l=1 ^kn_l이고, 각 특징의 값들의 가능한 조합들의 수이다. 컬러 히스토그램이 화소 색상의 밀도를 인코딩하기 때문에, 조인트 히스토그램은 몇몇의 화소 특징들의 조인트 밀도를 인코딩한다. 색상 응집 벡터는 색상들과 색상 응집성만을 특징들로서 사용하는 조인트 히스토그램으로 볼 수 있다. 컬러 그리드 히스토그램들은 특정 서브 영역에 속하는 위치와 색상들을 특징들로서 사용하는 조인트 히스토그램으로 볼 수 있다. 에지 밀도(화소의 에지 밀도는 화소을 둘러싸는 작은 이웃내의 화소들의 에지의 비율임), 텍스쳐드니스(화소의 텍스쳐드니스(texturedness)는그 강도가 화소값보다 많이 상이한 인접 이웃 화소들의 수임), 구배 크기(gradient magnitude)(구배 크기는 최대 변화의 방향으로 강도가 얼마나 신속하게 변화하는지의 척도임), 등급(rank)(화소 p의 등급은 그 강도가 p의 강도 보다 적은 지역적 이웃내의 화소들의 수로서 정의됨) 등의 일부 부가적인 특징들을 사용함으로써, 조인트 히스토그램들은 색상 응집 벡터들 보다 미세한 판별을 제공한다.

시각적 아이템으로부터 조인트 히스토그램을 추출하기 위한 절차는 시각적 내용을 특징짓기 위해 선택된 특징들에 의존한다. 선형적 시간에서 효과적으로 연산될 수 있는 통상적인 특징들이 선택된다.

조인트 히스토그램들로서 볼 수 있는 컬러 그리드 히스토그램들과 컬러 응집성 벡터들과는 별도로, 색상, 색상 응집성 및 평균 텍스쳐 복합성(average texture complexity)을 특징들로서 사용하는 조인트 히스토그램이 사용된다. 평균 텍스쳐 복합성은 MPEG-2 비디오 스트림들내에 이식된 압축된 도메인 정보의 장점을 취하여 추정된다. 각 블록의 이산 코사인 변환의 64 계수들은 그들이 고정된 임계값 위에 있는 경우 최대값으로 설정되고, 그들이 임계값 아래에 있는 경우 0으로 설정된다. 블록은 0이 아닌 화소들의 수가 다른 사전설정된 임계값 위에 있는 경우 "복합 (complex)"으로서 판정된다. 색상 및 색상 응집성에 부가적으로, 키-프레임의 각 화소는 그것이 속하는 블록의 텍스쳐 복합성에 따라 두 개의 클래스로 분류된다.

조인트 히스토그램의 평균 검색 성능들은 색상 응집성 벡터들을 채용함으로써 얻어진 것들과 비교할만 하다. 부가적인 텍스쳐 특징은 판별력을 향상시키지만, 상기 특징들을 구현하기 위한 비용은 상대적으로 높다.

I-프레임들이 키-프레임 검색 유효성을 향상시키기 위해 이용된다. 키-프레임들이 특정 기준들에 따라 선택되지 않는 경우에, 이때, 이웃하는 I-프레임들의 시각적 기술자들을 채용하는 것이 다음(이전) 유사 영상으로 건너뜀 기능의 검색 효과를 향상시킬 수 있다. 각 키-프레임을 위한 단 하나의 시각적 기술자를 고려하는 대신, 상기 키-프레임에 근접한 I-프레임들의 그룹의 모든 시각적 기술자들이 연산되고, 부가적으로, 그 거리가 질문에 가장 근접한 기술자를 이에 할당한다.

이 기술의 보다 상세한 설명이 이어진다. 각 샷(shot)에 대하여, 첫 번째 I-프레임이 키-프레임으로서 선택된다. 비디오 시퀀스 V=[f₀, f₁, …, f_n]가 주어지고, 여기서, f_i∈V가 i 번째 I-프레임일 때, k_q∈V는 질문 키-프레임이라 하고, 레인지(range)가 그 이상에서는 두 개의 영상들이 유사한 것으로 간주되지 않는 최대 거리라 한다.

마지막으로, 키-프레임 k_s에는 I-프레임 f'에 연관된 기술자 및 거리값 d가 할당된다.

양호한 구현에서, N개의 상이한 상수값들이 선택된다. 또한, 각 샷의 모든 I-프레임들이 이용되었다(이 경우에, N은 샷들의 길이들에 의존함).

영상 유사성 검색이 가능하며, 단일 프로그램의 키-프레임들에 걸쳐 수행될때 매우 효과적인 것으로 판명되었다. 상이한 프로그램들내에서의 검색을 수행하는 것도 가능하지만, 높은 수의 키-프레임들이 포함되기 때문에 보다 곤란하다. 수십만의 영상들에서, 주된 문제점들은 오판정(false positive)과 높은 응답 시간이다.

오판정들은 유사한 시각적 기술자들을 가진 상이한 영상들로 인한 것이다. 영상들이 많아질수록 매유 유사한 색상들을 가지지만 색상은 상이한 프레임들을 발견할 가능성이 보다 높아진다. 오판정의 수를 감소시키기 위해서, 즉, 검색의 정밀도를 증가시키기 위해서, 매우 식별력있는 시각적 기술자들이 사용될 수 있다.

매우 식별력있는 기술자들은 그 연산적 복합성으로 인해 응답 시간을 더 증가시킬 수 있다. 응답 시간을 감소시키기 위해서, 두가지 전략들이 적용될 수 있으며, 연계되어 사용될 수도 있다. 예비 필터링이라 공지되어 있는 첫 번째 전략은 잠재적인 유사 영상들의 첫 번째 세트를 선택하기 위해 거친(coarse) 기술자를 사용한다. 그후, 매우 판별력있고 연산적으로 고가인 기술자들만이 사용되어 첫 번째 세트내의 영상들을 선택하고, 따라서, 보다 수용가능한 응답 시간을 필요로하게 된다. 두 번째 전략은 기술자들의 비교시 순차적 스캐닝을 회피하는 것으로 이루어진다. R-트리, S-트리 또는 M-트리 같은 본 기술 분야에 널리 공지되어 있는 데이터 액세스 구조들은 전체 데이터베이스를 분석하지 않고 단지 관련 영상들만을 보유하는 것을 가능하게 하는 방식으로 기술자들을 조직하는 것을 허용한다. 이들 인덱스들은 기술자들이 벡터 또는 메트릭 공간들내의 지점들로서 모델링되는 것을 필요로하며, 이들은 데이터베이스 관리 시스템에 약간의 연산적 비용들을 추가한다. 따라서, 이들은 매우 큰 비디오(영상) 데이터베이스들을 위해 적합하다.

본 발명을 그 양호한 실시예들을 참조로 설명하였지만, 이들은 비제한적인 예들이라는 것을 이해하여야 한다. 따라서, 본 기술 분야의 숙련자들은 청구범위에 정의된 바와 같은 본 발명의 범주로부터 벗어나지 않고 다양한 변형들을 안출할 수 있다. 예로서, 기록물의 특징들을 포함하는 내용의 테이블은 사용자에게 보다 매력적인 기록물을 제조하는 서비스로서 제 3자에 의해 제공될 수 있다. 내용의 테이블이 사용자의 관심사에 기반하는 경우에, 그의 관심은 정보 신호의 부분들 사이의 유사성의 범위를 결정한다.

"포함하다"라는 동사와 그 활용형들은 청구항에 기술된 것 이외의 다른 구성 요소들 또는 단계들의 존재를 배제하는 것은 아니다. 또한, 구성 요소 앞에 부정관사를 사용하는 것은 이런 구성 요소들이 복수개 존재하는 것을 배제하는 것은 아니다. 청구범위에서, 괄호들 사이에 병기된 어떤 참조 부호들도 청구범위의 범주를 제한하는 것으로서 이해되어서는 안된다. 본 발명은 하드웨어 및 소프트웨어에 의해 구현될 수 있다. 다수의 "수단"은 하드웨어의 동일 아이템을 나타낼 수 있다. 부가적으로, 본 발명은 각각의 신규한 특징 또는 특징들의 조합으로 이루어진다.

Claims

제 1 저장 매체상에 저장된 정보 신호를 재생하는 장치로서,

- 상기 제 1 저장 매체로부터 상기 정보 신호를 판독하는 판독 수단과,

- 상기 정보 신호를 디스플레이 유닛에 공급하는 출력 수단과,

- 사용자가 상기 정보 신호를 액세스할 수 있도록, 명령들을 수신하는 사용자 제어가능 입력 수단를 포함하는, 상기 정보 신호 재생 장치에 있어서,

상기 사용자 제어가능 입력 수단은 임의의 순간에 제 1 명령을 수신하도록 적응되고,

상기 장치는 상기 정보 신호내의 제 2 위치에서 상기 저장 매체로부터 상기 정보 신호를 판독하는 것을 시작하도록 상기 판독 수단을 제어하는 수단을 더 포함하며, 상기 제 2 위치에 있는 상기 정보 신호는 상기 제 1 명령을 수신하는 상기 순간에 판독된 제 1 위치에 있는 상기 정보 신호의 특징들, 또는, 상기 순간 이전에 판독된 정보 신호의 특징들과의 유사성을 나타내는 특징들을 가지는 것을 특징으로 하는, 정보 신호 재생 장치.
제 1 항에 있어서,

상기 제어 수단은 제 2 저장 매체로부터 데이터 신호를 판독하도록 더 적응되며,

상기 데이터 신호는 상기 정보 신호내의 위치들 및 유사한 특징들을 가진 정보 신호내의 다른 위치들에 대한 정보를 포함하는 것을 특징으로 하는, 정보 신호 재생 장치.
제 2 항에 있어서,

상기 정보 신호로부터 상기 특징들을 추출하는 추출 수단과,

상기 데이터 신호를 얻도록 유사한 특징들을 가지는 위치들을 상기 추출된 특징들에 의존하여 결정하는 수단과,

상기 데이터 신호를 상기 제 2 저장 매체상에 기록하는 기록 수단을 더 포함하는 것을 특징으로 하는 정보 신호 재생 장치.
제 1 항에 있어서,

상기 특징들은 상기 정보 신호내의 위치들에 대응하는 영상들의 컬러 히스토그램과 관계를 가지는 것을 특징으로 하는, 정보 신호 재생 장치.
제 1 항에 있어서,

상기 특징들은 상기 정보 신호내의 위치들에 대응하는 영상들의 컬러 그리드 히스토그램(colour grid histogram)과 관계를 가지는 것을 특징으로 하는, 정보 신호 재생 장치.
제 1 항에 있어서,

상기 특징들은 상기 정보 신호내의 위치들에 대응하는 영상들의 컬러 구조 히스토그램과 관계를 가지는 것을 특징으로 하는, 정보 신호 재생 장치.
제 1 항에 있어서,

상기 사용자 제어가능 입력 수단은 상기 순간에 상기 정보 신호내의 위치에 후속하는 위치에 있는 상기 정보 신호를 판독하는 것을 시작하도록 상기 판독 수단을 제어하는 입력 수단을 포함하는 것을 특징으로 하는, 정보 신호 재생 장치.
제 1 항에 있어서,

상기 사용자 제어가능 입력 수단은 상기 순간에 상기 정보 신호내의 위치에 선행하는 위치에 있는 상기 정보 신호를 판독하는 것을 시작하도록 상기 판독 수단을 제어하는 입력 수단을 포함하는 것을 특징으로 하는, 정보 신호 재생 장치.
제 1 저장 매체상에 저장된 정보 신호를 재생하는 방법으로서,

- 상기 제 1 저장 매체로부터 상기 정보 신호를 판독하는 단계와,

- 상기 정보 신호를 디스플레이 유닛에 공급하는 단계와,

- 사용자가 상기 정보 신호를 액세스할 수 있도록 명령들을 수신하는 단계를 포함하는, 상기 정보 신호 재생 방법에 있어서,

- 임의의 순간에 제 1 명령을 수신하는 단계와,

- 상기 정보 신호내의 제 2 위치에서 상기 저장매체로부터 상기 정보 신호를판독하는 것을 시작하는 단계(sart reading)로서, 상기 제 2 위치에 있는 상기 정보 신호는 상기 제 1 명령을 수신하는 상기 순간에 판독된 제 1 위치에 있는 상기 정보 신호와 유사성을 나타내거나 또는, 상기 순간 이전에 판독된 상기 정보 신호의 부분과 유사성을 나타내는, 상기 정보 신호 판독 시작 단계를 더 포함하는 것을 특징으로 하는 정보 신호 재생 방법.
제 9 항에 따른 방법을 프로세서가 실행할 수 있도록 하는 컴퓨터 프로그램.
제 10 항에 따른 컴퓨터 프로그램을 담고 있는 유형 매체(tangible medium).
제 10 항에 따른 컴퓨터 프로그램을 담고 있는 신호.