KR20040018395A

KR20040018395A - 영상 특징량 부호화 방법 및 영상 특징량 복호 방법

Info

Publication number: KR20040018395A
Application number: KR10-2003-7016971A
Authority: KR
Inventors: 세키구치슈니치; 야마다요시히사; 제임스쵸우; 아사이코타로
Original assignee: 미쓰비시덴키 가부시키가이샤
Priority date: 1999-01-29
Filing date: 1999-01-29
Publication date: 2004-03-03
Also published as: KR20010108159A; EP1185106A1; AU2076199A; US20030174906A1; US20050267879A1; JP4536261B2; US6611628B1; KR101033866B1; CN1229996C; CN1333976A; WO2000045600A1; US20090110296A1; US7302117B2; EP1185106A4; US7013051B2; KR20070086104A

Abstract

특징 부호화부(5)는 비디오 신호(102)의 특징량을 추출·부호화하고, 특징 스트림(103)을 생성한다. 특징 식별부(11)는 특징 스트림(103)을 복호한 복호 특징량(109)과 사용자로부터의 검색 키(108)의 매칭을 행하여, 사용자가 구한 비디오 콘텐츠(111)를 검색한다.

Description

영상 특징량 부호화 방법 및 영상 특징량 복호 방법{Method of image feature encoding and method of image feature decoding}

본 발명은 아날로그 또는 디지털로 기록된 영상, 정지 화상 등의 화상 데이터의 특징량을 추출·부호화하고, 부호화된 특징량을 이용하여 화상 데이터의 검색을 행하는 화상 특징 부호화 방법 및 화상 검색 방법에 관한 것이다.

도 1은 전자 정보 통신 학회 논문지 D-II, 1996년 4월호(Vol.79-D-II, No.4, pp.476-483)에 기재된 종래의 화상 검색 처리 시스템을 설명하는 블록도이다. 도면에 있어서, 91은 정지 화상(201)을 각 세그먼트로 영역 분할하고, 분할된 각 세그먼트에 대하여 키워드를 부여하여, 개념 키워드(203)와 장면(scene) 기술(記述) 키워드(204)를 출력하는 전처리부이며, 92는 사용자(97)가 미리 준비되어 있는 키워드(205)를 입력하고, 개념 키워드(203)와 장면 기술 키워드(204)를 대조하여, 정지 화상(201)을 검색하는 검색 툴이다.

여기서, 개념 키워드(203)는 각 세그먼트의 색 정보 및 특징량을 나타내는 키워드이며, 장면 기술 키워드(204)는 각 세그먼트의 화상 특징량을 「위치」, 「색」, 「형상」, 「크기」, 「방향」 등에 관한 술어를 사용하여 표현한 키워드이다.

도 1의 전처리부(91)에 있어서, 93은 정지 화상(201)을 각 세그먼트로 영역 분할하는 영역 분할부, 94는 색 정보에 대하여 미리 할당되어 있는 개념 키워드를 사용하여, 영역 분할부(93)에 의해 분할된 각 세그먼트의 색 및 특징량으로부터 개념 키워드(203)를 추출하는 개념 키워드 추출부, 95는 영역 분할부(93)에 의해 분할된 각 세그먼트의 화상 특징량에 대해서, 사용자(96)가 미리 정의되어 있는 술어로부터 선택하여 기술하는 술어 기술(述語記述)(202)을 입력함으로써, 장면 기술 키워드(204)를 기술하는 장면 기술 키워드 기술부이다.

도 1의 검색 툴(92)에 있어서, 98은 사용자(97)가 선택한 키워드(205)와 전처리부(91)로부터의 개념 키워드(203), 장면 기술 키워드(204)로부터 특징량의 식별(identification)을 행하는 특징 식별부이다.

다음에 동작에 대해서 설명한다.

정지 화상(201)이 전처리부(91)에 입력되면, 영역 분할부(93)는 정지 화상(201)을 각 세그먼트로 영역 분할한다. 개념 키워드 추출부(94)는 색 정보에 대하여 미리 할당되어 있는 개념 키워드를 사용하여, 분할된 각 세그먼트의 색 및 특징량으로부터 개념 키워드(203)를 추출한다.

또한, 장면 기술 키워드 기술부(95)는 분할된 각 세그먼트의 화상 특징량에 대해서, 사용자(96)로부터의 술어 기술(202)에 의해 장면 기술 키워드(204)를 기술한다.

사용자(97)는 정지 화상(201)을 검색하는데 있어서, 미리 준비되어 있는 개념 키워드(203)나 장면 기술 키워드(204) 중에서 선택한 키워드(205)를 검색 툴(92)에 입력한다. 특징 식별부(98)는 사용자(97)로부터의 키워드(205)와, 전처리부(91)로부터의 개념 키워드(203), 장면 기술 키워드(204)로부터 특징량의 식별을 행하여, 사용자(97)가 구하는 정지 화상(201)을 검색한다.

상기의 화상 검색 처리 시스템은 정지 화상(201)만을 대상으로 하고 있기 때문에, 동화상을 검색하는 것이 곤란하다고 하는 과제가 있었다.

또한, 각 키워드의 기술 방법·기억 방법 등에 대해서 고려되고 있지 않기 때문에, 화상 서버와 클라이언트(검색 툴(92))는 1 대 1로 대응할 필요가 있고, 네트워크를 통해서 많은 사용자가 여러 가지의 검색 툴을 사용하여 화상 검색을 행하는 화상 검색 처리 시스템을 구축할 수 없다고 하는 과제가 있었다.

본 발명은 상기한 바와 같은 과제를 해결하기 위해서 이루어진 것으로, 많은 사용자가 여러 가지의 검색 툴을 사용하여 화상을 검색할 수 있는 화상 특징 부호화 방법 및 화상 검색 방법을 얻는 것을 목적으로 한다.

도 1은 종래의 화상 검색 처리 시스템을 도시하는 블록도.

도 2는 본 발명이 이용되는 전형적인 시스템 구성을 도시하는 블록도.

도 3은 비디오 콘텐츠와 특징 스트림의 대응을 설명하는 도면.

도 4는 본 발명의 실시예 1에 의한 특징 부호화부(5)의 내부 구성을 도시하는 블록도.

도 5는 본 발명의 실시예 1에 의한 특징 부호화부(5)의 동작을 도시하는 순서도.

도 6은 도 4에 있어서의 키 프레임 결정부(21)의 내부 구성을 도시하는 블록도.

도 7은 도 4에 있어서의 키 프레임 결정부(21)의 다른 내부 구성을 도시하는 블록도.

도 8은 세그먼트를 설명하는 도면.

도 9는 비디오 시퀀스 중에서의 세그먼트의 위치 부여를 설명하는 도면.

도 10은 도 4에 있어서의 세그먼트 추출부(23)의 내부 구성을 도시하는 블록도.

도 11은 MPEG-4의 비디오 오브젝트 플레인(VOP)을 설명하는 도면.

도 12는 도 10의 세그먼트 추출부(23)를 사용하는 경우의 특징 부호화부(5)에 의한 특징 스트림(103)의 구성을 도시하는 도면.

도 13은 컬러 맵 테이블(128)의 구체적인 예를 도시하는 도면.

도 14는 본 발명의 실시예 2에 의한 세그먼트 추출부(23)의 내부 구성을 도시하는 블록도.

도 15는 도 14의 세그먼트 추출부(23)를 사용하는 경우의 특징 부호화부(5)에 의한 특징 스트림(103)의 구성을 도시하는 도면.

도 16은 본 발명의 실시예 3에 의한 세그먼트 추출부(23)의 내부 구성을 도시하는 블록도.

도 17은 도 16의 세그먼트 추출부(23)를 사용하는 경우의 특징 부호화부(5)에 의한 특징 스트림(103)의 구성을 도시하는 도면.

도 18은 본 발명의 실시예 4에 의한 특징 식별부(11)의 내부 구성을 도시하는 블록도.

도 19는 본 발명의 실시예 5에 의한 우선도 부여 검색 후보 제시의 예를 도시하는 도면.

본 발명에 따른 화상 특징 부호화 방법은 화상 프레임으로부터 소정의 화상 영역인 세그먼트를 추출하고, 추출한 상기 세그먼트마다 상기 세그먼트를 식별하는 세그먼트 번호를 부여하고, 상기 세그먼트에 대표 색을 할당하고, 상기 세그먼트의 상기 화상 프레임에 대한 면적률을 산출하고, 상기 세그먼트마다 상기 대표 색 및 상기 면적률을 상기 세그먼트의 특징량으로서 상기 세그먼트 번호와 함께 부호화하여 특징 스트림을 생성하는 것이다.

이에 의해서, 화상 검색에 사용하는 대표 색 및 면적률을 세그먼트의 특징량으로 한 특징 스트림을 생성할 수 있는 효과를 얻는다.

본 발명에 따른 화상 특징 부호화 방법은 화상 프레임으로부터 세그먼트를추출할 때, 색 정보에 근거하는 영역 분류에 의해 상기 세그먼트를 추출하고, 상기 세그먼트에 대표 색을 할당할 때, 상기 세그먼트의 추출에 사용한 상기 색 정보를 상기 대표 색으로서 할당하는 것이다.

본 발명에 따른 화상 특징 부호화 방법은 화상 프레임으로부터 세그먼트를 추출할 때, 인접하는 화상 프레임 간에서 상기 세그먼트의 식별을 행하고, 같은 세그먼트라고 판정된 세그먼트에 대하여 동일한 세그먼트 번호를 부여하는 것이다.

이에 의해서, 검색 효율을 향상 가능한 특징 스트림을 생성할 수 있는 효과를 얻는다.

본 발명에 따른 화상 특징 부호화 방법은 화상 프레임으로부터 세그먼트를 추출할 때, 인접하는 화상 프레임 간에서 세그먼트의 추적을 행하여, 같은 세그먼트라고 판정된 세그먼트에 대하여 움직임 정보를 구하고, 상기 세그먼트마다 상기 움직임 정보를 상기 세그먼트의 특징량으로서 부호화하여 특징 스트림을 생성하는 것이다.

이에 의해서, 움직임 정보에 의해 화상 프레임을 검색 가능한 특징 스트림을 생성할 수 있는 효과를 얻는다.

본 발명에 따른 화상 특징 부호화 방법은 비디오 신호의 프레임군으로부터 검색의 단서로서 적절한 화상 프레임을 키 프레임으로서 추출하고, 추출한 키 프레임으로부터 세그먼트를 추출하는 것이다.

이에 의해서, 화상 검색의 단서가 되는 키 프레임의 특징 스트림을 생성할 수 있는 효과를 얻는다.

본 발명에 따른 화상 특징 부호화 방법은 키 프레임의 소정 영역마다의 화소치의 평균값을 구하여 상기 키 프레임의 축소 화상을 생성하고, 상기 키 프레임마다 상기 축소 화상을 상기 키 프레임의 특징량으로서 부호화하여 특징 스트림을 생성하는 것이다.

이에 의해서, 러프하게 브라우즈 가능한 축소 화상을 생성할 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 화상 프레임을 기억하는 제 1 기억부와, 상기 제 1 기억부에 기억하고 있는 화상 프레임의 특징량을 부호화하여 특징 스트림으로서 기억하는 제 2 기억부를 구비하여 화상 검색을 행함에 있어서, 사용자로부터의 검색 지시에 근거하여, 상기 제 2 기억부에 기억하고 있는 상기 특징량을 복호하고, 사용자로부터의 검색 조건과 상기 복호한 특징량의 식별을 행하고, 상기 제 1 기억부에 기억하고 있는 화상 프레임을 검색하는 것이다.

이에 의해서, 사용자는 여러 가지의 검색 툴을 사용하여 화상 프레임을 검색할 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 화상 프레임에 있어서의 소정의 화상 영역인 세그먼트의 대표 색을 포함하고, 사용자로부터의 검색 조건으로서 상기 대표 색을 포함하는 것이다.

이에 의해서, 사용자는 세그먼트의 대표 색에 의해 화상 프레임을 검색할 수있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 화상 프레임에 있어서의 소정의 화상 영역인 세그먼트의 상기 화상 프레임에 대한 면적률을 포함하고, 사용자로부터의 검색 조건으로서 상기 면적률을 포함하는 것이다.

이에 의해서, 사용자는 세그먼트의 면적률에 의해 화상 프레임을 검색할 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 인접하는 화상 프레임의 움직임 정보를 포함하고, 사용자로부터의 검색 조건으로서 상기 움직임 정보를 포함하는 것이다.

이에 의해서, 사용자는 움직임 정보에 의해 화상 프레임을 검색할 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 화상 프레임의 축소 화상을 포함하고, 사용자로부터의 검색 조건과 상기 복호한 특징량의 식별을 행하여, 상기 축소 화상을 상기 사용자에게 제시하는 것이다.

이에 의해서, 사용자는 축소 화상에 의해 화상 프레임을 효율적으로 검색할 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 지정된 피사체가 화상 프레임에 존재하는지의 여부의 정보를 포함하는 것이다.

이에 의해서, 사용자는 화상 데이터의 검색 효율을 향상시킬 수 있는 효과를얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 지정된 피사체가 이후의 화상 프레임에 존재하는지의 여부의 정보를 포함하는 것이다.

이에 의해서, 사용자는 화상 데이터의 검색 효율을 향상시킬 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 제 2 기억부에 기억하고 있는 특징량으로서, 지정된 피사체가 이전의 화상 프레임에 존재하는지의 여부의 정보를 포함하는 것이다.

본 발명에 따른 화상 검색 방법은 사용자로부터의 검색 조건과 복호한 특징량의 식별을 행할 때, 우선도를 사용자에게 제시하는 것이다.

이에 의해서, 사용자는 요구에 의거한 화상 데이터를 신속하게 검색할 수 있는 효과를 얻는다.

본 발명에 따른 화상 검색 방법은 사용자로부터의 검색 조건과 복호한 특징량의 식별을 행할 때, 사용자로부터의 복수의 검색 조건과 복호한 복수의 특징량의 식별을 행하고, 종합적으로 판단하여, 제 1 기억부에 기억하고 있는 화상 프레임을 검색하는 것이다.

이하, 본 발명을 더욱 상세하게 설명하기 위해서, 본 발명을 실시하기 위한 실시예에 대해서 첨부 도면을 참조하여 설명한다.

실시예 1

본 실시예 1에서는 비디오 시퀀스 중에 포함되는 피사체에 착안하여, 각 프레임에 포함되는 피사체 영역을 둘러싸는 직사각형 영역을 세그먼트로 정의하고, 비디오 신호의 각 프레임 중에서 세그먼트를 추출하고, 그 특징량을 구하여 특징 스트림을 생성하는 처리를 행하는 장치에 대해서 설명한다.

우선, 전제로서 동 장치를 사용하는 시스템에 대해서 설명한다. 도 2는 본 발명이 이용되는 전형적인 시스템 구성을 도시하는 블록도이다. 도면에 있어서, 1은 클라이언트, 2는 서버, 3은 비디오 콘텐츠(111)를 기억하고 있는 비디오 콘텐츠 기억부, 4는 비디오 콘텐츠 기억부(3)에 기억되어 있는 비디오 콘텐츠(111) 중에서 디지털 압축된 비트 스트림(101)을 복호하고, 비디오 신호(102)를 출력하는 복호 처리부이다.

또한, 도 2에 있어서, 5는 복호 처리부(4)에 의해 복호된 비디오 신호(102)를 입력하여, 특징 스트림(103)을 생성하는 특징 부호화부, 6은 사용자 지시·설정(104)에 의해, 특징 부호화부(5)를 제어하는 사용자 I/F, 7은 특징 부호화부(5)에 의해 생성된 특징 스트림(103)을 기억하는 특징 스트림 기억부이다. 비디오 콘텐츠 기억부(3)와 특징 스트림 기억부(7)는 서버(2) 내에 각각 설치되어 있지만, 동일한 기억부에 기억되어 있어도 좋다.

클라이언트(1)에 있어서, 8은 사용자 지시·설정(105)에 의해, 클라이언트(1)의 제어를 위해서, 검색 제어 신호(106)를 출력하는 사용자 I/F, 9는 검색 제어 신호(106)를 입력하여 검색 지시(107)와 검색 키(108)를 출력하는 검색 처리부이다.

또한, 도 2에 있어서, 10은 검색 처리부(9)로부터의 검색 지시(107)에 의해, 특징 스트림 기억부(7)에 기억되어 있는 특징 스트림(103)을 복호하고, 복호 특징량(109)을 출력하는 특징 복호부, 11은 검색 처리부(9)로부터의 검색 키(108)와, 특징 복호부(10)로부터의 복호 특징량(109)을 입력하여 매칭 처리를 행하고, 특징 스트림 번호를 나타내는 포인터(110)를 출력하는 특징 식별부이다. 111은 특징 식별부(11)가 출력한 포인터(110)에 의해, 비디오 콘텐츠 기억부(3)로부터 출력된 비디오 콘텐츠이다.

다음에 동작에 대해서 설명한다.

도 2에 도시되는 시스템은 비디오 콘텐츠 기억부(3)에 보유되는 각각의 비디오 콘텐츠(111)에 대응된 특징 스트림(103)에 근거하여, 사용자가 원하는 비디오 콘텐츠(111)를 검색·브라우즈(선택 판독)하는 시스템이다. 여기서는 편의상, 서버·클라이언트 모델을 사용하여, 검색 시스템을 클라이언트(3), 콘텐츠 기억·송출 시스템을 서버(4)로 간주하고 설명한다.

클라이언트(3)와 서버(4)는 네트워크를 통해서 동작하여도 좋고, 동일 장치 내에서 동작하여도 좋다. 도 2에서는 네트워크 경유의 동작은 편의상 도시하지 않지만, 이하에 네트워크 처리에 필요한 동작은 적시 설명한다.

(1) 특징 스트림의 의의

도 3은 비디오 콘텐츠(111)와 특징 스트림(103)의 대응을 설명하는 도면이다. 도면에 있어서, VC는 비디오 콘텐츠(Video Content)(111)를 도시하고, FS는 특징 스트림(Feature Stream)(103)을 도시하고 있다. VC 및 FS 각각에 대응하는 번호를 부여하고 있고, FSn은 비디오 콘텐츠(VCn)의 특징량을 기술한 특징 스트림이다. VCn과 FSn은 각 포인터(110)에 의해 대응되고 있다.

도 3에 도시하는 바와 같이, VC1의 제 k 프레임에 「파란 하늘」이 포함되어 있다고 하면, FS1은 VC1의 제 k 프레임에 「대표 색이 파랑이고, 또한 프레임 화면 중의 80%를 차지하는 영역」이 존재하는 것을 기술한다. 이와 같이, 특징량을 속성으로서 갖는 영역을 이하에서는 세그먼트라고 한다. 이것에 의해, 도 2에 있어서의 클라이언트(1)로부터 「대표 색이 파랑이고, 또한 프레임 화면 중의 80%를 차지하는 세그먼트」라는 지정을 행함으로써, 특징 스트림(103)으로부터 대응하는 특징량을 찾아내고, 대응하는 프레임 화면을 포함하는 비디오 콘텐츠(111)를 인출하는 것을 가능하게 한다.

특징량으로서는 대표 색, 사이즈, 화면 내 위치, 형상, 위치의 변화(움직임), 밝기·색의 변화, 콘트라스트 등 여러 가지 속성을 정의할 수 있다. 물론, 특징량의 지정 방법은 임의로서, 클라이언트(1)의 검색 처리부(9)에 적당한 해석 기능을 마련함으로써, 사용자는 더욱 직감적인 지정을 행하도록 할 수도 있다.

이와 같이, 비디오 콘텐츠(VCn)(111) 중의 특징량을 특징 스트림(FSn)(103)에 기술하여 둠으로써, 사용자는 대량의 비디오 콘텐츠(111)의 데이터 중에서 직감적인 검색 키(108)를 사용하여 원하는 콘텐츠(111)를 찾아내는 것이 용이해진다. 이러한 검색 방법은 지극히 방대한 수의 비디오 콘텐츠(111)를 포함하는 비디오 라이브러리·데이터베이스, 비디오 테이프 등으로부터 원하는 콘텐츠(111)를 찾아내는 처리를 효율화할 수 있다.

2) 특징 스트림의 생성

특징 스트림(103)의 생성 처리는 비디오 콘텐츠(VCn)(111)에 대응하는 특징 스트림(FSn)(103)을 생성하여, 특징 스트림 기억부(7)에 격납하는 처리에 상당한다. 이 처리를 행하는 것은 복호 처리부(4), 특징 부호화부(5), 사용자 I/F(6)이다. 복호 처리부(4)는 비디오 콘텐츠(VCn)(111)가 디지털 압축된 비트 스트림(101)의 형식으로 기억되어 있는 경우에만 필요하며, 비디오 신호(102)를 출력한다. 비디오 콘텐츠(VCn)(111)가 직접 표시 가능한 화상 데이터인 경우에는 복호 처리부(4)는 불필요하다.

특징 부호화부(5)는 비디오 신호(102)에 근거하여, 특징 스트림(FSn)(103)을 생성하여 특징 스트림 기억부(7)에 격납한다. 특징 스트림(103)의 생성 처리의 상세한 것은 후술한다.

(3) 검색 처리

검색 처리는 클라이언트(1)에 의해 행해진다. 클라이언트(1)는 사용자가 비디오 콘텐츠 기억부(3)에 기억되어 있는 비디오 콘텐츠(111) 중에서 원하는 콘텐츠(111)를 검색하기 위한 처리부이다. 사용자는 사용자 지시·설정(105)에 의해, 클라이언트(1)의 사용자 I/F(8)를 통해, 특징 스트림(103)으로서 부호화되어 있는 특징량에 대응하는 값을 구하기 위해서 검색 제어 신호(106)를 검색 처리부(9)에 부여한다.

도 3을 예로 들어, 「파란 하늘」이 포함되는 비디오 콘텐츠(VC1)(111)를 모든 비디오 콘텐츠(VCn)(111) 중에서 검색하는 예를 간단하게 설명한다. 이 검색 처리는 모든 특징 스트림(FSn)(103)에 대하여, 「파란 하늘」을 나타내는 특징량을 서치하고, 그것을 포함하는 특징 스트림(FSn)(103)에 대응하는 비디오 콘텐츠(VCn)(111)를 특정하는 처리이다. 검색 처리부(9)는 검색 제어 신호(106)로부터 검색해야 할 특징량의 값을 구하여, 검색 키(108)로서 송출하는 동시에, 검색 지시(107)를 액티브하게 한다.

만일, 클라이언트(1)와 서버(2)가 네트워크 접속되어 있다고 하면, 검색 지시(107)와 검색 키(108)는 네트워크를 통해 서버(2) 및 특징량 식별 처리를 행하는 장치(특징 복호부(10)와 특징 식별부(11))로 전송된다.

검색 지시(107)가 액티브해지면, 특징 복호부(10)는 특징 스트림 기억부(7)로부터 순차 특징 스트림(FSn)(103)을 추출하고, 특징 스트림(103)으로부터 특징량의 값을 복호한다. 그 결과, 얻어진 복호 특징량(109)은 특징 식별부(11)에서 검색 키(108)와 매칭 처리된다. 여기서, 검색 키(108)와 일치하는 복호 특징량(109)이 발견된 경우에는 대응하는 특징량을 포함하는 특징 스트림(103)의 포인터(110)로 비디오 콘텐츠(VCn)(111)를 특정한다. 도 3의 예에서는 「파란 하늘」을 포함하는 것이 VC1뿐이기 때문에, FS1에 있어서의 제 k 프레임번째의 세그먼트 중에 검색 키(108)에 일치하는 복호 특징량(109)이 발견되어, VC1의 제 k 프레임이 검색 결과로서 출력된다.

여기서, 특징량 식별 처리를 행하는 장치(특징 복호부(10)와 특징 식별부(11))는 클라이언트(1)에 포함되어 있어도 좋고, 서버(2)에 포함되어 있어도 좋으며, 네트워크 중에 존재하는 별도의 장치에 포함되어 있어도 좋다. 물론, 클라이언트(1)와 서버(2)가 동일 장치로 되어 있는 경우는 동일 장치 내에 포함된다.

검색 결과로서 출력된 비디오 콘텐츠(111)는 클라이언트(1)에게 보내어지고, 사용자는 사용자 I/F(8)에 의해, 그 화상의 내용을 브라우즈할 수 있다. 또한, 「파란 하늘」을 나타내는 특징량에 의해, 검색 결과로서 복수의 비디오 콘텐츠(111)가 발견된 경우에도, 사용자 I/F(8)에 표시함으로써, 복수의 비디오 콘텐츠(111)를 브라우즈하도록 할 수도 있다. 이러한 시스템에 의해서, 사용자는 직접 비디오 콘텐츠(111)의 내용을 전부 브라우즈하지 않고, 원하는 세그먼트를 포함하는 비디오 콘텐츠(111)로만 좁혀서 내용을 확인할 수 있어, 검색의 효율이 향상된다.

(4) 인터랙티브(interactive) 기능

동 시스템에 있어서는 특징 부호화부(5)가 비디오 신호(102)로부터 특징 스트림(103)을 생성할 때, 사용자 지시·설정(104)에 의해, 사용자 I/F(6)를 통해서 비디오 콘텐츠(VCn)(111)에 포함되는 세그먼트를 정의하기 위한 각종의 조건 설정이나 세그먼트의 추가·삭제, 또는 세그먼트를 정의하는 프레임 위치 설정 등, 사용자가 임의로 특징 스트림(103)의 생성 처리를 제어할 수 있다.

(5) 특징 스트림의 전송·분배(distribution)

특징 스트림(FSn)(103)은 대응하는 비디오 콘텐츠(VCn)(111)로의 포인터(112)를 갖는 한, 비디오 콘텐츠(111)와 함께 서버(2)에 격납하여 둘 필요는 없고, 어디에 존재하고 있어도 좋다. 예를 들면, 특징 스트림(103)만이 포함되는 CD-ROM이 있고, 클라이언트(1)에 있어서, 해당 CD-ROM을 판독함으로써, 특징 스트림(103)에 대응하는 비디오 콘텐츠(111)의 장소를 특정할 수도 있다. 이 경우, 예를 들면, 특징 스트림(103)이 비디오 콘텐츠의 URL(Uniform Resource Locator) 등을 보유하고 있으면 된다.

또한, 일반적으로, 특징 스트림(103)은 비디오 콘텐츠(111)의 데이터량에 비교하여 작기 때문에, 보다 작은 축적 미디어에 격납하고, 노트형 PC(Personal Computer)나 PDA(Personal Digital Assistants) 등의 휴대 단말에서 이용하는 것도 가능하다.

또한, 특징 스트림(103)은 비디오 콘텐츠(111)에 부가하여, 네트워크를 통해서 전송·분배할 수도 있다. 상기 (4)에서 설명한 인터랙티브 기능에 의해, 특징 스트림(103)을 수신한 측에서, 다시 특징 스트림(103)의 내용을 가공·편집하여, 재이용·재분배도 할 수 있기 때문에, 모든 미디어 사이에서 검색의 자유도를 잃지 않고, 비디오 콘텐츠(111)를 자유롭게 유통할 수 있다.

다음으로, 특징 스트림(103)의 생성 처리에 대해서 상세하게 설명한다.

특징 스트림(103)의 생성 처리는 상술한 바와 같이, 주로 특징 부호화부(5)에 있어서 행하여진다. 도 4는 실시예 1에 의한 특징 부호화부(5)의 내부 구성을 도시하는 블록도이다. 도면에 있어서, 21은 비디오 신호(102)를 입력하여 키 프레임 설정 지시(121)에 근거하여 키 프레임을 결정하고, 키 프레임 번호(122)와 키 프레임 화상(123)을 출력하는 키 프레임 결정부, 22는 키 프레임 결정부(21)로부터의 비디오 신호(102)를 모니터하는 모니터부이다.

또한, 도 4에 있어서, 23은 키 프레임 결정부(21)가 결정한 키 프레임 화상(123)으로부터 세그먼트를 추출하고, 세그먼트의 대표 색(125), 세그먼트 번호(126)를 출력하는 동시에, 예를 들면 비디오 콘텐츠(111)의 복호시에 출력되는 키 프레임 사이즈(124)에 의해, 세그먼트의 사이즈 정보(127)를 출력하는 세그먼트 추출부이다.

또한, 도 4에 있어서, 24는 세그먼트 추출부(23)로부터의 세그먼트의 대표 색(125)을 컬러 맵 테이블(128)을 사용하여 부호화하고, 부호화된 세그먼트의 대표 색(129)을 출력하는 동시에, 세그먼트 번호(126), 세그먼트의 사이즈 정보(127)를 부호화하고, 부호화된 세그먼트 번호(130), 부호화된 세그먼트의 사이즈 정보(131)를 출력하는 세그먼트 부호화부이다.

또한, 도 4에 있어서, 25는 키 프레임 화상(123)으로부터 축소 화상을 생성하고, 축소 화상 데이터(132)를 출력하는 축소 화상 생성부, 26은 축소 화상 데이터(132)를 부호화하고, 부호화된 축소 화상 데이터(133)를 출력하는 축소 화상 부호화부이다.

또한, 도 4에 있어서, 27은 컬러 맵 테이블(128), 부호화된 세그먼트의 대표 색(129), 부호화된 세그먼트 번호(130), 부호화된 세그먼트의 사이즈 정보(131), 부호화된 축소 화상 데이터(133)를 다중화하는 다중화부이다.

다음에 특징 부호화부(5)의 동작에 대해서 설명한다.

도 5는 실시예 1에 의한 특징 부호화부(5)의 동작을 도시하는 순서도이다.

(A) 키 프레임의 결정

먼저, 키 프레임 결정부(21)에 있어서, 비디오 콘텐츠(111) 중의 키가 되는 프레임 화상인 키 프레임을 결정한다(단계 ST1). 키 프레임은 비디오 콘텐츠(111) 중의 의미 내용의 변화점(장면 전환)이 되는 프레임이나 사용자가 특히 검색시의 특징점으로 하고자 하는 프레임으로 정의한다.

도 6은 도 4에 있어서의 키 프레임 결정부(21)의 내부 구성을 도시하는 블록도이다. 도 6에 있어서, 31은 비디오 신호(102)의 프레임 번호를 카운트하는 프레임 카운터, 32는 키 프레임 설정 지시(121)에 의해 키 프레임 번호(122)를 출력하는 스위치, 33은 키 프레임 설정 지시(121)에 의해 키 프레임 화상(123)을 출력하는 스위치이다. 도 6에서는 사용자가 비디오 신호(102)를 모니터부(22)에 의해 모니터링하면서, 원하는 프레임을 키 프레임으로서 지정한다.

비디오 신호(102)는 1 프레임마다 키 프레임 결정부(21)에 입력되고, 프레임 카운터(31)에 의해 프레임 번호가 카운트된다. 프레임 카운터(31)는 비디오 신호(102)의 최초의 입력 시점에서 제로로 리셋된다.

또한, 비디오 신호(102)는 동시에 모니터부(22)로 보내어지고, 사용자는 모니터부(22)에 표시되는 비디오 신호(102)를 보면서, 키 프레임으로 해야 할 프레임을 선택한다. 선택 지시는 키 프레임 설정 지시(121)를 액티브하게 함으로써 행한다. 키 프레임 설정 지시(121)가 액티브되면, 스위치(32)는 선택한 키 프레임의프레임 번호를 키 프레임 번호(122)로서 출력하고, 스위치(33)는 선택한 키 프레임의 키 프레임 화상(123)을 출력한다.

도 7은 도 4에 있어서의 키 프레임 결정부(21)의 다른 내부 구성을 도시하는 블록도이다. 도 7에 있어서, 41은 비디오 신호(102)로부터 장면 전환을 검출하고, 키 프레임 화상(123)과 키 프레임 설정 지시(141)를 출력하는 장면 전환 검출부, 42는 키 프레임 설정 지시(141)에 의해 키 프레임 번호(122)를 출력하는 스위치이다. 프레임 카운터(31)는 도 6에 있어서의 프레임 카운터(31)와 동일하다. 여기서는 키 프레임은 장면 전환점에 위치하는 프레임으로서 있고, 키 프레임 결정부(21)는 장면 전환 검출부(41)를 구비하고 있다.

비디오 신호(102)는 도 6에 도시하는 키 프레임 결정부(21)와 마찬가지로, 프레임 카운터(31)에 입력되어 프레임 번호가 카운트되는 동시에, 장면 전환 검출부(41)에 입력되어 장면 전환 검출이 실시된다. 장면 전환 검출 방법에 대해서는 나가사키, 미야다케, 우에다 「컷의 시계열 코딩에 근거하는 영상 장면의 실시간 식별법」(전자 정보 통신 학회 논문지, D-II, Vol.J79-D-II, No.4, pp.531-537) 등의 선행 기술이 있지만, 본 발명에서는 구체적인 알고리즘은 대상 외로 한다.

장면 전환이 검출되면, 키 프레임 설정 지시(141)가 액티브해지고, 스위치(42)는 이에 따라서, 그 시점에서의 프레임 카운트값을 키 프레임 번호(122)로서 출력한다. 또한, 장면 전환 검출부(41)는 검출된 장면 전환 프레임을 키 프레임 화상(123)으로서 출력한다.

또한, 도시는 하지 않았지만, 일정 간격으로 나타나는 인트라 부호화 프레임을 키 프레임에 설정하는 것도 가능하다. 예를 들면, MPEG(Moving Picture Experts Group)-1이나 MPEG-2, MPEG-4에서는 프레임 전체를 프레임간 예측을 사용하지 않고서 부호화하는 인트라 부호화 프레임 모드가 있으며, 특히 인트라 부호화 프레임은 비디오 콘텐츠(111)의 부호화 중에 주기적으로 삽입하여, 랜덤 액세스의 포인트 등에 이용하는 경우가 많다. 따라서, 키 프레임으로서의 요건을 만족하고 있다고 생각된다.

(B) 세그먼트의 추출

키 프레임 화상(123)이 선택되면, 도 4에 있어서의 세그먼트 추출부(23)가 키 프레임 화상(123) 중에 포함되는 세그먼트를 추출한다. 여기서, 세그먼트는 키 프레임 상의 지정 영역, 또는 비디오 콘텐츠(111) 중에 나타나는 피사체 등의 물체(=오브젝트)에 대응한 키 프레임 중의 영역」이라고 정의한다.

도 8은 세그먼트를 설명하는 도면이다. 도 8에서, 빨간 차가 비디오 콘텐츠(111)의 복수의 프레임에 걸쳐 나타나는 경우, 빨간 차가 오브젝트에 상당하고, 세그먼트는 키 프레임 화상(123) 상에 나타나는 오브젝트 영역(차의 외접 사각형으로 나타낸다)이다. 여기서는, 세그먼트는 그 영역의 대표 색과 사이즈 정보(프레임 전체에 대한 세그먼트 영역의 면적률)라는 2개의 특징량을 가지고 있다.

세그먼트의 대표 색이 특징 스트림(103) 중에 기술되어 있으면, 사용자는 「빨강 세그먼트」, 「파랑 세그먼트」를 포함하는 비디오 콘텐츠(111) 등의 형식으로, 특징 스트림(103) 중의 값과 검색하고자 하는 값의 매칭을 취함으로써, 어느 정도, 자동적으로 요구에 맞는 키 프레임을 찾아낼 수 있다.

또한, 사이즈 정보에 대해서는 세그먼트가 키 프레임 중에서, 어느 정도의 면적을 차지하고 있는지를 기술할 수 있기 때문에, 키 프레임에 있어서의 세그먼트의 중요도의 한 측면을 표현할 수 있다. 예를 들면, 「화면 가득한 사이즈로, 피부색의 대표 색을 갖는 세그먼트」 등의 지정의 방법에 의해, 화면 가득히 비치는 얼굴 화상을 포함하는 키 프레임을 검색하는 등의 것을, 거의 자동적으로 행할 수 있다. 또한, 사이즈 정보는 사이즈 계측의 기점이 되는 직사각형의 왼쪽 상부 코너 정점이나 직사각형의 중심 위치 등의 위치 정보를 포함하여도 좋다.

도 9는 비디오 시퀀스에 있어서의 세그먼트의 위치 부여를 설명하는 도면이다. 도 9에서는 오브젝트인 「빨간 차」가 시간의 경과에 따라서, 화면의 왼쪽으로부터 서서히 줌 업(zoom up)하면서, 화면의 오른쪽 방향으로 이동하는 장면을 도시하고 있고, 키 프레임마다 세그먼트의 특징량이 변화하는 모양을 도시하고 있다. 도 9에서는 도 8에 도시한 각 키 프레임의 특징량 외에, 오브젝트의 움직임으로서, 세그먼트에 있어서의 왼쪽 상부 코너의 정점(세그먼트 위치)의 이동량을 시간 방향의 특징량으로서 갖는 것을 도시하고 있다. 이것에 의해서, 「화면의 왼쪽으로부터 오른쪽으로 이동하는 오브젝트」라는 검색의 방법이 가능해진다.

또한, 예를 들면 MPEG-4 비디오 부호화 방식(ISO/IEC, JTC1/SC29/WG11, N 2202)으로 규정되어 있는 비디오 오브젝트도, 본 정의에 있어서의 오브젝트로 간주할 수 있다. 이 경우, 세그먼트는 MPEG-4 비디오의 비디오 오브젝트 플레인(VOP)에 대응한다. 이 경우, 엄밀한 정의는 다르지만, VOP의 수평·수직 사이즈는 세그먼트의 직사각형의 수평·수직 사이즈에 개념적으로는 대응하고 있다. 그것에 대하여, MPEG-1이나 MPEG-2에서는 원래 오브젝트의 개념이 없기 때문에, 키 프레임으로부터의 추출을 행함으로써 비로소 세그먼트가 결정된다.

세그먼트 추출 처리는 키 프레임 화상(123) 중에서, 이상과 같은 세그먼트를 반출하고, 그 특징량을 결정·획득하는 처리로서, 도 4의 세그먼트 추출부(23)에서 행하여진다. 도 10은 도 4에 있어서의 세그먼트 추출부(23)의 내부 구성을 도시하는 블록도이다. 도 10에 있어서, 51은 키 프레임 화상(123)을 입력하고, 세그먼트 번호(126), 세그먼트 내 화상 샘플 값(151), 직사각형으로 도시한 세그먼트의 수평·수직 사이즈(152)(화소수×라인수)를 출력하는 세그먼트 추출 처리부, 52는 세그먼트 내 화상 샘플 값(151)에 의해 대표 색(125)을 할당하는 대표 색 할당부, 53은 세그먼트의 수평·수직 사이즈(152)와 키 프레임 사이즈(124)에 의해, 면적률로 도시되는 사이즈(127)를 산출하는 사이즈 산출부이다.

도 10에 있어서의 세그먼트 추출부(23)는, 우선, 세그먼트 추출 처리부(51)에 있어서, 키 프레임 화상(123)으로부터, 기존의 영역 분할 처리 등의 방법에 의해 세그먼트를 반출한다(도 5의 단계 ST2). 이 예에서는 세그먼트와 오브젝트의 관계를 엄밀하게 결합시키지 않는 것으로 하고 있다. 즉, 이 예에서는 세그먼트는 단순한 키 프레임 중의 특정 화상 영역으로서, 키 프레임 간에서 오브젝트로서 관련짓기 위한 기구를 구비하지 않고, 개개의 키 프레임으로 독립된 세그먼트를 정의한다.

세그먼트 반출 방법으로서는, 예를 들면, 색 성분 공간에서 유사색을 모으는 클러스터링을 행하는 등의 방법이 있지만, 여기서는 그 구체적인 실현 수법에 대해서는 대상 외로 하고, 세그먼트 추출 처리부(51)에 의해, 특정한 의미 내용을 갖는 화상 영역(세그먼트)이 외접 사각형에 둘러싸인 형으로 얻어지는 것으로 한다.

세그먼트 추출 처리부(51)는 추출한 화상 영역(세그먼트)마다 순차 번호를 붙여서 카운트하고, 카운트값을 세그먼트 번호(126)로서 출력한다(단계 ST3).

또한, 세그먼트 추출 처리부(51)는 세그먼트 내 화상 샘플 값(151)을 대표 색 할당부(52)로 출력하고, 대표 색 할당부(52)는 대표 색(125)을 구한다(단계 ST4). 예를 들면, 세그먼트 내 화상 샘플 값(151)이 각 8비트의 RGB 표현으로 되어 있는 경우, 세그먼트 중의 R, G, B의 각 공간에서의 평균값을 취하고, 얻어지는 RGB의 평균값의 세트를 대표 색으로서 할당하는 등의 처리를 행한다. 또는, 세그먼트 중의 본질적인 영역에 포함되는 화소를 미리 특정하고, 그 내부에서의 평균을 취하는 등 방법을 이용할 수도 있다.

MPEG-4의 VOP를 세그먼트로 하면, 세그먼트 중의 본질적인 영역은 VOP의 형상을 표현하는 알파 플레인에 의해서 얻을 수 있다. 도 11은 MPEG-4의 비디오 오브젝트 플레인(VOP)을 설명하는 도면이고, VOP의 화소 데이터와 알파 플레인의 관계를 도시하고 있다. 도면에 도시하는 바와 같이, 알파 플레인은, VOP를 둘러싸는 외접 사각형 중, 오브젝트 내 화소의 위치 시에 255를 할당하고, 그 이외의 때에 0을 할당한 2 값의 플레인이다. 0과 255의 변화점이 VOP의 형상을 나타낸다. 즉, 알파 플레인이 255인 위치의 화소만을 사용하여 대표 색을 구하는 처리가 가능해진다.

이 외에, 대표 색을 구하는 방법으로서, 세그먼트 추출 처리부(51)에서 색정보에 기초를 둔 반출을 행하고, 클러스터링의 결과로서, 세그먼트에 할당된 색 정보를 사용하는 방법도 있다.

또한, 도 10에 있어서, 세그먼트 추출 처리부(51)는 직사각형으로 도시한 세그먼트의 수평·수직 사이즈(152)(화소수×라인수)를 사이즈 산출부(53)로 출력한다. 사이즈 산출부(53)는 별도 입력되는 키 프레임의 수평·수직 사이즈(124)를 이용하여, 세그먼트의 해당 키 프레임 상에 차지하는 면적률을 계산하고, 사이즈(127)로서 출력한다(단계 ST5). 예를 들면, 세그먼트의 수평·수직 사이즈(152)가 (176화소×144라인)이고, 키 프레임의 사이즈(124)가 (352화소×288라인)인 경우, 사이즈 산출부(53)에 의해 산출된 면적률(사이즈(127))은 25%가 된다.

(C) 세그먼트의 부호화

도 4에 있어서, 세그먼트 추출부(23)에서 얻어진 특징량(대표 색(125), 세그먼트 번호(126), 사이즈(127) 등)은 세그먼트 부호화부(24)에 입력되고, 다중화부(27)에 의해 특징 스트림(103)의 형식으로 부호화된다(단계 ST6).

도 12는 도 10의 세그먼트 추출부(23)를 이용하는 경우의 특징 부호화부(5)에 의한 특징 스트림(103)의 구성을 도시하는 도면이다. 여기서 특징 스트림(103)은 비디오 콘텐츠(111), 키 프레임, 세그먼트의 계층 구조를 갖는다. 비디오 콘텐츠(111)의 계층에서는 프레임 번호 비트 길이나 컬러 맵 테이블(128) 등의 비디오 콘텐츠 자체에 고유의 정보를 헤더로서 갖고, 그것에 이어서 K장의 키 프레임 계층의 데이터를 포함한다. 여기서, 각 키 프레임의 시간 위치(키 프레임 번호(122))를 각 키 프레임의 헤더에 다중화하기 위해서, 그 비트 길이를 규정하기 때문에 최대 프레임 카운트값이 표현 가능한 비트 길이를 비디오 콘텐츠(111)의 헤더에 포함시키는 것으로 한다. 또한, 각 세그먼트에 있어서의 대표 색의 부호화를 위해서, 비디오 콘텐츠(111)를 통해서 이용되는 색 계조를 규정하는 컬러 맵 테이블(128)을 포함시킨다.

k번째의 키 프레임을 KF(k)로 표기하면, KF(k)는 비디오 콘텐츠(111) 중에서의 시간 위치(키 프레임 번호(122))와, 그 화면 상에 존재하는 세그먼트의 수(M)를 헤더로서 갖고, 그것에 이어서 M개의 세그먼트 계층의 데이터를 포함한다. 또한, 브라우징을 위해서 후술하는 축소 화상의 데이터를 가지고 있다. m번째의 세그먼트를 SG(m)로 표기하면, SG(m)는 대응하는 대표 색(125)과 사이즈(127)로 구성된다. 대표 색(125)으로서, 컬러 맵 테이블(128)의 인덱스(index) 값을 부호화한다.

도 13은 컬러 맵 테이블(128)의 구체적인 예를 도시하는 도면이다. 이것은 X-Windows 시스템에서 이용되는 컬러 맵 테이블(128)을 예로 든 것이며, 그 외에도 여러 가지의 표현 방법을 생각할 수 있지만, 여기서는 구체적인 컬러 맵 테이블(128)의 데이터 형식의 정의에 대해서는 대상 외로 한다.

이와 같이, 하나의 인덱스에 R, G, B의 값의 세트가 대응하고 있고, 인덱스의 수(n)를 늘림으로써 계조를 늘릴 수 있다.

사이즈(127)는 면적률로서, 기껏해야 1 내지 100(%)의 범위의 값이기 때문에, 7비트이면 표현 가능하다.

도 4에 있어서, 세그먼트 부호화부(24)에 의해, 최종적으로 얻어진 각 특징량 부호화 데이터는 다중화부(27)로 보내어지고, 도 12에서 도시되는 특징 스트림(103)에 추가된다. 세그먼트 추출부(23)에 의한 세그먼트의 특징량 산출, 및 세그먼트 부호화부(24)에 의한 부호화는 키 프레임 내에서 반출된 세그먼트 수만큼 반복한다(도 5의 단계 ST7).

(D) 축소 화상의 생성

도 4에 있어서, 축소 화상 생성부(25), 축소 화상 부호화부(26)는 키 프레임의 개요 화상(이하, 섬네일 또는 섬네일 화상이라고 부른다)을 키 프레임의 특징량으로서 특징 스트림(103)에 첨부할 목적으로 구비된다. 키 프레임에 아이콘적인 섬네일 화상이 준비되어 있으면, 사용자는 디지털 압축된 콘텐츠를 직접 복호하여 재생할 필요가 없어지기 때문에, 브라우즈의 효율을 향상시킬 수 있다.

여기서는 섬네일 화상으로서, 키 프레임 화상(123)의 N×N 화소마다의 평균값(DC 값)을 구함으로써, 축소 화상을 생성하고(도 5의 단계 ST8), 그 값을 적당한 부호화 방식에 의해 부호화한다(단계 ST9).

도 4에 있어서, 축소 화상 생성부(25)는 DC 값의 축소 화상 데이터(132)를 구하는 처리를 행하고, 축소 화상 부호화부(26)는 얻어진 DC 값의 축소 화상 데이터(132)를 압축 부호화하고, 부호화된 축소 화상 데이터(133)를 출력한다.

키 프레임 화상(123)은 이미 비가역 축소 부호화된 비트 스트림으로부터의 복호 화상인 경우가 많기 때문에, 축소 화상 부호화부(26)에서의 압축 부호화는 DPCM(Differential Pulse Code Modulation) 등의 간이하고 압축율이 낮은 부호화를 이용하는 것이 적당하다. N×N 화소마다의 DC 값을 구함으로써, 적어도 샘플 수는1/N²까지 삭감할 수 있고, 특징 스트림(103)에 추가하여도 큰 부호량적 부하가 되지 않도록 할 수 있다.

부호화된 축소 화상(133)은 다중화부(27)로 보내지고, 도 12의 형식으로 특징 스트림(103)으로 다중화된다.

이상과 같이, 본 실시예 1에 의하면, 상기 특징 부호화부(5)의 구성을 취함으로써, 사용자는 비디오 콘텐츠(111)의 특징을 기술한 특징 스트림(103)을 생성할 수 있다. 또한, 비디오 콘텐츠(111)로부터, 매뉴얼적 또는 자동적으로 키 프레임을 설정할 수 있고, 또한 각 키 프레임 중에 존재하는 특정한 화상 영역(세그먼트)에 대표 색(125)과 그 사이즈(127) 등을 특징량으로서 설정할 수 있다. 이들의 특징량을 검색 키로 함으로써, 비디오 콘텐츠의 검색 처리를 어느 정도 자동화할 수 있고, 자동 검색에 의해 좁힌 후보를 또한 섬네일 화상으로 러프하게 브라우즈할 수 있기 때문에, 비디오 콘텐츠의 검색 효율을 향상시킬 수 있다.

또한, 본 실시예 1에 있어서의 세그먼트의 정의는 프레임 화상을 정지 화상으로 간주하여 생각할 수 있기 때문에, 방대한 정지 화상 라이브러리로부터 원하는 화상을 검색하는 경우에도 이용 가능하다. 정지 화상의 경우 도 12의 키 프레임의 계층이 최상위 계층이 된다.

실시예 2

도 14는 본 발명의 실시예 2에 의한 세그먼트 추출부(23)의 내부 구성을 도시하는 블록도이다. 도면에 있어서, 61은 키 프레임 화상(123)으로부터 세그먼트데이터(161)를 추출하는 세그먼트 추출 처리부, 62는 참조 화상 메모리(63)에 기억되어 있는 과거의 키 프레임 화상(123)과 매칭 처리를 행하여 세그먼트를 식별하는 세그먼트 식별 처리부이다.

이 예에서는 세그먼트는 프레임 간에서 매칭을 취하고, 비디오 콘텐츠(111) 내의 오브젝트와 대응된다. 즉, 세그먼트는 키 프레임으로 닫히지 않고, 비디오 콘텐츠(111)에 있어서의 피사체가 있는 순간을 나타내는 화상 영역으로서 추출된다.

세그먼트 추출 처리부(61)에 의해, 키 프레임 화상(123)으로부터 복수의 세그먼트 데이터(161)가 추출되면, 세그먼트 식별 처리부(62)에 있어서, 각 세그먼트에 대해서, 참조 화상 메모리(63)에 있어서의 과거의 키 프레임 화상(123)과의 사이에서 매칭 처리를 행하고, 세그먼트의 식별을 행한다. 이 때 식별된 세그먼트에 대해서는 과거의 세그먼트와 동일 번호를 붙여 세그먼트 번호(126)로서 출력한다. 또한, 과거의 세그먼트와 일치하지 않은 경우는 신규 세그먼트로서 새로운 세그먼트 번호(126)를 부여하여 출력한다.

또한, 세그먼트 식별 처리부(62)는 세그먼트 내 화상 샘플 값(151), 세그먼트의 수평·수직 사이즈(152)를 출력하고, 대표 색 할당부(52), 사이즈 산출부(53)는 도 10과 같이, 각각 대표 색(125), 사이즈(127)의 산출을 행한다.

도 15는 도 14의 세그먼트 추출부(23)를 사용하는 경우의 특징 부호화부(5)에 의한 특징 스트림(103)의 구성을 도시하는 설명도이다. 여기서는 세그먼트가 비디오 콘텐츠(111) 내의 오브젝트에 대응되기 때문에, 세그먼트 수(M)는 비디오콘텐츠(111)의 계층의 헤더에 놓인다.

세그먼트(SG(m))는 Flag(1)를 추가로 가진다. Flag(1)는 SG(m)가 KF(k) 상에 존재하는지의 여부를 나타낸다. 각 키 프레임은 항상 M개의 세그먼트를 부호화하는 것으로 하고, 실제로 SG(m)가 KF(k)에 존재하지 않는 경우, Flag(1)를 OFF로 하여, 대표 색(125), 사이즈(127)를 부호화하지 않도록 한다. 또한, 이 Flag(1)는 도 4에 있어서의 다중화부(27)에 의해 부가된다.

또한, SG(m)가 KF(k)에는 존재하지만 KF(k-1)에는 존재하지 않는, 즉, 프레임(k)에 있어서 등장한다고 하는 경우에 특정한 등장 플래그로 나타내는 것이나, SG(m)가 KF(k)에는 존재하지만 KF(k+1)에는 존재하지 않는, 즉, 프레임(k)을 최후에 퇴장한다고 하는 경우에 특정한 퇴장 플래그로 나타내는 경우도 플래그의 추가에 의해 가능하다.

최종적으로 얻어진 각 특징량 부호화 데이터는 다중화부(27)로 보내어지고, 도 15의 특징 스트림(103)의 형식으로 출력된다.

이상과 같이, 본 실시예 2에 의하면, 도 14의 세그먼트 추출부(23)의 구성을 취함으로써, 비디오 콘텐츠(111) 내의 오브젝트와 복수의 키 프레임의 세그먼트를 관련지어서, 세그먼트의 수가 오브젝트의 개수에 대응하여 출력되기 때문에, 사용자가 구하는 비디오 콘텐츠(111)를 효율적으로 검색할 수 있다.

실시예 3

도 16은 실시예 3에 의한 세그먼트 추출부(23)의 내부 구성을 도시하는 블록도이다. 도면에 있어서, 71은 키 프레임 화상(123)을 입력하고, 참조 화상메모리(63)를 참조하여, 세그먼트 번호(126), 세그먼트 내 화상 샘플 값(151), 세그먼트의 수평·수직 사이즈(152)를 출력하는 동시에, 움직임 정보(171)를 출력하는 세그먼트 추적 처리부이다. 대표 색 할당부(52), 사이즈 산출부(53)는 도 14와 동일하다.

이 예에서는 세그먼트는 비디오 콘텐츠(111)를 통해서, 오브젝트를 트래킹(추적)한 결과, 각 키 프레임 상에 나타나는 화상 영역으로서 얻어진다. 오브젝트 트래킹은 세그먼트 추적 처리부(71)에서 행해진다.

오브젝트 트래킹 방법에 대해서는 여러 가지의 수법이 제안되어 있고, 여기서는 그 방법 자체는 대상 외로 한다. 적당한 알고리즘을 이용함으로써, 오브젝트가 도중에서 화면으로부터 사라지거나 재출현하거나 하는 레벨까지 추적할 수 있는 것으로 가정한다.

결과로서 얻어지는 각 키 프레임 화상 상의 세그먼트에 대해서, 도 10이나 도 14에 도시하는 세그먼트 추출부(23)와 마찬가지로, 대표 색(125), 사이즈(127)가 산출되는 것 외에, 동일한 오브젝트인 한은 동일한 세그먼트 번호(126)가 출력된다. 또한, 여기서는 트래킹의 결과로서, 세그먼트의 이동량을 얻을 수 있는 것으로 하고, 그것을 움직임 정보(171)로서 출력한다.

도 4의 구성에서는 세그먼트 추출부(23)로부터 움직임 정보(171)는 출력되지 않지만, 도 16의 세그먼트 추출부(23)를 이용하는 경우는 움직임 정보(171)도 출력하는 것으로 생각하고, 이것이 세그먼트 부호화부(24)에서 부호화되는 것으로 한다.

도 17은 도 16의 세그먼트 추출부(23)를 사용하는 경우의 특징 부호화부(5)에 의한 특징 스트림(103)의 구성을 도시하는 설명도이다. 도 15와 다른 것은 세그먼트의 구조뿐이고, 이 경우는 처음 나타난 세그먼트인지의 여부를 나타내는 Flag(2)를 두고, Flag(2)가 액티브한 경우에, 움직임 정보(171)를 정리하여 다중화하는 구성으로 되어 있다.

이러한 구조를 취함으로써, 비디오 콘텐츠(111) 중에서 오브젝트가 신규 발생한 개소에 그 이후의 움직임의 이력이 전부 포함되어 있기 때문에, 예를 들면 「왼쪽으로부터 오른쪽으로 이동하였다」 등의 검색 키에, 재빠르게 대응하는 것이 가능해진다. 도 17에 도시하지는 않았지만, 물론, 움직임 정보(171)는 각 키 프레임 내의 세그먼트마다 부가하여도 좋다.

도 4에 있어서, 세그먼트 부호화부(24)에 의해 최종적으로 얻어진 각 특징량 부호화 데이터는 다중화부(27)로 보내어지고, 도 17의 특징 스트림(103)의 형식으로서 출력된다.

이상과 같이, 본 실시예 3에 의하면, 움직임 정보(171)를 설정함으로써, 각 키 프레임 간에서 이동하는 오브젝트를 검색할 수 있다.

실시예 4

본 실시예에서는 도 2의 클라이언트(1)에 의한 비디오 콘텐츠(111)의 검색 처리에 대해서 설명한다. 사용자는 클라이언트(1)의 사용자 I/F(8)를 사용하여, 사용자 지시·설정(105)에 의해 검색하고자 하는 비디오 콘텐츠(111)의 대범한 파라미터의 입력 조작을 행한다. 입력 방법으로서는 클라이언트(1)가 미리 준비하는복수의 파라미터(키워드) 중에서 선택을 행하거나, 사용자 I/F(8)를 이용하여 개요의 입력을 행하거나 함으로써 실현할 수 있다.

클라이언트(1)가 준비하는 파라미터로서는, 예를 들면, 「파랑」, 「빨강」 등의 색 정보나, 밝기의 정보, 세그먼트의 면적 비율, 「원형」, 「사각」 등의 세그먼트의 형상 정보, 화면의 「위쪽」, 「오른쪽 하부」등의 위치 정보 등을 들 수 있다.

이러한 파라미터의 조합으로, 예를 들면, 「파랑」과 「80%」를 지정함으로써, 상술한 「대표 색이 파랑이고, 또한 프레임 화면 중의 80%를 차지하는 세그먼트」의 기술이 입력되도록 된다. 또한, 「빨강」색의 「사각」의 형상의 세그먼트가 화면의 「아래」쪽에서 「20%」를 차지하도록 지정함으로써, 상술한 「빨간 차」의 기술이 입력되도록 된다. 또한, 「빨간 차」와 「파란 하늘」을 포함하는 비디오 콘텐츠(111) 등과 같이, 복수의 세그먼트의 특징량을 조합하여 검색을 행할 수도 있다. 클라이언트(1)가 준비된 파라미터를 선택한 경우에는 이 선택 결과가 그대로 검색 키(108)가 되어, 검색 처리부(9)로부터 출력된다.

도 2에 있어서, 특징 복호부(10)는 검색 처리부(9)로부터의 검색 지시(107)에 따라서, 특징 스트림 기억부(7)로부터 특징 스트림(103)을 판독하여 복호를 행하고, 복호 특징량(109)을 출력한다. 특징 스트림(103)은 도 12, 도 15, 도 17 등과 같이, 대표 색(125), 사이즈(127), 세그먼트 수, 키 프레임 번호(122), 축소 화상 등의 복수의 특징량이 정보량을 압축하기 위해서 부호화되어 있기 때문에, 식별을 위한 특징량의 값을 얻기 위해서 복호 처리가 필요해진다.

특징 복호부(10)로부터 출력된 복호 특징량(109)은 특징 식별부(11)에 있어서 검색 키(108)와의 매칭 처리가 행하여진다. 도 18은 실시예 4에 의한 특징 식별부(11)의 내부 구성을 도시하는 블록도이다. 도면에 있어서, 81a 내지 81e는 검색 키(108)와 복호 특징량(109)의 매칭 처리를 행하는 매칭 처리부, 82는 각 매칭 처리부(81a 내지 81e)의 식별 결과를 종합적으로 판정하여, 매칭의 정도가 높은 비디오 콘텐츠(111)의 포인터(110)를 출력하는 매칭 판정부이다.

여기서, 매칭 처리부(81)는 복수 준비되어(81a 내지 81e 등), 각각 대응하는 특징량에 대해서 매칭 처리를 행한다. 예를 들면, 매칭 처리부(81a)에서는 복호된 복호 특징량(109) 중에서 「파랑」의 특징량, 또한 다른 매칭 처리부(81b)에서는 「80%」의 특징량과의 매칭을 행한다. 이 때, 「물색」이나 「감색」 등의 「파랑」에 가까운 색의 특징량이나, 「70%」나 「90%」의 특징량에 대해서도, 사용자가 구하고 있는 영상에 가까울 가능성이 있기 때문에, 특징 식별부(11)는 검색 키(108)와의 매칭을 행할 때, 완전히 일치하는 것뿐만 아니라, 일치의 정도가 높은 것도 후보로 한다.

각 매칭 처리부(81a 내지 81e)의 식별 결과는 매칭 판정부(82)로 보내어지고, 여기서 각 특징량의 일치의 정도가 종합적으로 판정되어, 최종적으로 매칭 판정부(82)로부터의 결과가 복호 특징량(109)과 검색 조건인 검색 키(108)의 일치도가 된다. 일치의 정도를 규정하는 임계값은 시스템으로서 표준 사양의 디폴트의 값이 설정될 뿐만 아니라, 사용자로부터도 설정될 수 있는 것으로 한다(도시는 하지 않음).

특징 식별부(11)는 매칭의 정도가 높은 비디오 콘텐츠(111)의 포인터(110)를 서버(2)에 대하여 출력하고, 서버(2)는 그 포인터(110)에 따라서 비디오 콘텐츠(111)를 클라이언트(1)에 대하여 출력한다.

클라이언트(1)는 비디오 콘텐츠(111)를 사용자 I/F(8)에 표시하고, 사용자가 원한 비디오 콘텐츠(111)이면 검색 처리를 종료한다. 다른 경우에는 또 다른 검색 키(108)가 생성되도록 사용자는 다시 파라미터의 선택을 행한다.

비디오 콘텐츠(111)로서 클라이언트(1)에 보내어지는 화상 데이터는 비디오 콘텐츠 기억부(3)에 기억되어 있는 비디오 콘텐츠(111)의 실태일 필요는 없고, 상술한 특징 스트림(103)의 축소 화상(섬네일 화상)이어도 상관없다. 섬네일 화상을 사용하는 경우에는 서버(2)로부터 클라이언트(1)로 보내어지는 비디오 콘텐츠(111)의 데이터량을 삭감할 수 있고, 또한 사용자 I/F(8)에 표시할 수 있는 화면의 사이즈는 한정되어 있기 때문에, 섬네일 화상이면, 복수의 후보 화상을 동시에 표시하는 것이 가능하며, 검색 처리의 조작성이 향상된다.

비디오 콘텐츠 기억부(3)에 기억되어 있는 화상이 미리 한정되어 있는 경우에는, 사용자 I/F(8)는 특징 스트림 기억부(7)에 기억되어 있는 특징 스트림(103)에 있어서의 섬네일 화상을 파라미터로서 표시하는 것도 가능하다.

이상과 같이, 본 실시예 4에 의하면, 상기한 바와 같은 검색 처리를 행하는 클라이언트(1), 특징 복호부(10), 특징 식별부(11)에 의해 사용자는 원하는 비디오 콘텐츠(111)의 후보가 되는 비디오 콘텐츠(111)를 거의 자동적이고 또한 신속하게 검색하는 것이 가능해진다. 특징 스트림(103)의 데이터량은 일반적으로 대응하는비디오 콘텐츠(111)보다도 작기 때문에, 특징 복호부(10)의 처리도 비디오 신호(102)를 신장 복호하는 처리에 비교하면 극히 간단한 처리이다.

또한, 특징 스트림(103) 중에 섬네일 화상을 포함하는 경우는, 다수의 후보의 비디오 콘텐츠(111)의 내용을 한번에 표시시키고, 또한 브라우즈하도록 구성할 수 있기 때문에 검색의 효율이 현저하게 향상된다.

또, 본 실시예 4에서는 도 2의 시스템을 전제로 한 검색 처리를 실시하는 클라이언트(1)에 대해서 설명하였지만, 본 실시예에 있어서의 클라이언트(1)와 같은 동작으로, 정지 화상의 라이브러리로부터 원하는 화상 데이터를 검색하는 처리를 실현하는 것도 가능하다. 이 경우는 특징 스트림(103)은 비디오 콘텐츠(111)마다가 아니라 각 정지 화상마다 작성된다.

또한, 특징 스트림(103)은 네트워크를 통해서 원격지로 전송하는 것도 가능하며, 수신측에서 검색 처리부(9)뿐만 아니라, 특징 부호화부(5)와 같은 특징 스트림(103)의 생성 기능을 구비하고 있으면, 기존의 특징 스트림(103)의 기술을 고쳐 기록하며, 새로운 특징 스트림(103)을 생성하거나, 그에 의해서, 비디오 콘텐츠(111)의 표시 규칙을 변경하는 등의 콘텐츠 조작을 행하는 것도 가능하다. 물론, 클라이언트(1)와 서버(2)의 기능을 함께 갖는 장치를 구성하는 것도 가능하다.

실시예 5

도 2에 있어서, 클라이언트(1)가 상기의 특징 식별부(11)에서 평가된 매칭의 정도의 정보를 검색 처리부(9)에 입력하여(도시하지 않음), 표시하는 후보 화상에대하여, 화상의 순서나 표시의 크기에 가중을 행함으로써 조작성을 향상시키는 것이 가능하다. 도 19는 우선도 부여 검색 후보 제시의 예를 도시하는 도면으로서, 특징 식별부(11)에 있어서의 매칭의 정도에 대응하여, 검색된 후보 콘텐츠를 우선도를 붙여 사용자에게 제시하고 있는 모양을 도시하고 있다.

이상과 같이, 본 실시예 5에 의하면, 우선도 부여 검색 후보를 제시함으로써, 사용자는 더욱 자신의 검색 요구에 의거한 콘텐츠를 신속하게 찾아낼 수 있다.

실시예 6

본 실시예에서는 사용자 I/F(8)를 통해서 다른 검색 조건 입력 방법에 대해서 설명한다. 사용자 I/F(8)를 이용하여, 개요의 입력을 행하는 방법으로서는 마우스 등의 포인터 디바이스를 사용하여 직접 형상을 써 넣거나, 색을 칠하기도 하거나, 대범한 스케치를 하는 등의 방법을 고려할 수 있다.

예를 들면, 도 19의 제 2 후보의 세그먼트에 나타내는 바와 같이, 화면의 아래쪽에 크게 「빨강」 색을 그리거나, 제 3 후보의 세그먼트에 나타내는 바와 같이, 화면의 왼쪽에 작게 「빨간 차」의 그림을 그리거나, 제 4 후보의 세그먼트에 나타내는 바와 같이, 화면의 오른쪽과 같이, 크게 「파랑」색을 그리거나 한다. 도 2에 있어서, 사용자 지시·설정(105)에 의해 사용자의 직감적인 개요 입력을 행한 경우에는 검색 키(108)를 추출하기 위한 처리가 검색 처리부(9)에서 행해진다.

검색 처리부(9)에서는 개요 입력으로부터, 색 정보 등을 이용하여 개개의 세그먼트로 분할하고, 그 색이 그려진 면적을 산출하거나, 화면 내의 위치를 구하기도 한다. 이러한 처리에 의해, 「파랑」, 「빨강」 등의 색 정보나, 각 색 정보의면적 비율, 각 색의 형상이나 위치 등이 추출되어, 검색 키(108)로서 출력된다.

이상과 같이, 본 실시예 6에 의하면, 사용자의 직감적인 개요 입력을 행함으로써, 비디오 콘텐츠(111)를 효율적으로 검색할 수 있다.

실시예 7

실시예 3에서 설명한 세그먼트의 움직임 정보(171)가 추출되어 있는 경우에는 검색 키(108)로서 움직임 정보(171)를 이용하는 것이 가능하다. 사용자 I/F(8)는 선택할 수 있는 파라미터로서, 「왼쪽에서 오른쪽으로」, 「위에서 아래로」, 「줌 인」 등의 움직임 정보(171)를 준비해 둔다. 또한, 영상 신호의 시간적 변화가 추출되어 있는 경우에는 색의 변화나 밝기의 변화의 파라미터를 준비해 두고, 사용자가 선택할 수 있도록 한다.

사용자가 영상 내용의 개요 입력을 행할 때, 1개의 입력만을 행하는 것이 아니라, 예를 들면, 입력을 2회 행하고, 그 2개의 화상 간의 시간을 입력할 수 있으면, 검색 처리부(9)는 2개의 입력 화상과 그 시간 간격으로부터, 오브젝트의 움직임 양이나 영상 신호의 시간 변화 정보를 추출하여, 검색 키(108)를 생성할 수 있다.

이상과 같이, 본 실시예 7에 의하면, 움직임 정보(171)를 이용하여 사용자가 구하는 비디오 콘텐츠(111)를 검색할 수 있다.

이상과 같이, 본 발명에 따른 화상 특징 부호화 방법 및 화상 검색 방법은 많은 사용자가 여러 가지의 검색 툴을 사용하여, 화상을 검색하는데 적합하다.

화상 검색에 사용하는 대표 색 및 면적률을 세그먼트의 특징량으로 한 특징 스트림을 생성할 수 있고, 검색 효율을 향상할 수 있는 특징 스트림을 생성할 수 있고, 움직임 정보에 의해 화상 프레임을 검색 가능한 특징 스트림을 생성할 수 있고, 화상 검색의 단서가 되는 키 프레임의 특징 스트림을 생성할 수 있으며, 러프하게 브라우즈 가능한 축소 화상을 생성할 수 있다.

Claims

입력 영상 데이터로부터 키 프레임을 추출하는 단계와,

각 키 프레임으로부터 시작되는 입력 영상 데이터의 부분 데이터에 대응하는 부분 특징 프레임을 생성하는 단계와,

상기 부분 특징 프레임의 계열로서 영상 특징 스트림을 구성하는 단계로 구성되는, 영상 특징량 부호화 방법.
영상 데이터 중의 목표 프레임을 특정하는 단계와,

상기 프레임으로부터 시작되는 부분 영상 데이터에 대응하는 부분 특징 스트림을 복호하여, 상기 영상 데이터의 특징량을 추출하는 단계와,

상기 부분 특징 데이터의 특징량과, 비교 대조가 되는 특징량을 비교 평가하는 단계를 포함하는, 영상 특징량 복호 방법.