KR20040065523A - 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법 - Google Patents

복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법 Download PDF

Info

Publication number
KR20040065523A
KR20040065523A KR1020030095247A KR20030095247A KR20040065523A KR 20040065523 A KR20040065523 A KR 20040065523A KR 1020030095247 A KR1020030095247 A KR 1020030095247A KR 20030095247 A KR20030095247 A KR 20030095247A KR 20040065523 A KR20040065523 A KR 20040065523A
Authority
KR
South Korea
Prior art keywords
edge
image
video sequence
edges
edge histogram
Prior art date
Application number
KR1020030095247A
Other languages
English (en)
Other versions
KR100959053B1 (ko
Inventor
박성희
박수준
장명길
박상규
원치선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20040065523A publication Critical patent/KR20040065523A/ko
Application granted granted Critical
Publication of KR100959053B1 publication Critical patent/KR100959053B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23109Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion by placing content in organized collections, e.g. EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
복수의 이미지 셋을 포함하는 비디오 시퀀스에 대한 감소된 비트를 갖는 에지 히스토그램 기술자의 비트 표현을 구성하는 방법 및 상기 에지 히스토그램 기술자의 부호화된 표현으로부터 효과적으로 추출된 정보를 이용하여 비디오 시퀀스를 검색하는 방법에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
텍스쳐 비디오를 포함하는 대응 비디오 시퀀스를 검색하는 방법을 제공함.
3. 발명의 해결 방법의 요지
복수의 비디오 시퀀스를 표현하는 디지털 비디오 데이터 정보 - 상기 복수의 비디오 시퀀스 각각은 상기 디지털 비디오 데이터의 이미지 프레임 셋을 포함함 - 를 갖는 데이터베이스 구축 방법에 있어서, 상기 각 비디오 시퀀스의 상기 각 이미지 프레임을 L개(L은 양의 정수)의 부영상(sub-image) - 상기 각 부영상은 S x T개(S 및 T는 각각 양의 정수)의 이미지 블럭(image-block)으로 더욱 분할됨 - 으로 분할하는 제1단계; 상기 각 이미지 블럭에 대해 5개의 기준 에지(reference edge) - 상기 기준 에지는 4개의 방향성(directional) 에지 및 1개의 무방향성(non-directional) 에지를 포함함 - 중 어느 하나를 할당하여 상기 각 이미지 프레임에 대해 L개의 에지 히스토그램(edge histogram) - 상기 에지 히스토그램은 M개의 에지 히스토그램 빈(edge histogram bin)을 포함함 - 을 생성하는 제2단계; 상기 각 에지 히스토그램에 포함된 상기 에지 히스토그램 빈을 S x T로 정규화하여 상기 각 이미지 프레임에 대해 M개의 정규화된 에지 히스토그램 빈을 생성하는 제3단계; 상기 각 이미지 프레임의 정규화된 에지 히스토그램 빈에 기초하여 상기 각 비디오 시퀀스에 대한 L개의 대표(representative) 에지 히스토그램을 생성하기 위해 상기 각 비디오 시퀀스에 대해 M개의 대표 에지 히스토그램 빈을 계산하는 제4단계; 및 상기 데이터베이스에 저장되는 상기 각 대표 에지 히스토그램에 대한 제2이미지 기술자로서 M개의 양자화 인덱스값을 생성하기 위해 상기 대표 에지 히스토그램 빈을 비선형적으로 양자화하는 제5단계를 포함함.
4. 발명의 중요한 용도
비디오 시퀀스 검색에 이용됨.

Description

복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한 비선형 양자화 및 유사도 매칭 방법{NON-LINEAR QUANTIZATION AND SIMILARITY MATCHING METHOD FOR RETRIEVING VIDEO SEQUENCE HAVING A SET OF IMAGE FRAMES}
본 발명은 이미지 데이터 검색 방법에 관한 것으로, 보다 상세하게는, 복수의 이미지 셋을 포함하는 비디오 시퀀스에 대한 감소된 비트를 갖는 에지 히스토그램 기술자의 비트 표현을 구성하는 방법 및 상기 에지 히스토그램 기술자의 부호화된 표현으로부터 효과적으로 추출된 정보를 이용하여 비디오 시퀀스를 검색하는 방법에 관한 것이다.
JPEG (Joint Photographic Experts Group)은 정지 이미지(still image)의 국제적인 표준이고 MPEG-1 (Moving Picture Experts Group-1) 및 MPEG-2는 동영상(moving picture)의 국제적 표준이다. 압축이미지 정보에서, 각 이미지의 특징 정보는 키 프레임 추출, 이미지 검색, 브라우징 등과 같은 어플리케이션을 위해 추출된다.
특징 정보를 추출하기 위해, 명암(brightness) 또는 컬러 히스토그램이 널리 사용된다. 명암 히스토그램 및 컬러 히스토그램 각각은 하나의 이미지에서 명암 및 컬러(적, 녹 또는 청)의 상대적 빈도를 나타낸다. 특히, 최근에는 디지털 저장된 정지 이미지 또는 디지털 비디오 데이터 검색을 위한 히스토그램 비교방법이 많이 제안되고 있다. 히스토그램이 이미지 검색 및 화면 경계 탐지(shot boundary detection)에 사용됨에 따라, 기존의 히스토그램 기술이 향상될 것이다. 즉, 에지 히스토그램과 같이 이미지 내용을 보다 효율적으로 표현할 수 있는 히스토그램 기술자가 적용될 필요가 있다. 또한, 기술자의 이진화 표현이 간결해져야 하고, 유사도 매칭을 위한 연산 복잡도도 낮아져야 한다.
화면 경계 탐지를 위해 컬러 히스토그램 및 에지 맵을 사용하는 방법이 미국 특허 5,805,733에서 "METHOD AND SYSTEM FOR DETECTING SCENES AND SUMMARIZING VIDEO SEQUENCES"라는 명칭으로 개시되어있다. 상기 발명이 비록 인간의 시각 시스템에 비하여 색 정보를 추출해내는데 효과적이기는 하나, 명암 정보를 추출해 내지는 못한다.
또한, 색 정보를 수신한 후 히스토그램 인터섹션 방법(histogram intersection technique)을 이용하여 이미지의 유사도를 측정함으로써 인덱싱하는 방법이 논문에 개시되어있다(M. J. Swain, et al., "Color Indexing", International Journal of Computer Vision, Vol. 7-1, pp.11-32, 1991). 그러나,이 방법은 명암 및 에지 정보를 사용하지 않아, 정확성이 보장되지 않는다. 또한, 기존의 방법들에서는 이산 양자화 방법을 사용하여 히스토그램들을 생성하기 때문에, 동일한 효과를 얻기 위해서는 상대적으로 많은 수의 히스토그램 빈(histogram bin)이 필요하다. 결과적으로, 저장 및 유사도 측정에 있어 비효율적이다. 게다가, 기존에는 특징 추출이 픽셀 단위로 이루어지기 때문에, 특징 정보가 제한적으로 생성된다는 문제가 있다.
한편, 히스토그램이 이미지 검색 등에 널리 사용되므로, 최근에는 히스토그램 정보를 효율적으로 저장할 수 있는 방법이 요구된다. 즉, 기존의 히스토그램 저장 방법에 따르면, 히스토그램 빈 값이 선형 양자화(linear quatization)를 통한 정규화에 의해 고정된 크기의 저장 영역에 저장된다. 그 결과, 이러한 히스토그램 저장에 대한 선형 양자화 방법은 비트량이 증가할수록 문제점이 심각해진다.
국제 표준화 기구(International Organization for Standardization, ISO)/국제 전기 표준 회의(International Electrotechnical Commission, IEC) 합동 기술 위원회(Joint Technical Committee 1)(ISO/IEC JTC1)에서는 MPEG-7과 관련하여 내용 기반 멀티미디어 데이터 검색(Content Based Multimedia Retrieval) 기술에 대한 표준을 제정하고 있다.
내용 기반 멀티미디어는 디지털 비디오 데이터와 같은 동영상 및 정지 이미지를 포함한다. 디지털 비디오 데이터, 즉 비디오 시퀀스(video sequence)는 적어도 하나의 움직임 객체(moving object)에 대한 복수의 이미지 프레임을 포함한다. 비디오 시퀀스 검색을 위해, 움직임 객체에 대한 움직임 기술자(movingdescriptor)는 이미지 프레임으로부터 추출되는데, 움직임 기술자는 이미지 프레임의 움직임 객체에 대한 움직임 정보를 포함한다. 움직임 기술자가 추출된 이후, 질의 비디오 시퀀스와 데이터베이스에 저장되어 있는 비디오 시퀀스의 움직임 기술자 사이의 유사도가 연산된다. 최종적으로, 연산된 유사도에 따라 원하는 비디오 시퀀스가 검색된다.
일반적으로, 내용 기반 멀티미디어 검색 방법에서 움직임 기술자로서 움직임 경로 기술자(motion trajectory descriptor)가 널리 사용된다. 움직임 경로 기술자는 비디오 시퀀스의 이미지 프레임에 포함되어 있는 움직임 객체의 움직임 경로 정보를 포함한다. 움직임 경로 기술자는 움직임 객체의 위치 및 속도에 기초한 매개변수 방정식(parametric equation)을 이용함으로써 움직임 객체의 움직임 경로를 포함한다. 움직임 경로 기술자를 이용하는 종래기술에 따르면, 불꽃놀이 또는 폭포 등의 이미지를 포함하는 비디오 데이터와 같이 많은 움직임 객체를 포함하는 "텍스쳐 비디오 시퀀스(texture video sequence)"를 표현할 수 없다. 즉, 텍스쳐 비디오 시퀀스에서는 움직임 경로 기술자로 표현되어야 할 움직임 객체가 너무 많다. 결과적으로, 많은 수의 움직임 객체에 대한 많은 움직임 경로 기술자를 추출하기 위한 연산량이 너무 많다는 문제점이 있다.
따라서, 텍스쳐 비디오 시퀀스를 포함하는 디지털 비디오 데이터를 검색하기 위해 새로운 디지털 비디오 데이터 검색 방법 및 강화된 기술 방법이 요구된다.
본 발명의 목적은 감소된 비트 수로서 복수의 비디오 시퀀스를 표현하는 이미지 정보를 갖는 데이터베이스를 구성하는 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 질의 비디오 시퀀스에 응하여 고속 검색과 높은 정확도로 데이터베이스에 저장되어 있는 대응 비디오 시퀀스를 검색하는 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 질의 비디오 시퀀스에 응하여 고속 검색과 높은 정확도로 데이터베이스에 저장되어 있으며 텍스쳐 비디오를 포함하는 대응 비디오 시퀀스를 검색하는 방법을 제공하는 것이다.
본 발명이 속한 기술 분야에서 통상의 지식을 가진 자는 본 명세서의 도면, 발명의 상세한 설명 및 특허청구범위로부터 본 발명의 다른 목적 및 장점을 쉽게 인식할 수 있다.
도1a는 본 발명의 일실시예에 따라 비디오 시퀀스에 대한 복수의 이미지 기술자를 갖는 데이터베이스를 구성하기 위한 병렬 프로세스를 나타낸 블럭도.
도1b는 본 발명의 다른 실시예에 따라 비디오 시퀀스에 대한 복수의 이미지 기술자를 갖는 데이터베이스를 구성하기 위한 직렬 프로세스를 설명하기 위한 흐름도.
도1c는 본 발명의 또 다른 실시예에 따라 비디오 시퀀스에 대한 복수의 이미지 기술자를 갖는 데이터베이스를 구성하기 위한 직렬 프로세스를 설명하기 위한 흐름도.
도2는 이미지 기술자에 의해 표현되는 16개의 부영상(sub-image)을 갖는 이미지를 설명하기 위한 도면.
도3A 내지 3E는 본 발명에 따라 에지 결정 프로세스에 사용되는 5종류의 에지를 설명하기 위한 도면.
도4는 각각 필터 계수가 할당된 4개의 부블럭(sub-block)으로 분할된 이미지블럭을 설명하기 위한 도면.
도5A 내지 5E는 이미지 블럭들로서 각 이미지 블럭의 부블럭들에 5개 에지에 대한 대응 필터 계수들이 할당된 이미지 블럭들을 설명하기 위한 도면.
도6은 각 이미지 프레임에 대응하는 80개 에지 히스토그램 빈의 배열을 설명하기 위한 도면.
도7은 본 발명에 따라 질의 비디오 시퀀스에 응답하여 요구되는 비디오 시퀀스를 검색하는 프로세스를 설명하기 위한 도면.
상기와 같은 목적을 달성하기 위해 본 발명은, 복수의 비디오 시퀀스를 표현하는 디지털 비디오 데이터 정보 - 상기 복수의 비디오 시퀀스 각각은 상기 디지털 비디오 데이터의 이미지 프레임 셋을 포함함 - 를 갖는 데이터베이스 구축 방법에 있어서, 상기 각 비디오 시퀀스의 상기 각 이미지 프레임을 L개(L은 양의 정수)의부영상(sub-image) - 상기 각 부영상은 S x T개(S 및 T는 각각 양의 정수)의 이미지 블럭(image-block)으로 더욱 분할됨 - 으로 분할하는 제1단계; 상기 각 이미지 블럭에 대해 5개의 기준 에지(reference edge) - 상기 기준 에지는 4개의 방향성(directional) 에지 및 1개의 무방향성(non-directional) 에지를 포함함 - 중 어느 하나를 할당하여 상기 각 이미지 프레임에 대해 L개의 에지 히스토그램(edge histogram) - 상기 에지 히스토그램은 M개의 에지 히스토그램 빈(edge histogram bin)을 포함함 - 을 생성하는 제2단계; 상기 각 에지 히스토그램에 포함된 상기 에지 히스토그램 빈을 S x T로 정규화하여 상기 각 이미지 프레임에 대해 M개의 정규화된 에지 히스토그램 빈을 생성하는 제3단계; 상기 각 이미지 프레임의 정규화된 에지 히스토그램 빈에 기초하여 상기 각 비디오 시퀀스에 대한 L개의 대표(representative) 에지 히스토그램을 생성하기 위해 상기 각 비디오 시퀀스에 대해 M개의 대표 에지 히스토그램 빈을 계산하는 제4단계; 및 상기 데이터베이스에 저장되는 상기 각 대표 에지 히스토그램에 대한 제2이미지 기술자로서 M개의 양자화 인덱스값을 생성하기 위해 상기 대표 에지 히스토그램 빈을 비선형적으로 양자화하는 제5단계를 포함하는 방법을 제공한다.
또한 상기와 같은 목적을 달성하기 위해 본 발명은, 데이터베이스를 기반으로 질의 비디오 시퀀스에 대한 디지털 비디오 데이터의 이미지 프레임 셋을 갖는 대응하는 비디오 시퀀스를 검색하는 방법에 있어서, 상기 질의 비디오 시퀀스에 대한 이미지 기술자로서 상기 질의 비디오 시퀀스의 L개(L은 양의 정수) 대표 에지히스토그램 - 상기 각 대표 에지 히스토그램은 상기 질의 비디오 시퀀스에 포함된 이미지 프레임의 부영상에 포함된 5개 기준 에지의 대표 공간 분포를 나타내며, 상기 기준 에지는 4개의 방향성 에지와 1개의 무방향성 에지를 포함함 - 을 계산하는 제1단계; 디지털 비디오 데이터 정보에 기초하여 상기 데이터베이스로부터 비디오 시퀀스에 대한 복수의 이미지 기술자 - 상기 각 비디오 시퀀스에 대한 각 이미지 기술자는 상기 각 비디오 시퀀스에 대한 L개의 대표 에지 히스토그램 빈을 포함함 - 를 추출하는 제2단계; 상기 질의 비디오 시퀀스에 대한 이미지 기술자를 상기 각 비디오 시퀀스에 대한 상기 각 이미지 기술자와 비교하여 비교 결과를 생성하는 제3단계; 및 상기 비교 결과에 따라 상기 질의 비디오 시퀀스와 유사한 적어도 하나의 비디오 시퀀스를 검색하는 제4단계를 포함하는 방법을 제공한다.
또한 상기와 같은 목적을 달성하기 위해 본 발명은, 각각이 복수의 디지털 비디오 데이터 이미지 프레임을 갖는 비디오 시퀀스에 대한 이미지 기술자를 추출하는 방법에 있어서, 대상 이미지 프레임으로서 이미지 프레임 중 어느 하나를 선택하는 제1단계; 상기 대상 이미지의 L개 에지 히스토그램 - 상기 에지 히스토그램 각각은 5개의 정규화된 에지 히스토그램 빈을 갖고, 부영상에서 5개 기준 에지의 공간 분포를 나타내며, 상기 기준 에지는 4개의 방향성(directional) 에지 및 1개의 무방향성(non-directional) 에지를 포함함 - 을 생성하기 위해 L x 5개(L은 양의 정수)의 정규화된 에지 히스토그램 빈을 계산하는 제2단계; 대상 이미지로서 다음 이미지 프레임을 선택하는 제3단계; 모든 이미지 프레임의 L개 에지 히스토그램이 계산될 때까지 상기 제2단계 및 제3단계를 반복하는 제4단계; 상기 각 이미지 프레임의 L개 에지 히스토그램에 기초하여 상기 비디오 시퀀스에 대한 L x 5개의 정규화된 에지 히스토그램 빈을 갖는 대표 에지 히스토그램을 계산하는 제5단계; 상기 비디오 시퀀스에 대한 이미지 기술자로서 L x 5개의 양자화 인덱스값을 생성하기 위해 상기 대표 에지 히스토그램의 L x 5개의 정규화된 에지 히스토그램 빈을 비선형적으로 양자화하는 제6단계; 및 상기 L x 5개의 양자화 인덱스값을 상기 데이터베이스에 저장하는 제7단계를 포함하는 방법을 제공한다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. 또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다. 따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다. 또한 프로세서, 제어가 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다. 유사하게, 도면에 도시된 스위치는 개념적으로만 제시된 것일 수 있다. 이러한 스위치의 작용은 프로그램 로직 또는 전용 로직을 통해 프로그램 제어 및 전용 로직의 상호 작용을 통하거나 수동으로 수행될 수 있는 것으로 이해되어야 한다. 특정의 기술은 본 명세서의 보다 상세한 이해로서 설계자에 의해 선택될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 우선 각 도면의 구성요소들에 참조 번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도1a는 본 발명의 일실시예에 따라 대응하는 비디오 시퀀스에 대한 복수의 이미지 기술자를 구성하기 위한 병렬 프로세스를 나타낸 블럭도이다. 도면에 도시된 바와 같이, 대상 비디오 시퀀스는 복수의 이미지 프레임을 포함하며 각 이미지 프레임의 에지 히스토그램이 동시에 생성된다.
처리블럭(S101)에서 k개의 이미지 프레임이 처리블럭(S102)으로 입력된다. 처리블럭(S102)에서, 각 이미지 프레임은 N x N개(N은 양의 정수), 예를 들어 4 x 4개의 부영상(sub-image)으로 분할된다. 각 이미지 프레임에 대한 부영상은 처리블럭(S103)으로 전송되어 비디오 시퀀스의 각 이미지 프레임에 대한 에지 히스토그램이 생성된다. 즉, 각 부영상에 대한 에지 히스토그램이 복수의 에지에 의해 획득되며, 각 이미지 프레임에 대한 80개의 정규화된 국부(local) 에지 히스토그램 빈이 처리블럭(S104)으로 전송된다.
처리블럭(S104)에서, 비디오 시퀀스에 포함된 각 이미지 프레임의 80개 정규화된 에지 히스토그램 빈에 기초하여 대표 에지 히스토그램 빈 80개를 계산함으로써 제1이미지 기술자로서 대상 비디오 시퀀스의 대표 에지 히스토그램이 계산된다.
각 대표 에지 히스토그램 빈은 각 이미지 프레임의 대응하는 정규화된 에지 히스토그램 빈의 평균값(mean value) 또는 중간값(median value) 중 어느 하나일 수 있다. 또한, 각 대표 에지 히스토그램 빈은 대응하는 정규화된 에지 히스토그램 빈간의 인터섹션 값(intersection value) 또는 키 값(key value)을 선택하여 각 이미지 프레임의 대응하는 정규화된 에지 히스토그램 빈 중 어느 하나로 할 수도 있다.
한편, 대표 에지 히스토그램을 계산한 후, 객체(object)의 변화도(variation)를 나타내는 다른 통계값을 대표 에지 히스토그램을 갖는 요구되는 비디오 시퀀스를 검색하는데 이용할 수 있다. 다른 통계값은 2개 이상의 이미지 프레임의 차이를 나타내는 분산(variance)을 포함한다.
처리블럭(S105)에서, 대표 에지 히스토그램은 비선형적으로 양자화되어 대응하는 제2이미지 기술자, 예를 들어, 양자화 인덱스값 그룹이 생성된다.
다음으로, 대상 비디오 시퀀스에 대한 제2이미지 기술자는 데이터베이스(S106)에 입력되고 저장된다. 상기 프로세스는 데이터베이스에 저장되는 복수의 비디오 시퀀스를 이용하여 수행된다.
도1b는 본 발명에 따라 디지털 비디오 데이터의 이미지 프레임 셋을 포함하는 비디오 시퀀스 각각에 대한 복수의 이미지 기술자를 갖는 데이터베이스를 구성하기 위한 직렬 프로세스를 설명하기 위한 흐름도이다.
앞서 설명된 바와 같이, 비디오 시퀀스는 복수의 이미지 프레임을 가지며, 각 이미지 프레임의 에지 히스토그램이 직렬적으로 생성되어 대표 에지 히스토그램이 획득된다.
단계S110에서, 비디오 시퀀스의 이미지 프레임 하나가 대상 이미지 프레임으로 선정된다. 단계S111에서, 선정된 이미지 프레임은 N x N개, 예를 들어 4 x 4개의 부영상으로 분할된다. 단계S112에서 에지 히스토그램이 부영상으로부터 추출된다. 단계S113에서, 모든 부영상의 에지 히스토그램이 생성되었는지 판단된다. 모든 부영상의 에지 히스토그램이 생성되지 않은 경우에는 단계S114에서 다음 부영상이 선택되며 다음 부영상의 에지 히스토그램이 단계S112에서 생성된다. 모든 부영상의 에지 히스토그램이 생성된 경우에는 단계S115에서 비디오 시퀀스의 다음 이미지 프레임을 선택하기 위해 정수 k가 1 증가된다. 다음으로, 단계S116에서 비디오 시퀀스의 모든 이미지 프레임이 선택되었는지 판단된다. 비디오 시퀀스의 모든 이미지 프레임이 선택되지 않는 경우에는 다음 이미지 프레임이 새로운 대상 프레임으로 선택되고 상기 단계S110 내지 단계S115가 반복된다. 즉, 각 부영상에 대한 에지 히스토그램이 각 부영상에 포함된 복수의 에지에 의해 획득되며, 각 이미지 프레임에 대한 80개의 정규화된 국부(local) 에지 히스토그램 빈이 획득된다.
비디오 시퀀스에 포함된 모든 이미지 프레임의 모든 에지 히스토그램이 생성된 후, 단계S117에서 각 이미지 프레임의 80개 정규화된 에지 히스토그램 빈에 기초하여 80개의 대표 에지 히스토그램 빈을 계산함으로써 제1이미지 기술자로서 대표 에지 히스토그램이 생성된다. 각 대표 에지 히스토그램 빈은 모든 이미지 프레임의 대응하는 정규화된 국부 에지 히스토그램 빈의 평균값 또는 중간값 중 어느 하나가 될 수 있다. 또한, 각 대표 에지 히스토그램 빈은 정규화된 에지 히스토그램 빈간의 인터섹션 값 또는 키 값을 선택하여 모든 이미지 프레임의 대응하는 정규화된 국부 에지 히스토그램 빈 중 어느 하나로 할 수도 있다.
단계S118에서, 대표 에지 히스토그램은 비선형적으로 양자화되어 대응하는 제2이미지 기술자, 예를 들어 양자화 인덱스값 그룹이 생성된다. 다음으로, 비디오 시퀀스에 대한 제2이미지 기술자는 데이터베이스에 입력되고 저장된다. 상기 프로세스는 모든 비디오 시퀀스가 데이터베이스에 저장될 때까지 반복된다.
도1c는 본 발명의 다른 실시예에 따라 디지털 비디오 데이터의 이미지 프레임을 갖는 대응하는 비디오 시퀀스에 대한 복수의 이미지 기술자를 갖는 데이터베이스를 구성하기 위한 직렬 프로세스를 설명하기 위한 흐름도이다. 도면에 도시된 바와 같이, 도1c의 흐름도는 단계S119를 제외하고는 도1b의 흐름도와 동일하다. 따라서 편의상 단계S110 내지 단계S117의 설명은 생략한다.
단계S117에서 대표 에지 히스토그램이 생성된 이후, 단계S119에서는 2개 이상의 이미지 프레임간 차이를 나타내는 변화도값(variation value)이 계산된다. 변화도값은 디지털 비디오 데이터에 포함된 각 이미지 프레임의 에지 히스토그램에 대한 변화도를 계산함으로써 획득될 수 있다. 객체의 변화도를 나타내는 변화도값은 또한 요구되는 비디오 시퀀스를 검색하는데 이용된다. 분산 또는 표준편차(standard deviation)가 변화도값이 될 수 있다. 분산은 대표 에지 히스토그램과 함께 디지털 비디오 데이터를 상세히 검색하는데 이용될 수 있다.
도2 내지 도6은 도1에서 설명된 제1이미지 기술자를 획득하는 프로세스를 설명하기 위한 도면으로서, 도2는 이미지 기술자에 의해 표현되는 16개의 부영상(sub-image)을 갖는 이미지를 설명하기 위한 도면, 도3A 내지 3E는 본 발명에 따라 에지 결정 프로세스에 사용되는 5종류의 에지를 설명하기 위한 도면, 도4는 각각 필터 계수가 할당된 4개의 부블럭(sub-block)으로 분할된 이미지 블럭을 설명하기 위한 도면, 도5A 내지 5E는 이미지 블럭들로서 각 이미지 블럭의 부블럭들에 5개 에지에 대한 대응 필터 계수들이 할당된 이미지 블럭들을 설명하기 위한 도면, 도6은 각 이미지 프레임에 대응하는 80개 에지 히스토그램 빈의 배열을 설명하기 위한 도면이다.
도2에 도시된 바와 같이, 비디오 시퀀스에 포함된 각 이미지 프레임의 대응하는 에지 히스토그램을 획득하기 위해 디지털 비디오 데이터의 입력 이미지(200)는 4 x 4개의 겹치지 않는(non-overlapping) 부영상으로 분할되어 16개의 직사각형 부영상(211 내지 226)을 형성한다. 각각의 부영상은 다수의 픽셀을 포함한다.
에지 히스토그램을 추출하기 위해 각 부영상은 M x T개의 겹치지 않는 정사각형의 이미지 블럭으로 분할된다. 이미지 블럭의 크기는 이미지의 크기에 따라 결정된다. 각 이미지 블럭은 에지 중 어느 하나를 사용하여 이미지 블럭이 기술되는 에지 결정 과정에서 사용된다.
본 발명의 일실시예에 따라, 도3A 내지 3E를 참조하면, 에지 결정 과정에는 5개 에지가 포함되며, 그 중 하나의 에지가 이미지 블럭에 대해 선택된다. 에지는 수직(vertical) 에지, 수평(horizontal) 에지, 45° 에지 및 135° 에지(301, 303, 305 및 307)와 같은 방향성(directional) 에지 및 특정 방향을 가리키지 않는 적어도 하나의 에지를 포함하는 무방향성(non-directional) 에지를 포함한다.
부영상에 대한 에지 히스토그램을 생성하기 위해 이미지 블럭으로부터 에지 특징을 찾아내는 것이 필요하다. 즉, 에지 결정 과정은 이미지 블럭에 어떤 에지를 할당할지 결정하기 위해 수행된다. 이러한 에지 추출은 공간 영역에서 디지털 필터를 적용하는 방법을 이용하여 수행된다.
도4에 도시된 바와 같이, 에지 결정 과정에서 이미지 블럭은 4개의 부블럭(sub-block)으로 분할된다. 즉, 도면에 도시된 바와 같이, 도면번호 400은 이미지 블럭을, 도면번호 411, 413, 415 및 417은 각각 부블럭을 나타낸다. 부블럭은 이미지 블럭(400)에 대해 0, 1, 2 및 3으로 레이블된다. 여기서 각 부블럭에 대응하는 필터계수가 할당되어 에지 크기 셋이 획득될 수 있다.
본 발명의 일실시예에 따르면, 각 이미지 블럭(400)은 2 x 2개의 부블럭으로 분할되고, 각 부블럭은 0, 1, 2 또는 3으로 레이블된다.
각 이미지 블럭에 대하여, 다음의 수학식들을 사용하여 5개 종류의 에지에 대응하는 5개 에지 크기의 셋이 획득된다.
상기 수학식1 내지 수학식5에서, mv(i, j), mh(i, j), md-45(i, j), md-135(i, j) 및 mnd(i, j) 각각은 (i, j)번째 이미지 블럭에 대한 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지 크기, ak(i, j)는 (i, j)번째 이미지 블럭에서 k로 할당된 부블럭에 대한 평균 그레이 레벨(grey level), fv(k), fh(k), fd-45(k), fd-135(k) 및 fnd(k)는 각각 k로 할당된 부블럭에서 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지에 대한 필터 계수를 의미한다. 여기서 k=0, 1, 2 및 3은 각각의 부블럭에 레이블링된 수를 나타낸다.
도5a 내지 도5e는 각 에지에 대한 필터 계수를 나타낸다. 도면에 도시된 바와 같이, 도면번호 501, 503, 505, 507 및 509는 각각 상기 수직 에지, 수평 에지, 45° 에지, 135° 에지 및 무방향성 에지에 대한 필터 계수를 나타낸다. 각 이미지 블럭은 5개 에지 크기 중에서 선택된 에지 크기를 이용하여 표현할 수 있다. 여기서 각각의 크기는 각 에지에 대하여 계산된다.
하나의 이미지 블럭에 대응하는 에지를 결정하기 위해 상기 수학식들을 통해 획득된 5개 에지 크기가 서로 비교된다. 비교 결과, 최대 에지 크기를 갖는 에지에 의해 이미지 블록이 표현된다. 여기서, 최대 에지 크기는 소정의 임계값보다 커야 한다. 만약 최대 에지 크기가 소정 임계값보다 작을 경우, 당해 이미지 블럭은 에지를 포함하지 않는 것으로 결정된다.
에지 크기 비교 결과로서 이미지 블럭에 대한 에지가 결정되면 부영상에 대한 대응 에지 히스토그램 빈이 1 증가된다. 에지 히스토그램 빈에는 수직 빈, 수평 빈, 45° 빈 , 135° 빈 및 무방향성 빈의 5개 종류가 있다. 5개 에지 히스토그램 빈은 에지 히스토그램을 표현하기 위한 구성요소이다. 부영상에 포함된 모든 이미지 블럭에 대한 대응 에지가 검출된 후, 검출된 각 에지에 대응하는 에지 히스토그램 빈이 1 증가되어 국부(local) 에지 히스토그램이라는 부영상에 대한 에지 히스토그램이 생성된다. 16개의 부영상 모두에 대하여 에지 검출 과정 및 에지 히스토그램 생성 과정이 수행된다.
국부 에지 히스토그램은 하나의 부영상에 포함된 5개 에지의 분포를 나타낸다. 즉, 하나의 부영상에 대한 에지 히스토그램을 나타낸다. 부영상의 수는 16개로 고정되어 있고 각 부영상에는 5개의 에지 히스토그램 빈이 할당되어 있으므로 16개의 부영상 모두에 대한 대응 국부 에지 히스토그램을 생성하기 위해서는 80개의 에지 히스토그램 빈이 필요하다. 즉, 빈 번호(BinCount)의 각 빈의 의미는 표 1과 같이 정의된다.
에지 히스토그램 빈 의미
BinCounts[0] 부영상(0,0)에서 수직 에지
BinCounts[1] 부영상(0,0)에서 수평 에지
BinCounts[2] 부영상(0,0)에서 45° 에지
BinCounts[3] 부영상(0,0)에서 135° 에지
BinCounts[4] 부영상(0,0)에서 무방향성 에지
BinCounts[5] 부영상(0,1)에서 수직 에지
... ...
BinCounts[74] 부영상(3,2)에서 무방향성 에지
BinCounts[75] 부영상(3,3)에서 수직 에지
BinCounts[76] 부영상(3,3)에서 수평 에지
BinCounts[77] 부영상(3,3)에서 45° 에지
BinCounts[78] 부영상(3,3)에서 135° 에지
BinCounts[79] 부영상(3,3)에서 무방향성 에지
여기서, BinCounts[0], BinCounts[1], ... , BinCounts[79]는 각각 에지 히스토그램 기술자에 대한 부호화된 비트를 나타낸다.
도6은 하나의 비디오 시퀀스에 포함된 각 이미지 프레임에 대응하는 80개의 에지 히스토그램 빈의 배열을 나타내는 설명도이다.
예를 들어, 도2의 이미지(200)의 (0, 0)에서 부영상(211)에 대한 에지 히스토그램은 제1이미지 프레임의 수직 에지 히스토그램 빈, 수평 에지 히스토그램 빈, 45° 에지 히스토그램 빈, 135° 에지 히스토그램 빈 및 무방향성 에지 히스토그램 빈(600, 601, 602, 603 및 604)을 포함한다. 도6에서는 BIN COUNT[1, 0], BIN COUNT[1, 1], BIN COUNT[1, 3](미도시) 및 BIN COUNT[1, 4](미도시)로 표시되어 있다. 마찬가지로, 도2의 (0, 1)에서 부영상 (212)에 대한 국부 에지 히스토그램은 5개의 에지 히스토그램 빈(605, 606, 607, 608 및 609)을 부영상(211)에 대한 빈과 동일한 순서로 포함한다. 도6에서는 BIN COUNT[1, 5], BIN COUNT[1, 6], BIN COUNT[1, 7] 및 BIN COUNT[1, 9](미도시)로 표시되어 있다. 따라서, 16개 부영상 모두에 대한 16개 에지 히스토그램 각각을 생성하기 위해서는 총 80개의 에지 히스토그램 빈이 필요하다. 여기서, 80개의 빈은 5개의 에지 히스토그램 빈을 16개의 부영상으로 승산함으로써 계산된다.
비디오 시퀀스의 각 이미지 프레임에 대한 에지 히스토그램을 획득하기 위해 하나의 부영상에 대한 국부 에지 히스토그램의 각 에지 히스토그램 빈은 각 빈을 부영상에 포함된 이미지 블럭의 총 수로 제산하여 정규화된다. 따라서, 국부 에지 히스토그램에 대한 에지 히스토그램 빈 각각은 0 에서 1까지의 범위에 있는 빈 값을 갖게 된다.
디지털 비디오 데이터에 포함된 각 이미지 프레임의 모든 에지 히스토그램을 계산한 후, 비디오 시퀀스에 포함된 이미지 프레임의 80개 정규화된 국부 에지 히스토그램 빈에 기초하여 80개 대표 에지 히스토그램 빈을 계산함으로써 제1이미지기술자로서 비디오 시퀀스의 대표 에지 히스토그램이 계산된다.
각 대표 에지 히스토그램 빈은 모든 이미지 프레임에 포함된 대응하는 정규화된 에지 히스토그램 빈의 평균값 또는 중간값 중 어느 하나가 될 수 있다. 또한 각 대표 에지 히스토그램 빈은 동일한 위치의 국부 에지 히스토그램 빈간의 인터섹션 값 또는 키 값을 선택하여 모든 이미지 프레임의 대응하는 정규화된 에지 히스토그램 빈 중 어느 하나로 할 수도 있다.
예를 들어, 대표 에지 히스토그램을 계산하기 위해 평균값이 사용될 경우, 대표 에지 히스토그램은 다음과 같이 계산된다. 도6을 참조하면, 각 이미지 프레임에 대한 동일 위치의 대응 에지 히스토그램 빈이 합산되고 비디오 시퀀스에 포함된 프레임의 개수로 제산되어 대표 에지 히스토그램 빈이 생성된다. 예를 들어, 대응 에지 히스토그램 빈 BIN COUNT[k, 0], BIN COUNT[k-1, 0], ... , BIN COUNT[1, 0]이 합산되고 프레임의 개수로 제산되어 대표 에지 히스토그램 빈 BIN COUNT[0]이 생성된다. 모든 다른 에지 히스토그램 빈 또한 합산되고 디지털 비디오 데이터의 프레임 개수로 제산되어 BIN COUNT[0], BIN COUNT[1], ... , BIN COUNT[79]와 같은 대표 에지 히스토그램 빈이 생성된다. 모든 대표 에지 히스토그램 빈이 계산된 이후, 앞서 설명된 바와 같이 비디오 시퀀스의 대표 에지 히스토그램은 비디오 시퀀스의 제1이미지 기술자로서 저장된다.
디지털 비디오 데이터에 포함된 대표 에지 히스토그램의 정규화된 빈 값은 도1a의 처리블럭(S105)으로 전송된다. 처리블럭(S105)에서, 대표 에지 히스토그램은 다수의 양자화 테이블을 이용하여 비선형적으로 양자화된다.
즉, 제2이미지 기술자를 획득하기 위해 정규화 빈 값은 양자화되어 이진 표현으로 획득된다. 양자화는 대표 에지 히스토그램의 정규화된 80개 빈 값에 대해 수행된다. 여기서, 정규화 빈 값은 비선형적으로 양자화되므로, 상기 이진 표현을 위해 사용되는 전체 비트 수는 최소화된다. 상기 프로세스는 데이터베이스에 저장되는 모든 비디오 시퀀스에 대해 수행된다.
그 결과, 양자화 색인값 그룹이 제2이미지 기술자로서 획득된다. 비선형 양자화는, 예를 들어, 본 발명의 일실시예에 따라 로이드-맥스(Lloyd-Max) 알고리즘으로 설계된 비선형 양자화기를 사용하여 실행된다.
양자화를 수행하기 위해 표2 내지 표6과 같이 수직 에지 히스토그램 빈, 수평 에지 히스토그램 빈, 45° 에지 히스토그램 빈, 135° 에지 히스토그램 빈 및 무방향성 에지 히스토그램 빈에 대한 5개 비선형 양자화 테이블이 각각 사용된다.
수직형 에지 히스토그램 빈에 대한 양자화 표
인덱스 (3비트/빈) 범위 대표값
0 0.0000000 ~ 0.0343910 0.010867
1 0.0343910 ~ 0.0787205 0.057915
2 0.0787205 ~ 0.1221875 0.099526
3 0.1221875 ~ 0.1702110 0.144849
4 0.1702110 ~ 0.2280385 0.195573
5 0.2280385 ~ 0.3092675 0.260504
6 0.3092675 ~ 0.4440795 0.358031
7 0.4440795 ~ 1.0000000 0.530128
수평형 에지 히스토그램 빈에 대한 양자화 표
인덱스 (3비트/빈) 범위 대표값
0 0.0000000 ~ 0.0411000 0.012266
1 0.0411000 ~ 0.0979065 0.069934
2 0.0979065 ~ 0.1540930 0.125879
3 0.1540930 ~ 0.2128515 0.182307
4 0.2128515 ~ 0.2789795 0.243396
5 0.2789795 ~ 0.3631455 0.314563
6 0.3631455 ~ 0.4880235 0.411728
7 0.4880235 ~ 1.0000000 0.564319
45°형 에지 히스토그램 빈에 대한 양자화 표
인덱스 (3비트/빈) 범위 대표값
0 0.0000000 ~ 0.0150225 0.004193
1 0.0150255 ~ 0.0363560 0.025852
2 0.0363560 ~ 0.0576895 0.046860
3 0.0576895 ~ 0.0809025 0.068519
4 0.0809025 ~ 0.1083880 0.093286
5 0.1083880 ~ 0.1424975 0.123490
6 0.1424975 ~ 0.1952325 0.161505
7 0.1952325 ~ 1.0000000 0.228960
135°형 에지 히스토그램 빈에 대한 양자화 표
인덱스 (3비트/빈) 범위 대표값
0 0.0000000 ~ 0.0150490 0.004174
1 0.0150490 ~ 0.0360780 0.025924
2 0.0360780 ~ 0.0566975 0.046232
3 0.0566975 ~ 0.0784090 0.067163
4 0.0784090 ~ 0.1025230 0.089655
5 0.1025230 ~ 0.1336475 0.115391
6 0.1336475 ~ 0.1848245 0.151904
7 0.1848245 ~ 1.0000000 0.217745
무방향성형 에지 히스토그램 빈에 대한 양자화 표
인덱스 (3비트/빈) 범위 대표값
0 0.0000000 ~ 0.0292225 0.006778
1 0.0292225 ~ 0.0801585 0.051667
2 0.0801585 ~ 0.1374535 0.108650
3 0.1374535 ~ 0.1952415 0.166257
4 0.1952415 ~ 0.2549585 0.224226
5 0.2549585 ~ 0.3210330 0.285691
6 0.3210330 ~ 0.4036735 0.356375
7 0.4036735 ~ 1.0000000 0.450972
여기서, 본 발명에 따르면, 8개 양자화 레벨을 갖기 위해서는 양자화 테이블에서 비트/빈의 최적 수는 3으로 고정된다. 제2이미지 기술자는 데이터베이스(S106)에 저장되어, 질의 이미지 입력에 응답하여 검색된다.
도7은 본 발명에 따라 질의 비디오 시퀀스의 입력에 응답하여 요구되는 비디오 시퀀스를 검색하는 프로세스를 설명하기 위한 도면이다.
질의 이미지는 수신 된 경우, 질의 비디오 시퀀스는 도1a의 처리 블럭(S101) 및 처리블럭(S103)에서 처리된다. 즉, 질의 비디오 시퀀스에 대한 각 이미지 프레임의 에지 히스토그램은 앞서 설명된 바와 같은 동일한 방법으로 획득되며, 질의 비디오 시퀀스에 대한 각 이미지 프레임의 에지 히스토그램은 질의 비디오 시퀀스에 대한 정규화된 에지 히스토그램을 포함한다.
다음으로, 비디오 시퀀스에 포함된 각 이미지 프레임의 국부 에지 히스토그램, 비디오 시퀀스의 대표 에지 히스토그램, 질의 비디오 시퀀스에 대한전역(global) 에지 히스토그램 및 반-전역(semi-global) 히스토그램이 이미지 기술자인 정규화 에지 히스토그램 빈에 기초하여 생성된다. 전역 에지 히스토그램은 전체 이미지 구역에서의 에지 분포를 나타낸다. 전역 에지 히스토그램 및 반-전역 히스토그램은 이하에서 더 자세히 기술된다.
한편, 도7에는 본 발명의 바람직한 실시예에 따라 다수의 비선형 역양자화(inverse quantization) 테이블을 이용함으로써 질의 비디오 시퀀스의 입력에 응하여 요구되는 디지털 비디오 데이터를 검색하는 방법이 도시되어있다. 여기서, 비선형 역양자화 테이블은 상기 표2 내지 표6이 될 수 있다.
질의 비디오 시퀀스가 입력되면 처리블럭(S101)과 동일한 과정, 즉, 이미지 분할 과정이 처리블럭(S701)에서 실행된다.
처리블럭(S702)에서는 처리블럭(S103)과 동일한 과정, 즉, 각 이미지 프레임의 에지 히스토그램 생성 과정이 실행된다.
처리블럭(S703)에서는 비디오 시퀀스에 포함된 각 이미지 프레임의 에지 히스토그램에 기초하여 비디오 시퀀스의 대표 에지 히스토그램이 생성된다.
비디오 시퀀스의 대표 에지 히스토그램이 계산된 이후, 도1a의 처리블럭(S105)과 동일하게 비선형 양자화 과정이 수행된다.
높은 검색 성능을 얻기 위해, 질의 비디오 시퀀스에 대한 전역 에지 히스토그램 및 반-전역 에지 히스토그램은, 대표 에지 히스토그램의 비선형 역양자화 과정(S704) 이후, 처리블럭(S703)에서 생성된 대표 에지 히스토그램 빈에 기초하여 더 생성될 수 있다.
데이터 매칭 과정에 있어서, 각 비디오 시퀀스에 대한 복수의 제2이미지 기술자가 사전 설정된 데이터베이스(S107)로부터 순차적으로 검색된다. 저장되어 있는 대상 비디오 시퀀스에 있어서, 양자화 인덱스값 그룹이 검색되어 비선형 역양자화 테이블(S704)로 전송된다. 비선형 역양자화 테이블의 이용을 통해 양자화 인덱스값이 검색된 비디오 시퀀스에 대한 정규화된 에지 히스토그램 빈으로 변환된다.
처리블럭(S705)에서, 요구되는 비디오 시퀀스 검색을 위해 질의 비디오 시퀀스의 대표 에지 히스토그램 및 검색된 비디오 시퀀스가 비교된다.
검색된 비디오 시퀀스와 질의 비디오 시퀀스의 상세한 매칭을 위해 전역 에지 히스토그램 및 반-전역 에지 히스토그램이 이용될 수 있다. 예를 들어, 데이터 매칭 처리블럭(S705)은 전역 에지 히스토그램 및 반-전역 에지 히스토그램을 이용하여 설명된다.
정규화 에지 히스토그램 빈은 비디오 시퀀스의 대표 에지 히스토그램, 질의 비디오 시퀀스에 대한 전역 에지 히스토그램 및 반-전역 에지 히스토그램을 추출하는 데 사용된다. 즉, 검색 성능을 높이기 위해, 정규화된 대표 에지 히스토그램 빈, 전역 에지 히스토그램 및 반-전역 에지 히스토그램을 갖는 대표 에지 히스토그램이 데이터 매칭 과정에서 검색 비디오 시퀀스에 대한 이미지 기술자로 이용된다.
본 발명의 출원인이 출원한 "NON-LINEAR QUANTIZATION AND SIMILARITY MATCHING METHOD FOR RETRIEVING IMAGE DATA"라는 명칭의 미합중국 출원(출원일 : 2001.10.18., 출원번호 : 09/978,668, 대응 PCT 출원의 공개번호 : WO 02/33978, PCT 출원 공개일 : 2002.04.25.)은 전역 에지 히스토그램 및 반-전역 에지 히스토그램의 생성에 대해 자세히 개시하고 있으며, 그 개시된 사항은 본 명세서에서 참조함으로써 결합된다.
데이터 매칭 과정(S705)에서, 질의 비디오 시퀀스 A와 대상 비디오 시퀀스 B의 대표 에지 히스토그램, 반-전역 에지 히스토그램 및 전역 에지 히스토그램간의 거리를 계산함으로써 두 비디오간 유사도가 다음과 같이 결정된다.
여기서, Local_A[i] 와 Local_B[i]는 각각 비디오 시퀀스 A 및 B의 대표 에지 히스토그램 각각의 i번째 빈에 할당된 인덱스값, Global_A[] 및 Global_B[]는 각각 디지털 비디오 데이터 A 및 B의 전역 에지 히스토그램 각각의 i번째 빈에 할당된 인덱스값, Semi_Global_A[] 및 Semi_Global_B[]는 각각 비디오 시퀀스 A 및 B의 반-전역 에지 히스토그램 각각의 i번째 빈에 할당된 인덱스값을 나타낸다. 전역 에지 히스토그램에 대한 빈의 개수는 대표 에지 히스토그램 및 반-전역 에지 히스토그램의 그것보다 상대적으로 적으므로, 가중치 5가 상기 수학식에 적용된다.
상기된 바와 같이, 수학식6을 이용하여 역양자화 테이블을 참조함으로써 2개의 디지털 비디오 데이터 A와 B 사이의 유사도가 측정될 수 있다. 이 경우, 이미지에 대한 대표 에지 히스토그램 빈 값은 역양자화 테이블을 참조하여 복호화 되므로, 수학식6은 정확한 검색을 위한 응용분야에서 널리 사용된다. 여기서, 역양자화 테이블 각각은 표2 내지 표6에 나타난 에지 양자화 테이블 각각에 대응한다.
상기 과정은 모든 비디오 시퀀스가 처리될 때까지 반복된다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어서 명백하다 할 것이다.
본 발명에 따르면, 복수의 이미지 프레임을 갖는 비디오 시퀀스에 대한 양자화 인덱스값을 저장하는데 필요한 비트의 수가 상당히 감소될 수 있다. 나아가, 유사도 연산의 복잡도는 비선형 양자화에 의해 상당히 감소될 수 있다.
또한, 본 발명은 에지 히스토그램 기술자를 이용하여 텍스쳐 비디오를 포함하는 디지털 비디오 데이터를 효율적으로 검색할 수 있다.

Claims (41)

  1. 복수의 비디오 시퀀스를 표현하는 디지털 비디오 데이터 정보 - 상기 복수의 비디오 시퀀스 각각은 상기 디지털 비디오 데이터의 이미지 프레임 셋을 포함함 - 를 갖는 데이터베이스 구축 방법에 있어서,
    상기 각 비디오 시퀀스의 상기 각 이미지 프레임을 L개(L은 양의 정수)의 부영상(sub-image) - 상기 각 부영상은 S x T개(S 및 T는 각각 양의 정수)의 이미지 블럭(image-block)으로 더욱 분할됨 - 으로 분할하는 제1단계;
    상기 각 이미지 블럭에 대해 5개의 기준 에지(reference edge) - 상기 기준 에지는 4개의 방향성(directional) 에지 및 1개의 무방향성(non-directional) 에지를 포함함 - 중 어느 하나를 할당하여 상기 각 이미지 프레임에 대해 L개의 에지 히스토그램(edge histogram) - 상기 에지 히스토그램은 M개의 에지 히스토그램 빈(edge histogram bin)을 포함함 - 을 생성하는 제2단계;
    상기 각 에지 히스토그램에 포함된 상기 에지 히스토그램 빈을 S x T로 정규화하여 상기 각 이미지 프레임에 대해 M개의 정규화된 에지 히스토그램 빈을 생성하는 제3단계;
    상기 각 이미지 프레임의 정규화된 에지 히스토그램 빈에 기초하여 상기 각 비디오 시퀀스에 대한 L개의 대표(representative) 에지 히스토그램을 생성하기 위해 상기 각 비디오 시퀀스에 대해 M개의 대표 에지 히스토그램 빈을 계산하는 제4단계; 및
    상기 데이터베이스에 저장되는 상기 각 대표 에지 히스토그램에 대한 제2이미지 기술자로서 M개의 양자화 인덱스값을 생성하기 위해 상기 대표 에지 히스토그램 빈을 비선형적으로 양자화하는 제5단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 방향성 에지는
    수직(vertical) 에지, 수평(horizontal) 에지, 45°에지 및 135°에지를 포함하고,
    상기 무방향성 에지는
    상기 4가지 방향성 에지를 제외한, 정해진 방향이 없는 에지를 나타내는
    방법.
  3. 제2항에 있어서,
    상기 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지는
    각각 다음과 같이 표현되는
    방법.
  4. 제3항에 있어서,
    상기 제1단계는,
    상기 각 이미지 프레임을 N x N개(N은 양의 정수)의 겹치지 않는(non-overlapping) 부영상으로 분할하여 L개의 직사각형 모양의 부영상을 생성하는 제11단계; 및
    상기 부영상을 S x T개의 겹치지 않는 블럭으로 분할하여 S x T개의 정사각형 모양의 이미지 블럭을 생성하는 제12단계
    를 포함하는 방법.
  5. 제4항에 있어서,
    상기 제2단계는,
    상기 각 이미지 블럭에 상기 기준 에지 중 어느 하나를 할당하는 제21단계; 및
    상기 각 이미지 프레임에 대해 L개의 에지 히스토그램을 생성하기 위해 상기각 부영상에 포함된 각 기준 에지의 개수를 카운트하는 제22단계
    를 포함하는 방법.
  6. 제5항에 있어서,
    상기 제21단계는
    각 이미지 블럭을 2 x 2개의 부블럭으로 분할하는 제211단계;
    대응 필터계수를 상기 각 부블럭에 할당하는 제212단계;
    상기 필터계수를 이용하여 상기 각 이미지 블럭에 대한 5개 에지에 대응하는 5개 에지 크기 셋을 계산하는 제213단계; 및
    상기 계산된 에지 크기를 서로 비교하여 상기 이미지 블럭을 최대 에지 크기를 갖는 에지로 표현하는 제214단계
    를 포함하는 방법.
  7. 제6항에 있어서,
    상기 5개 에지 크기는 다음 5개의 수학식에 의해 산출되는
    방법.
    [수학식1]
    [수학식2]
    [수학식3]
    [수학식4]
    [수학식5]
    (단, mv(i, j), mh(i, j), md-45(i, j), md-135(i, j) 및 mnd(i, j) 각각은 (i, j)번째 이미지 블럭에 대한 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지 크기,
    ak(i, j)는 (i, j)번째 이미지 블럭에서 k로 할당된 부블럭에 대한 평균 그레이 레벨(grey level),
    fv(k), fh(k), fd-45(k), fd-135(k) 및 fnd(k)는 각각 k로 할당된 부블럭에서 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지에 대한 필터 계수를 의미함)
  8. 제6항에 있어서,
    상기 최대 에지 크기가 소정의 임계값보다 작을 경우 상기 이미지 블럭은 에지를 하나도 포함하지 않는 것으로 취급하는
    방법.
  9. 제1항에 있어서,
    상기 대표 에지 히스토그램 빈은
    상기 비디오 시퀀스의 이미지 프레임의 대응하는 에지 히스토그램 빈의 평균값에 기초하여 계산되는
    방법.
  10. 제1항에 있어서,
    상기 제5단계는
    상기 각 기준 에지에 대응하는 5개의 비선형 양자화 테이블 중에서 대응하는 비선형 양자화 테이블을 이용하여 상기 각 대표 에지 히스토그램 빈을 비선형적으로 양자화하는 제51단계
    를 포함하는 방법.
  11. 제10항에 있어서,
    상기 제51단계는,
    상기 각 대표 에지 히스토그램 빈을 상기 각 대응 기준 에지 양자화 테이블에 포함된 대표값으로 맵핑하는 제521단계; 및
    상기 각 대표 에지 히스토그램 빈에 대한 대표값을 나타내는 양자화 인덱스값 3 비트를 생성하여 상기 비디오 시퀀스에 대한 제2이미지 기술자로서 L x 5개의 양자화 인덱스값을 생성하는 제522단계
    를 포함하는 방법.
  12. 제10항에 있어서,
    상기 정규화 에지 히스토그램 빈은
    로이드-맥스(Lloyd-Max) 알고리즘을 기반으로 하는 비선형 양자화기에 의해 비선형적으로 양자화 되는
    방법.
  13. 제5항에 있어서,
    상기 N은 4인
    방법.
  14. 제12항에 있어서,
    상기 양자화 테이블은
    하기 표1과 같이 상기 부영상에서 수직 에지의 개수를 나타내는 수직 에지 히스토그램 빈에 대한 테이블을 포함하는
    방법.
    [표1]
    인덱스 범위 대표값 0 0.0000000 ~ 0.0343910 0.010867 1 0.0343910 ~ 0.0787205 0.057915 2 0.0787205 ~ 0.1221875 0.099526 3 0.1221875 ~ 0.1702110 0.144849 4 0.1702110 ~ 0.2280385 0.195573 5 0.2280385 ~ 0.3092675 0.260504 6 0.3092675 ~ 0.4440795 0.358031 7 0.4440795 ~ 1.0000000 0.530128
  15. 제12항에 있어서,
    상기 양자화 테이블은
    하기 표2와 같이 상기 부영상에서 수평 에지의 개수를 나타내는 수평 에지 히스토그램 빈에 대한 테이블을 더 포함하는
    방법.
    [표2]
    인덱스 범위 대표값 0 0.0000000 ~ 0.0411000 0.012266 1 0.0411000 ~ 0.0979065 0.069934 2 0.0979065 ~ 0.1540930 0.125879 3 0.1540930 ~ 0.2128515 0.182307 4 0.2128515 ~ 0.2789795 0.243396 5 0.2789795 ~ 0.3631455 0.314563 6 0.3631455 ~ 0.4880235 0.411728 7 0.4880235 ~ 1.0000000 0.564319
  16. 제12항에 있어서,
    상기 양자화 테이블은
    하기 표3과 같이 상기 부영상에서 45°에지의 개수를 나타내는 45°에지 히스토그램 빈에 대한 테이블을 더 포함하는
    방법.
    [표3]
    인덱스 범위 대표값 0 0.0000000 ~ 0.0150225 0.004193 1 0.0150255 ~ 0.0363560 0.025852 2 0.0363560 ~ 0.0576895 0.046860 3 0.0576895 ~ 0.0809025 0.068519 4 0.0809025 ~ 0.1083880 0.093286 5 0.1083880 ~ 0.1424975 0.123490 6 0.1424975 ~ 0.1952325 0.161505 7 0.1952325 ~ 1.0000000 0.228960
  17. 제12항에 있어서,
    상기 양자화 테이블은
    하기 표4와 같이 상기 부영상에서 135°에지의 개수를 나타내는 135°에지 히스토그램 빈에 대한 테이블을 더 포함하는
    방법.
    [표4]
    인덱스 범위 대표값 0 0.0000000 ~ 0.0150490 0.004174 1 0.0150490 ~ 0.0360780 0.025924 2 0.0360780 ~ 0.0566975 0.046232 3 0.0566975 ~ 0.0784090 0.067163 4 0.0784090 ~ 0.1025230 0.089655 5 0.1025230 ~ 0.1336475 0.115391 6 0.1336475 ~ 0.1848245 0.151904 7 0.1848245 ~ 1.0000000 0.217745
  18. 제12항에 있어서,
    상기 양자화 테이블은
    하기 표5와 같이 상기 부영상에서 무방향성 에지의 개수를 나타내는 무방향성 에지 히스토그램 빈에 대한 테이블을 더 포함하는
    방법.
    [표5]
    인덱스 범위 대표값 0 0.0000000 ~ 0.0292225 0.006778 1 0.0292225 ~ 0.0801585 0.051667 2 0.0801585 ~ 0.1374535 0.108650 3 0.1374535 ~ 0.1952415 0.166257 4 0.1952415 ~ 0.2549585 0.224226 5 0.2549585 ~ 0.3210330 0.285691 6 0.3210330 ~ 0.4036735 0.356375 7 0.4036735 ~ 1.0000000 0.450972
  19. 제7항에 있어서,
    상기 각 에지 히스토그램 빈의 빈 번호(BinCount)는 다음의 표6과 같이 정의되는
    방법.
    [표6]
    에지 히스토그램 빈 의미 BinCounts[0] 부영상(0,0)에서 수직 에지 BinCounts[1] 부영상(0,0)에서 수평 에지 BinCounts[2] 부영상(0,0)에서 45° 에지 BinCounts[3] 부영상(0,0)에서 135° 에지 BinCounts[4] 부영상(0,0)에서 무방향성 에지 BinCounts[5] 부영상(0,1)에서 수직 에지 ... ... BinCounts[74] 부영상(3,2)에서 무방향성 에지 BinCounts[75] 부영상(3,3)에서 수직 에지 BinCounts[76] 부영상(3,3)에서 수평 에지 BinCounts[77] 부영상(3,3)에서 45° 에지 BinCounts[78] 부영상(3,3)에서 135° 에지 BinCounts[79] 부영상(3,3)에서 무방향성 에지
  20. 제1항에 있어서,
    상기 비디오 시퀀스의 변화도 값(variation value) - 상기 변화도 값은 상기 각 이미지 프레임의 상기 에지 히스토그램의 분산(variance)을 포함함 - 을 계산하고 상기 변화도 값을 상기 데이터베이스에 저장하는 제6단계
    를 더 포함하는 방법.
  21. 데이터베이스를 기반으로 질의 비디오 시퀀스에 대한 디지털 비디오 데이터의 이미지 프레임 셋을 갖는 대응하는 비디오 시퀀스를 검색하는 방법에 있어서,
    상기 질의 비디오 시퀀스에 대한 이미지 기술자로서 상기 질의 비디오 시퀀스의 L개(L은 양의 정수) 대표 에지 히스토그램 - 상기 각 대표 에지 히스토그램은 상기 질의 비디오 시퀀스에 포함된 이미지 프레임의 부영상에 포함된 5개 기준 에지의 대표 공간 분포를 나타내며, 상기 기준 에지는 4개의 방향성 에지와 1개의 무방향성 에지를 포함함 - 을 계산하는 제1단계;
    디지털 비디오 데이터 정보에 기초하여 상기 데이터베이스로부터 비디오 시퀀스에 대한 복수의 이미지 기술자 - 상기 각 비디오 시퀀스에 대한 각 이미지 기술자는 상기 각 비디오 시퀀스에 대한 L개의 대표 에지 히스토그램 빈을 포함함 - 를 추출하는 제2단계;
    상기 질의 비디오 시퀀스에 대한 이미지 기술자를 상기 각 비디오 시퀀스에 대한 상기 각 이미지 기술자와 비교하여 비교 결과를 생성하는 제3단계; 및
    상기 비교 결과에 따라 상기 질의 비디오 시퀀스와 유사한 적어도 하나의 비디오 시퀀스를 검색하는 제4단계
    를 포함하는 방법.
  22. 제21항에 있어서,
    상기 각 에지 히스토그램은
    기준 에지에 대응하는 5개의 에지 히스토그램 빈을 갖는
    방법.
  23. 제21항에 있어서,
    상기 방향성 에지는
    수직(vertical) 에지, 수평(horizontal) 에지, 45°에지 및 135°에지를 포함하고,
    상기 무방향성 에지는
    상기 4가지 방향성 에지를 제외한, 정해진 방향이 없는 에지를 나타내는
    방법.
  24. 제21항에 있어서,
    상기 제1단계는
    상기 각 질의 비디오 시퀀스의 상기 각 이미지 프레임을 L개(L은 양의 정수)의 부영상(sub-image) - 상기 각 부영상은 S x T개(S 및 T는 각각 양의 정수)의 이미지 블럭(image-block)으로 더욱 분할됨 - 으로 분할하는 제11단계;
    상기 각 이미지 블럭에 대해 5개의 기준 에지(reference edge) - 상기 기준 에지는 4개의 방향성(directional) 에지 및 1개의 무방향성(non-directional) 에지를 포함함 - 중 어느 하나를 할당하여 상기 각 이미지 프레임에 대해 L개의 에지히스토그램(edge histogram) - 상기 에지 히스토그램은 M개의 에지 히스토그램 빈(edge histogram bin)을 포함함 - 을 생성하는 제12단계;
    상기 각 에지 히스토그램에 포함된 상기 에지 히스토그램 빈을 S x T로 정규화하여 상기 각 이미지 프레임에 대해 M개의 정규화된 에지 히스토그램 빈을 생성하는 제13단계; 및
    상기 각 이미지 프레임의 정규화된 에지 히스토그램 빈에 기초하여 상기 각 비디오 시퀀스에 대한 L개의 대표(representative) 에지 히스토그램을 생성하기 위해 상기 질의 비디오 시퀀스에 대해 M개의 대표 에지 히스토그램 빈을 계산하는 제4단계
    를 포함하는 방법.
  25. 제23항에 있어서,
    상기 제22단계는
    상기 각 이미지 블럭에 상기 기준 에지 중 어느 하나를 할당하는 제221단계; 및
    상기 각 이미지 프레임에 대해 L개의 에지 히스토그램을 생성하기 위해 상기 각 부영상에 포함된 각 기준 에지의 개수를 카운트하는 제222단계
    를 포함하는 방법.
  26. 제25항에 있어서,
    상기 제221단계는
    각 이미지 블럭을 2 x 2개의 부블럭으로 분할하는 제2211단계;
    대응 필터계수를 상기 각 부블럭에 할당하는 제2212단계;
    상기 필터계수를 이용하여 상기 각 이미지 블럭에 대한 5개 에지에 대응하는 5개 에지 크기 셋을 계산하는 제2213단계; 및
    상기 계산된 에지 크기를 서로 비교하여 상기 이미지 블럭을 최대 에지 크기를 갖는 에지로 표현하는 제2214단계
    를 포함하는 방법.
  27. 제26항에 있어서,
    상기 5개 에지 크기는 다음 5개의 수학식에 의해 산출되는
    방법.
    [수학식6]
    [수학식7]
    [수학식8]
    [수학식9]
    [수학식10]
    (단, mv(i, j), mh(i, j), md-45(i, j), md-135(i, j) 및 mnd(i, j) 각각은 (i, j)번째 이미지 블럭에 대한 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지 크기,
    ak(i, j)는 (i, j)번째 이미지 블럭에서 k로 할당된 부블럭에 대한 평균 그레이 레벨(grey level),
    fv(k), fh(k), fd-45(k), fd-135(k) 및 fnd(k)는 각각 k로 할당된 부블럭에서 수직 에지, 수평 에지, 45°에지, 135°에지 및 무방향성 에지에 대한 필터 계수를의미함)
  28. 제26항에 있어서,
    상기 최대 에지 크기가 소정의 임계값보다 작을 경우 상기 이미지 블럭은 에지를 하나도 포함하지 않는 것으로 취급하는
    방법.
  29. 제21항에 있어서,
    상기 질의 비디오 시퀀스 및 대상 비디오 시퀀스에 대한 이미지 기술자는
    각각 L x 5개의 대표 에지 히스토그램 빈에 기초한 전역(global) 에지 히스토그램 및 R개(R은 양의 정수)의 반-전역(semi-global) 히스토그램을 포함하는
    방법.
  30. 제29항에 있어서,
    상기 전역 에지 히스토그램은
    상기 질의 비디오 시퀀스 및 대상 비디오 시퀀스의 전체 공간에서의 에지 분포를 나타내고,
    상기 각 반-전역 에지 히스토그램은
    상기 질의 비디오 시퀀스 및 대상 비디오 시퀀스의 대응하는 부영상 셋에서의 에지 분포를 나타내는
    방법.
  31. 제29항에 있어서,
    상기 N과 R은 각각 4와 13인
    방법.
  32. 제31항에 있어서,
    상기 13개의 반-전역 에지 히스토그램 각각이 4개 부영상의 13개 셋 각각에 대해 생성되되,
    상기 13개 셋은
    상기 이미지의 수직 방향으로 첫 번째 행 내지 네 번째 행 각각의 4개 부영상을 각 셋이 포함하는 4개 부영상의 4개 셋;
    상기 이미지의 수평 방향으로 첫 번째 열 내지 네 번째 열 각각의 4개 부영상을 각 셋이 포함하는 4개 부영상의 4개 셋;
    1개의 대응 부영상 - 상기 대응 부영상은 각각 좌측상단, 우측상단, 좌측하단 및 우측하단에 위치함 - 및 상기 대응 부영상에 인접한 3개의 부영상을 각 셋이 포함하는 4개 부영상의 4개 셋; 및
    상기 이미지 중심을 둘러싼 4개 부영상을 포함하는 1개 셋
    을 포함하는 방법.
  33. 제21항에 있어서,
    상기 제2단계는
    상기 각 대상 비디오 시퀀스에 대한 L x 5개의 양자화 인덱스값을 검색하는 제21단계;
    5개 비선형 역양자화 테이블을 사용하여 상기 L x 5개의 양자화 인덱스값 각각을 상기 각 대상 비디오 시퀀스에 대한 L x 5개의 대표 에지 히스토그램 빈으로 변환시키는 제22단계; 및
    상기 L x 5개 정규화 에지 히스토그램 빈에 따라 L개의 대표 에지 히스토그램을 생성하는 제23단계
    를 포함하는 방법.
  34. 제33항에 있어서,
    상기 제2단계는,
    상기 L x 5개의 대표 에지 히스토그램 빈에 따라 상기 각 대상 비디오 시퀀스에 대한 전역 에지 히스토그램 및 R개의 반-전역 히스토그램을 생성하는 제24단계
    를 더 포함하는 방법.
  35. 제21항에 있어서,
    상기 제2단계는
    상기 각 대상 비디오 시퀀스에 대한 L x 5개의 양자화 인덱스값을 검색하는 제21단계;
    상기 L x 5개의 양자화 인덱스값을 정규화하여 상기 L x 5개의 양자화 인덱스값 각각을 상기 각 대상 비디오 시퀀스에 대한 L x 5개의 대표 에지 히스토그램 빈으로 변환시키는 제22단계; 및
    상기 L x 5개 대표 에지 히스토그램 빈에 따라 L개의 대표 에지 히스토그램을 생성하는 제23단계
    를 포함하는 방법.
  36. 제35항에 있어서,
    상기 제2단계는
    상기 L x 5개의 정규화된 에지 히스토그램 빈에 따라 상기 각 대상 이미지에 대한 전역 에지 히스토그램 및 R개의 반-전역 히스토그램을 생성하는 제24단계
    를 더 포함하는 방법.
  37. 제34항에 있어서,
    상기 제3단계는
    다음의 수학식에 따라 상기 질의 비디오 시퀀스와 상기 각 대상 비디오 시퀀스 사이의 거리를 측정하는 단계
    를 포함하는 방법.
    [수학식11]
    (단, Local_A[i] 와 Local_B[i]는 각각 상기 질의 비디오 시퀀스 A 및 대상 비디오 시퀀스 B의 BinCount[i]의 에지 히스토그램 빈,
    Global_A[] 및 Global_B[]는 각각 상기 질의 이미지 A 및 대상 이미지 B의 전역 에지 히스토그램에 대한 에지 히스토그램 빈,
    Semi_Global_A[] 및 Semi_Global_B[]는 각각 상기 질의 비디오 시퀀스 A 및 대상 비디오 시퀀스 B의 반-전역 에지 히스토그램 빈에 대한 히스토그램 빈 값을 의미함)
  38. 제36항에 있어서,
    상기 제3단계는
    다음의 수학식에 따라 상기 질의 비디오 시퀀스와 상기 각 대상 비디오 시퀀스 사이의 거리를 측정하는 단계
    를 포함하는 방법.
    [수학식12]
    (단, Local_A[i] 와 Local_B[i]는 각각 상기 질의 비디오 시퀀스 A 및 대상 비디오 시퀀스 B의 BinCount[i]의 에지 히스토그램 빈,
    Global_A[] 및 Global_B[]는 각각 상기 질의 비디오 시퀀스 A 및 대상 비디오 시퀀스 B의 전역 에지 히스토그램에 대한 에지 히스토그램 빈,
    Semi_Global_A[] 및 Semi_Global_B[]는 각각 상기 질의 비디오 시퀀스 A 및 대상 비디오 시퀀스 B의 반-전역 에지 히스토그램 빈에 대한 히스토그램 빈 값을 의미함)
  39. 각각이 복수의 디지털 비디오 데이터 이미지 프레임을 갖는 비디오 시퀀스에 대한 이미지 기술자를 추출하는 방법에 있어서,
    대상 이미지 프레임으로서 이미지 프레임 중 어느 하나를 선택하는 제1단계;
    상기 대상 이미지의 L개 에지 히스토그램 - 상기 에지 히스토그램 각각은 5개의 정규화된 에지 히스토그램 빈을 갖고, 부영상에서 5개 기준 에지의 공간 분포를 나타내며, 상기 기준 에지는 4개의 방향성(directional) 에지 및 1개의 무방향성(non-directional) 에지를 포함함 - 을 생성하기 위해 L x 5개(L은 양의 정수)의 정규화된 에지 히스토그램 빈을 계산하는 제2단계;
    대상 이미지로서 다음 이미지 프레임을 선택하는 제3단계;
    모든 이미지 프레임의 L개 에지 히스토그램이 계산될 때까지 상기 제2단계 및 제3단계를 반복하는 제4단계;
    상기 각 이미지 프레임의 L개 에지 히스토그램에 기초하여 상기 비디오 시퀀스에 대한 L x 5개의 정규화된 에지 히스토그램 빈을 갖는 대표 에지 히스토그램을 계산하는 제5단계;
    상기 비디오 시퀀스에 대한 이미지 기술자로서 L x 5개의 양자화 인덱스값을생성하기 위해 상기 대표 에지 히스토그램의 L x 5개의 정규화된 에지 히스토그램 빈을 비선형적으로 양자화하는 제6단계; 및
    상기 L x 5개의 양자화 인덱스값을 상기 데이터베이스에 저장하는 제7단계
    를 포함하는 방법.
  40. 제39항에 있어서,
    상기 각 양자화 인덱스값은 3비트로 표현되는
    방법.
  41. 제39항에 있어서,
    상기 방향성 에지는
    수직(vertical) 에지, 수평(horizontal) 에지, 45°에지 및 135°에지를 포함하고,
    상기 무방향성 에지는
    상기 4가지 방향성 에지를 제외한, 정해진 방향이 없는 에지를 나타내는
    방법.
KR1020030095247A 2003-01-13 2003-12-23 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법 KR100959053B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20030002074 2003-01-13
KR1020030002074 2003-01-13

Publications (2)

Publication Number Publication Date
KR20040065523A true KR20040065523A (ko) 2004-07-22
KR100959053B1 KR100959053B1 (ko) 2010-05-20

Family

ID=37355684

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030095247A KR100959053B1 (ko) 2003-01-13 2003-12-23 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법

Country Status (1)

Country Link
KR (1) KR100959053B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827229B1 (ko) * 2006-05-17 2008-05-07 삼성전자주식회사 비디오 검색 장치 및 방법
WO2014007562A1 (ko) * 2012-07-06 2014-01-09 인텔렉추얼 디스커버리 주식회사 영상 검색방법 및 장치
KR20150031333A (ko) * 2012-07-09 2015-03-23 시스벨 테크놀로지 에스.알.엘. 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100369370B1 (ko) * 1999-10-11 2003-01-24 한국전자통신연구원 블록기반 영상 히스토그램 생성 방법
KR100430273B1 (ko) * 2000-07-21 2004-05-04 엘지전자 주식회사 비정규적인 빈값 양자화된 칼라 히스토그램을 이용한멀티미디어 검색방법
KR20020031015A (ko) * 2000-10-21 2002-04-26 오길록 에지 히스토그램 빈의 비선형 양자화 및 유사도 계산

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827229B1 (ko) * 2006-05-17 2008-05-07 삼성전자주식회사 비디오 검색 장치 및 방법
WO2014007562A1 (ko) * 2012-07-06 2014-01-09 인텔렉추얼 디스커버리 주식회사 영상 검색방법 및 장치
KR20150031333A (ko) * 2012-07-09 2015-03-23 시스벨 테크놀로지 에스.알.엘. 그라디언트 히스토그램에 기초하여 이미지 기술자를 변환하기 위한 방법 및 관련된 이미지 프로세싱 장치

Also Published As

Publication number Publication date
KR100959053B1 (ko) 2010-05-20

Similar Documents

Publication Publication Date Title
US7702152B2 (en) Non-linear quantization and similarity matching methods for retrieving video sequence having a set of image frames
KR100556832B1 (ko) 영상정보 검색을 위한 비선형 양자화 및 유사도 매칭 방법
KR100452064B1 (ko) 디지털 영상 처리 장치
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
EP1233374A2 (en) Apparatus and method for extracting objects based on feature matching between segmented regions in images
US8340412B2 (en) Image processing
GB2431793A (en) Image comparison
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP5117670B2 (ja) 画像及び画像群を表現する方法、画像又は画像群を比較する方法、画像又は画像群を検索する方法、各方法を実行する装置およびシステム、プログラム、及びコンピュータ読み取り可能な記憶媒体
KR100959053B1 (ko) 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법
KR100361939B1 (ko) 객체 움직임을 이용한 mpeg 비디오 시퀀스의 데이터 베이스 구축 및 검색 방법과 그 기록 매체
KR100464224B1 (ko) 화상처리방법 및 그 장치, 기억매체
Dimai Unsupervised extraction of salient region-descriptors for content based image retrieval
EP2372640A1 (en) Methods of representing and analysing images
KR100452063B1 (ko) 디지털 영상 처리 방법 및 그 장치
KR100324255B1 (ko) 내용 기반 동영상 검색 방법
CN100446569C (zh) 用于检索具有图像帧组视频序列的非线性量化和相似性匹配方法
Monclús et al. Efficient selection of representative views and navigation paths for volume data exploration
Izquierdo A low access latency video portal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130424

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150427

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160427

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee