KR20070111264A - 비디오 검색 장치 및 방법 - Google Patents

비디오 검색 장치 및 방법 Download PDF

Info

Publication number
KR20070111264A
KR20070111264A KR1020060044416A KR20060044416A KR20070111264A KR 20070111264 A KR20070111264 A KR 20070111264A KR 1020060044416 A KR1020060044416 A KR 1020060044416A KR 20060044416 A KR20060044416 A KR 20060044416A KR 20070111264 A KR20070111264 A KR 20070111264A
Authority
KR
South Korea
Prior art keywords
edge
video
histogram
key frame
edge histogram
Prior art date
Application number
KR1020060044416A
Other languages
English (en)
Other versions
KR100827229B1 (ko
Inventor
김명호
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060044416A priority Critical patent/KR100827229B1/ko
Priority to US11/590,822 priority patent/US20070268966A1/en
Publication of KR20070111264A publication Critical patent/KR20070111264A/ko
Application granted granted Critical
Publication of KR100827229B1 publication Critical patent/KR100827229B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

비디오를 고속으로 검색할 수 있는 비디오 검색 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 비디오 검색 장치는, 소정 비디오로부터 추출된 샘플 비디오를 입력받는 입력부, 상기 샘플 비디오에 포함되며, 복수의 DCT 블록으로 이루어지는 복수의 서브 영역을 포함하는 프레임별로 상기 DCT 블록이 포함하는 에지의 종류에 따른 에지 히스토그램을 생성하는 에지 히스토그램 생성부, 상기 에지 히스토그램을 근거로 하여 상기 샘플 비디오에서 키 프레임을 선택하는 키 프레임 선택부 및, 상기 선택된 키 프레임과 기저장된 비디오에서 선택된 키 프레임과의 유사도 측정을 통해 상기 샘플 비디오에 매칭되는 비디오를 검색하는 비디오 검색부를 포함한다.
비디오, 검색, DCT 영역, AC계수, 에지 히스토그램(edge histogram)

Description

비디오 검색 장치 및 방법{Apparatus and method for video retrieval}
도 1은 종래 비디오 검색 방법을 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 검색 장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따라 I 프레임이 복수의 서브 영역으로 분할된 모습을 예시한 예시도이다.
도 4은 본 발명의 일 실시예에 따른 DCT 블록의 분할 모습을 예시한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 로컬 에지 히스토그램을 도시한 도면이다.
도 6는 본 발명의 일 실시예에 따른 세미 글로벌 영역의 분할 모습을 예시한 예시도이다.
도 7은 본 발명의 일 실시예에 따른 비디오 검색 방법을 도시한 흐름도이다.
도 8은 도 7의 에지 히스토그램을 생성하는 단계 S730을 보다 상세히 도시한 흐름도이다.
도 9는 도 7의 비디오를 검색하는 단계 S750을 보다 상세히 도시한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
200: 비디오 검색 장치 210: 저장부
220: 입력부 230: 프레임 검출부
240: 엔트로피 디코더 250: 역양자화부
260: 판단부 270: 에지 히스토그램 생성부
280: 키 프레임 선택부 290: 비디오 검색부
295: 디스플레이부 300: 역양자화된 I 프레임
310: 제1 서브 영역 311, 312: DCT 블록
320: 제2 서브 영역
본 발명은 비디오 검색 장치 및 방법에 관한 것으로, 보다 상세하게는 고속으로 비디오를 검색할 수 있는 비디오 검색 장치 및 방법에 관한 것이다.
최근 인터넷 및 멀티미디어 기술이 발전함에 따라 멀티미디어 데이터가 급격하게 증가하고 있다. 멀티미디어 데이터의 공급이 기하급수적으로 증가함에 따라서 사용자가 원하는 정보를 검색하기 위한 기술에 대한 연구가 활발히 이루어지고 있다.
멀티미디어 컨텐츠를 검색하는 방법에는 크게 주석 기반 검색과 내용 기반 검색의 두 가지 방법이 있다. 주석 기반 검색은 각 이미지를 수작업을 통해 서술하 는 방식으로 주로 키워드를 이용한 검색 방법을 사용하고 있다. 이 방법은 사람이 키워드를 직접 만들어야하므로 주관적일 수 있고, 많은 시간을 요한다는 단점을 가지고 있다.
내용 기반 검색은 전술한 주석 기반 검색의 단점을 극복하기 위하여 개발된 것으로, 멀티미디어 컨텐츠에서 내용 구성 요소들을 자동으로 분리하고, 분리된 구성 요소들의 특징을 자동으로 추출하여 데이터베이스화한 다음, 검색을 실시하는 방법이다. 내용 기반 검색은 키워드와 관계없이 멀티미디어 컨텐츠가 가지고 있는 시청각적 특징만을 이용하여 검색을 실행한다. 예를 들어, 내용 기반 이미지 검색을 할 경우, 이미지 내에 포함된 구성 요소가 가지고 있는 색상, 모양, 질감 등의 특징값을 사용하여 질의 이미지와 목표 이미지 간의 유사도를 계산하는 방식으로 유사 이미지를 찾게 된다.
종래 내용 기반 검색 방법 중 비디오 검색 방법에 대해서 살펴보면, 기저장되어 있는 비디오들로부터 각각 특징 정보를 추출하여 데이터베이스화하고, 질의 비디오로부터 특징 정보를 추출하여 데이터베이스화한다. 그 다음 두 데이터베이스들 사이의 유사도를 측정하여 기저장되어 있는 비디오 중에서 질의 비디오와 유사한 비디오를 검색한다. 이러한 비디오 검색 방법으로서, EMI(Edge Matching Image) 및 GoF-GoP 방법을 예로 들 수 있다.
도 1은 종래 EMI 기법에 의한 비디오 검색 방법 중 특징 정보를 추출하는 과정을 보다 구체적으로 나타낸 흐름도이다.
우선, 기저장되어 있는 비디오의 모든 프레임을 디코딩한다(S110). 좀 더 구체적으로, 비디오의 모든 프레임을 엔트로피 디코딩한 후(S111), 역양자화를 수행한다(S112). 역양자화 과정을 거치면 8×8 블록 단위로 DCT 계수가 생성된다. 이 DCT 계수들이 IDCT 과정을 거치게 되면(S113), 프레임별로 공간 영역으로 재구성된 이미지가 생성된다.
공간 영역에서 프레임들이 재구성되면, 재구성된 프레임들 중에서 키 프레임(key frame)을 검색한다. 키 프레임이란, 하나의 샷(shot)을 대표하는 프레임을 말하며, 하나의 샷은 장면 전환(scene change)이 발생한 곳부터 다음 장면 전환이 발생한 영역으로 정의될 수 있다.
키 프레임이 검색되면, 필터링을 수행하여 검색된 키 프레임에서 특징 정보 예를 들면, 에지 정보를 추출한다(S120). 추출된 에지 정보는 질의 비디오와 유사한 목표 비디오를 검색하는데 사용된다. 즉, 질의 비디오의 에지 정보와 기저장되어 있는 비디오들의 에지 정보를 비교하여 유사도를 측정한다. 그리고 기저장되어 있는 비디오 중에서 질의 비디오의 에지 정보와 유사도가 높은 에지 정보를 갖는 비디오를 목표 데이터로 선택한다(S130).
전술한 비디오 검색 방법에서, 키 프레임을 추출하기 위해서는 현재 프레임과 이전 프레임 간의 컬러 히스토그램 및 누적 컬러 히스토그램을 이용한다. 때문에 키 프레임을 추출하기 위해서는 인코딩되어 있는 비디오의 모든 프레임을 디코딩해야 한다. 그런데 이는 비디오 검색에 소요되는 시간을 증가시키는 원인이 된다.
또한, 질의 비디오와 목표 비디오의 유사도를 측정하는데 필요한 특징 정보 를 추출하기 위한 필터링 과정 역시 많은 량의 계산량이 요구되므로 비디오 검색에 소요되는 시간을 증가시키는 원인이 된다.
따라서 연산량을 감소시켜, 비디오를 고속으로 검색할 수 있는 비디오 검색 기술을 제공할 필요가 있다.
본 발명은 상기한 문제점을 개선하기 위해 안출된 것으로, 비디오를 고속으로 검색할 수 있는 비디오 검색 장치를 제공하는데 목적이 있다.
본 발명의 다른 목적은 비디오를 고속으로 검색할 수 있는 비디오 검색 방법을 제공하는데 목적이 있다.
그러나 본 발명의 목적들은 상기에 언급된 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여 본 발명의 일 실시예에 따른 비디오 검색 장치는, 소정 비디오로부터 추출된 샘플 비디오를 입력받는 입력부, 상기 샘플 비디오에 포함되며, 복수의 DCT 블록으로 이루어지는 복수의 서브 영역을 포함하는 프레임별로 상기 DCT 블록이 포함하는 에지의 종류에 따른 에지 히스토그램을 생성하는 에지 히스토그램 생성부, 상기 에지 히스토그램을 근거로 하여 상기 샘플 비디오에서 키 프레임을 선택하는 키 프레임 선택부 및, 상기 선택된 키 프레임과 기저장된 비디오에서 선택된 키 프레임과의 유사도 측정을 통해 상기 샘플 비디오에 매칭되 는 비디오를 검색하는 비디오 검색부를 포함한다.
상기 목적을 달성하기 위하여 본 발명의 일 실시예에 따른 비디오 검색 방법은, 소정 비디오로부터 추출된 샘플 비디오를 입력받는 단계, 상기 샘플 비디오에 포함되며, 복수의 DCT 블록으로 이루어지는 복수의 서브 영역을 포함하는 프레임별로 상기 DCT 블록이 포함하는 에지의 종류에 따른 에지 히스토그램을 생성하는 단계, 상기 에지 히스토그램을 근거로 하여 상기 샘플 비디오에서 키 프레임을 선택하는 단계 및, 상기 선택된 키 프레임과 기저장된 비디오에서 선택된 키 프레임과의 유사도 측정을 통해 상기 샘플 비디오에 매칭되는 비디오를 검색하는 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있으며, 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 첨부된 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명의 실시예에 따른 비디오 검색 장치 및 방법에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들 에 의해 수행될 수 있음을 이해할 수 있을 것이다.
이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑제되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나 서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
도 2는 본 발명의 일 실시예에 따른 비디오 검색 장치(200)의 구성을 도시한 블록도이다.
도시된 비디오 검색 장치(200)는 저장부(210), 입력부(220), 프레임 검출부(230), 엔트로피 디코더(240), 역양자화부(250), 판단부(260), 에지 히스토그램 생성부(270), 키 프레임 선택부(280), 비디오 검색부(290) 및 디스플레이부(295)를 포함하여 구성된다.
저장부(210)는 인코딩된 비디오를 저장하는 역할을 한다. 또한, 저장부(210)는 비디오 검색 장치(200)의 각 구성요소들에 의해 생성된 데이터를 저장하는 역할을 한다. 예를 들면, 저장부(210)는 후술될 에지 히스토그램 생성부(270)에 의해 생성된 각 I 프레임에 대한 에지 히스토그램을 저장한다. 이러한 저장부(210)는 캐쉬(Cache), 롬(Read Only Memory; ROM), 피롬(Programable ROM: PROM), 이피롬(Erasable Programmable ROM; EPROM), 이이피롬(Electrically Erasable Programmable ROM; EEPROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(Hard Disk Drive; HDD)와 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다.
입력부(220)는 소정 비디오로부터 추출된 샘플 비디오 즉, 질의 비디오를 입 력받는다. 이 때, 질의 비디오는 적어도 하나 이상의 프레임을 포함할 수 있다.
프레임 검출부(230)는 질의 비디오 또는 기저장되어 있는 비디오에 포함되는 프레임들 중에서 I 프레임을 검출하는 역할을 한다. 검출된 I 프레임은 후술될 엔트로피 디코더(240)로 제공된다.
엔트로피 디코더(240)는 프레임 검출부(230)로부터 제공된 I 프레임을 엔트로피 디코딩(entropy decoding)한다. 엔트로피 디코딩된 I 프레임은 역양자화부(250)로 제공된다.
역양자화부(250)는 엔트로피 디코딩된 I 프레임을 역양자화(Inverse Quantization)하는 역할을 한다. 역양자화된 I 프레임은 16개의 서브 영역으로 분할될 수 있다. 또한, 각 서브 영역은 다시 8×8 크기의 복수의 DCT 블록으로 분할될 수 있다. 각 DCT 블록은 해당 블록 내의 모든 픽셀들의 선형 조합으로 만들어진 DCT 계수를 갖는데, DCT 계수를 수식으로 나타내면 (수학식1)과 같다.
Figure 112006034513275-PAT00001
특정 DCT 블록에 대한 DCT 계수 중에서 AC0 ,0 은 DC 성분의 계수로서, 해당 DCT 블록의 평균 밝기를 의미한다. 이에 비해 나머지 계수들 예를 들면, AC0 ,1 내지 AC7 ,7 들은 AC 성분의 계수로서, 특정 방향과 특정 변화율을 가지고 그레이 레벨 값에서의 변화를 반영한다. AC 성분의 계수 중 AC0 ,1 은 공간영역에서 DCT 블록의 왼쪽 부분과 오른쪽 부분 간의 수평 방향으로의 차이에 의존한다. 이에 비해 AC1 ,0 은 공간영역에서 DCT 블록의 위쪽 부분과 아래쪽 부분 간의 수직 방향으로의 차이에 의존한다. 즉, 계수 AC0 ,1 은 해당 DCT 블록이 포함하는 수평 방향의 에지 성분을 나타내고, 계수 AC1 ,0 은 해당 DCT 블록이 포함하는 수직 방향의 에지 성분을 나타낸다.
한편, 판단부(260)는 각 DCT 블록의 DCT 계수를 기반으로 하여 각 DCT 블록들이 에지 영역인지를 판단한다. 즉, 각 DCT 블록이 에지를 포함하는지를 판단한다. 이 때, 에지 영역 여부를 판별하는 기준으로 각 DCT 블록의 픽셀 값들의 분산값을 사용할 수 있다. DCT 영역에서의 분산값은 해당 블록에 대한 DCT 계수들 중에서 DC 성분을 제외한 계수들 즉, AC 계수들의 제곱의 합으로부터 구할 수 있다. 다시 말해, 소정 DCT 블록의 분산값이 임계값 보다 큰 경우, 판단부(260)는 해당 DCT 블록이 에지를 포함하는 것으로 판별한다. 반면, 분산값이 상기 임계값 이하인 경우, 판단부(260)는 해당 DCT 블록이 에지를 포함하지 않는 것으로 판별한다. 즉, 해당 DCT 블록을 평활영역으로 판단한다.
DCT 블록의 에지 영역 여부를 판별한 결과, 해당 DCT 블록이 평활영역인 경 우, 판단부(260)는 계속해서 다음 DCT 블록에 대하여 에지 영역 여부를 판단한다.
판별 결과, 해당 DCT 블록이 에지 영역인 경우, 판단부(260)는 해당 DCT 블록이 포함하는 에지의 종류를 판별한다.
우선, 판단부(260)는 해당 DCT 블록에 포함되는 에지가 비방향성 에지인지 방향성 에지인지를 판별한다. 여기서, 방향성 에지란, 수평 방향 에지, 45도 방향 에지, 수직 방향 에지, 135도 방향 에지를 예로 들 수 있으며, 비방향성 에지란, 전술한 방향성 에지에 포함되지 않는 에지를 의미한다. 판단부(260)는 각 DCT 블록의 AC 계수 중, AC0 ,1 및 AC1 , 0 의 강도를 기준으로 비방향성 에지 여부를 판별할 수 있다. 즉, 판단부(260)는 에지의 강도가 제1 임계값 이하인 경우, 해당 DCT 블록에 포함되는 에지의 종류가 비방향성 에지(non-directional edge)인 것으로 판단한다.
만약, 해당 DCT 블록에 포함되는 에지의 종류가 방향성 에지인 경우, 판단부(260)는 방향성 에지의 종류를 판별한다. 이 때, 방향성 에지의 종류는 각 DCT 블록의 AC 계수 중, AC0 ,1 및 AC1 , 0 의 비를 기준으로 판별할 수 있다. AC0 ,1 및 AC1 , 0 의 비를 나타내는 값인 R1 및 R2는 (수학식2)와 같이 정의할 수 있다.
Figure 112006034513275-PAT00002
각 DCT 블록은 (수학식2)에 정의된 R1 및 R2의 값에 따라 도 4과 같이 제1 영역, 제2 영역, 제3 영역 및 제4 영역으로 분할될 수 있다. 이 경우, 판단부(260)는 해당 DCT 블록의 AC 계수 중 AC0,1 및 AC1,0 의 비의 값이 포함되는 영역을 검출하므로써, 해당 DCT 블록이 갖는 에지의 종류를 판별한다. 일 예로, 두 계수의 비가 제1 영역에 포함되는 경우, 판단부(260)는 해당 DCT 블록이 수직 방향의 에지를 포함하는 것으로 판단한다. 만약, 두 계수가 비가 제2 영역에 포함되는 경우, 해당 DCT 블록은 수평 방향의 에지를 포함하는 것으로 판단할 수 있다.
(수학식2)를 참조하여 좀 더 구체적으로 설명하면, AC0,1 와 AC0,1 의 비가 무한대에 가까운 경우, 판단부(260)는 해당 DCT 블록이 수직 또는 수평 방향의 에지를 갖는 것으로 판단한다. 이 때, 판단부(260)는 R1 값이 무한대에 가까우면 해당 DCT 블록이 수평 방향의 에지를 갖는 것으로 판단하고, R2의 값이 무한대에 가까우면 수직 방향을 에지를 갖는 것으로 판단한다. 만약, AC0,1 와 AC0,1 의 비가 1에 가까우면, 판단부(260)는 해당 DCT 블록이 45도 방향의 에지 또는 135도 방향의 에지를 갖는 것으로 판단한다. 이 때, 판단부(260)는 두 AC 계수의 부호에 따라서 45도 방향의 에지와 135도 방향의 에지를 구분한다. 즉, 판단부(260)는 두 AC 계수의 부호가 같으면 해당 DCT 블록이 45도 방향의 에지를 갖는 것으로 판단하고, 두 계수의 부호가 다르면 해당 DCT 블록이 135도 방향의 에지를 갖는 것으로 판단한다.
에지 히스토그램 생성부(270)는, I 프레임에 대한 에지 분포 정보를 포함하는 에지 히스토그램(Edge Histogram)을 생성하는 역할을 한다. 좀 더 구체적으로, 에지 히스토그램 생성부(270)는 우선, 판별부의 판별 결과를 기반으로 하여 로컬 에지 히스토그램을 생성한 다음, 로컬 에지 히스토그램을 기반으로 하여 각각 글로벌 에지 히스토그램 및 세미 글로벌 에지 히스토그램을 생성한다. 이를 위하여 에지 히스토그램 생성부(270)는 로컬 에지 히스토그램 생성부, 글로벌 에지 히스토그램 생성부 및, 세미 글로벌 에지 히스토그램 생성부를 포함하여 구성된다.
로컬 에지 히스토그램 생성부는 판별부의 판별 결과를 기반으로 하여 로컬 에지 히스토그램을 생성한다. 여기서, 로컬 에지 히스토그램은 특정 I 프레임의 에지 분포 정보를 각 서브 영역별로 나타낸 것이다. 로컬 에지 히스토그램에 대한 보다 구체적인 설명을 위해 도 5를 참조하기로 한다.
도 5는 로컬 에지 히스토그램을 도시한 도면이다. 도 5를 참조하면, 하나의 I 프레임에 대한 로컬 에지 히스토그램은 총 80개의 빈(Bin)을 포함함을 알 수 있다. 왜냐하면, 앞서 언급한 바와 같이, I 프레임은 16개의 서브 영역으로 분할되는데, 각 서브 영역마다 5 종류의 에지 성분에 대한 빈이 생성되기 때문이다.
16개의 서브 영역으로 분할된 I 프레임 중에서, 제1 서브 영역(310)의 첫번째 DCT 블록에 포함되는 에지의 종류에 대한 판단이 전술한 판별부에 의해 이루어지면, 로컬 에지 히스토그램 생성부(271)는 제1 서브 영역(310)에 대한 5개의 빈 중에서 판별 결과에 대응하는 빈의 값을 증가시킨다. 예를 들어, 제1 서브 영역(310)의 첫번째 DCT 블록이 수직 방향의 에지를 포함하는 것으로 판별된 경우, 로컬 히스토그램 생성부는 제1 서브 영역(310)에 대한 5개의 빈 중에서 수직 방향의 에지 정보를 나타내는 빈의 값을 1 증가시킨다. 그 다음, 제1 서브 영역(310)의 두번째 DCT 블록이 수평 방향의 에지를 포함하는 것으로 판별된 경우, 로컬 에지 히스토그램 생성부(271)는 제1 서브 영역(310)에 대한 5개의 빈 중에서 수평 방향의 에지 정보를 나타내는 빈의 값을 1 증가시킨다.
이와 같은 방법으로 제1 서브 영역(310)에 대한 에지 히스토그램이 완성되면, 로컬 에지 히스토그램 생성부(271)는 동일한 방법으로 제2 서브 영역(320)의 각 DCT 블록이 포함하는 에지 성분을 판별한 결과에 따라 제2 서브 영역(320)에 대한 에지 히스토그램을 완성한다. 그리고 로컬 에지 히스토그램 생성부(271)는 상기 과정을 해당 I 프레임의 각 서브 영역에 대하여 차례대로 수행한다. 그 결과, 해당 I 프레임에 대한 로컬 에지 히스토그램을 완성한다.
세미 글로벌 에지 히스토그램 생성부(272)는, 로컬 에지 히스토그램을 기반으로 하여, 해당 I 프레임에 대한 세미 글로벌 에지 히스토그램을 생성한다. 여기서, 세미 글로벌 에지 히스토그램은, 해당 I 프레임의 에지 분포 정보를 각 세미 글로벌 영역별로 나타낸 것을 의미한다. 세미 글로벌 영역은, 16개의 서브 영역 중 적어도 둘 이상의 서브 영역을 그룹핑함으로써 형성될 수 있다. 예를 들면, 도 6와 같이, 4×4로 분할된 16개의 서브 영역을 열 방향 및 행 방향으로 각각 그룹핑하고, 전체 영역을 다시 2×2 형태로 그룹핑하여 총 13개의 세미 글로벌 영역을 형성할 수 있다. 이 경우, 세미 글로벌 에지 히스토그램은 총 65개의 빈을 포함한다. 왜냐하면, 각 세미 글로벌 영역마다 수직, 수평, 45도, 135도 및 비방향성 에 지 성분에 대응하는 빈이 생성되기 때문이다.
세미 글로벌 에지 히스토그램은, 로컬 에지 히스토그램에서 동일한 세미 글로벌 영역에 포함되는 서브 영역들의 빈들 중 동일한 에지 성분을 나타내는 빈들의 값을 모두 더하여 얻을 수 있다. 예를 들면, 제1 세미 글로벌 영역에 대한 5개의 빈 중에서 수직 방향을 나타내는 빈에는, 로컬 에지 히스토그램의 제1, 제5, 제9 및 제13 서브 영역 각각에 대한 5개의 빈 중에서 수직 방향을 나타내는 빈들의 합이 기록된다. 같은 방식으로, 제1 세미 글로벌 영역에 대한 5개의 빈 중에서 수평 방향을 나타내는 빈에는, 로컬 에지 히스토그램의 제1, 제5, 제9 및 제13 서브 영역 각각에 대한 5개의 빈 중에서 수평 방향을 나타내는 빈들의 합이 기록된다.
한편, 글로벌 에지 히스토그램 생성부(273)는 해당 I 프레임의 전체 영역에 대한 에지 분포 정보를 나타낸 글로벌 에지 히스토그램을 생성한다. 글로벌 에지 히스토그램은 수직, 수평, 45도, 135도 및 비방향성 에지 성분에 각각 대응하는 5개의 빈을 포함한다. 이러한 글로벌 에지 히스토그램은, 로컬 에지 히스토그램을 기반으로 하여 생성될 수 있다. 좀 더 구체적으로, 글로벌 에지 히스토그램 중에서 수직 방향의 에지 성분을 나타내는 빈에는, 로컬 에지 히스토그램 중에서 수직 방향의 에지 성분을 나타내는 빈들의 합이 기록된다. 마찬가지로, 글로벌 에지 히스토그램 중에서 수평 방향의 에지 성분을 나타내는 빈에는, 로컬 에지 히스토그램 중에서 수평 방향의 에지 성분을 나타내는 빈들의 합이 기록된다.
전술한 에지 히스토그램 생성 과정 중 로컬 에지 히스토그램 생성 과정은 질의 비디오 및 기저장된 비디오의 모든 I 프레임을 대상으로 반복적으로 수행된다. 기저장된 비디오의 모든 I 프레임에 대한 에지 정보는 사전에 즉, 질의 비디오가 입력되기 이전에 생성되는 것이 바람직하며, 각 I 프레임에 대한 에지 히스토그램 빈은 전술한 저장부(210)에 저장될 수 있다.
다시 도 2를 참조하면, 키 프레임 선택부(280)는 에지 히스토그램 생성부(270)에 의해 생성된 로컬 에지 히스토그램을 기반으로하여 키 프레임을 선택하는 역할을 한다. 이를 위하여 키 프레임 선택부(280)는 우선, 키 프레임 선택부(280)는 현재 I 프레임과 이전 I 프레임 간의 에지 변화량을 산출한다. 그리고, 산출된 결과가 소정 임계값 이상인 경우, 키 프레임 선택부(280)는 두 I 프레임 간의 에지 변화가 큰 것으로 판단하여, 현재 I 프레임을 키 프레임으로 지정한다. 여기서, 현재 I 프레임과 이전 I 프레임 간의 에지 변화량(Edge Histogram Bin Difference; 이하 EHBD)은, 현재 I 프레임의 로컬 에지 히스토그램과 이전 I 프레임의 로컬 에지 히스토그램에서 동일한 위치의 에지 히스토그램 빈의 차이값을 모두 더함으로써 얻어진다.
비디오 검색부(290)는 질의 비디오에서 추출된 키 프레임(이하, 제1 키 프레임)과 기저장된 비디오에서 추출된 키 프레임(이하, 제2 키 프레임) 간의 유사도를 측정하여 질의 비디오와 매칭되는 비디오를 검색한다. 여기서, 유사도를 측정하는 기준으로서, 제1 키 프레임 및 제2 키 프레임 간의 하우스도르프 거리(Hausdorff distance)를 사용할 수 있다. 즉, 제1 키 프레임 및 제2 키 프레임 간의 하우스도르프 거리를 산출한 결과, 가장 작은 값을 갖는 비디오를 질의 비디오와 매칭되는 비디오로 지정할 수 있다.
하우스도르프 거리는, 제1 키 프레임에 대한 에지 히스토그램과 제2 키 프레임에 대한 각 에지 히스토그램에서 각각 동일한 위치의 빈에 대한 차분값을 모두 합하여 얻을 수 있다. 이 때, 빈의 차분값은 각 프레임에서 동일한 종류의 에지 히스토그램 별로 산출되는 것이 바람직하다. 좀 더 구체적으로, 비디오 검색부(290)는 우선, 제1 키 프레임의 로컬 에지 히스토그램 및 제2 키 프레임의 로컬 에지 히스토그램에서 각각 동일한 위치의 빈에 대한 차분값을 구하고, 80개의 각 차분값들을 모두 더한다(이하, '제1 결과값'이라 한다). 그 다음, 비디오 검색부(290)는 제1 키 프레임의 글로벌 에지 히스토그램 및 제2 키 프레임의 글로벌 에지 히스토그램에서 동일한 위치의 빈의 차분값을 구하고, 5개의 각 차분값들을 모두 더한다(이하, '제2 결과값'이라 한다). 그 다음, 비디오 검색부(290)는 제1 키 프레임의 세미 글로벌 에지 히스토그램 및 제2 키 프레임의 세미 글로벌 에지 히스토그램에서 각각 동일한 위치의 빈의 차분값을 구하고, 65개의 각 차분값들을 모두 더한다(이하, '제3 결과값'이라 한다). 이 후, 비디오 검색부(290)는 제1 결과값, 제2 결과값 및 제3 결과값을 모두 더하여 하우스도르프 거리를 산출한다. 한편, 글로벌 히스토그램은 로컬 히스토그램 및 세미 글로벌 히스토그램에 비해 적은 수의 빈을 포함하므로, 각 결과값들을 합산할 때에는 제2 결과값에 소정 가중치가 적용될 수 있다.
비디오 검색부(290)는 복수의 제2 키 프레임들을 대상으로 전술한 과정을 반복하여, 가장 낮은 값의 하우스도르프 거리를 갖는 제2 키 프레임을 포함하는 비디오를 검색 결과로 지정한다.
디스플레이부(295)는 명령 처리 결과를 가시적인 형태로 디스플레이하는 역할을 한다. 예를 들면, 디스플레이부(295)는 비디오 검색부(290)에 의해 최종적으로 검색된 비디오를 디스플레이하는 역할을 한다.
다음으로, 도 7 내지 도 9를 참조하여 본 발명의 일 실시예에 따른 비디오 검색 방법에 대해 설명하기로 한다.
도 7은 본 발명의 일 실시예에 따른 비디오 검색 방법을 도시한 흐름도이다.
먼저, 입력부(220)를 통해 질의 비디오가 입력되면(S710), 프레임 검출부(230)는 질의 비디오에 포함되는 프레임들 중에서 I 프레임을 검출한다(S720). 검출된 I 프레임은 엔트로피 디코더(240)에 의해 엔트로피 디코딩된 후, 역양자화부(250)에 의해 역양자화된다. 역양자화 과정이 완료되면, I 프레임은 도 3에 도시된 바와 같이, 복수의 DCT 블록으로 이루어진 복수의 서브 영역 예를 들면, 16개의 서브 영역으로 분할될 수 있다.
I 프레임에 대한 역양자화 과정이 완료되면, 비디오 검색 장치(200)는 복수의 DCT 블록이 포함하는 에지의 종류에 따른 에지 히스토그램을 검출된 I 프레임별로 생성한다(S730). 여기서, I 프레임별 에지 히스토그램을 생성하는 단계에 대한 보다 구체적인 설명을 위해 도 8을 참조하기로 한다.
도 8은 도 7의 에지 히스토그램을 생성하는 단계 S730을 보다 상세히 도시한 흐름도이다.
먼저, 판단부(260)는 각 서브 영역의 각 DCT 블록에 대하여 에지 영역 여부를 차례대로 판단하여 해당 I 프레임에 대한 로컬 에지 히스토그램을 생성한다. 우선, 판단부(260)는 제1 서브 영역(310)의 첫번째 DCT 블록(이하, '제1 DCT 블록'이라 한다)(311)이 에지 영역인지를 판단한다(S733 이 때, 판단부(260)는 제1 DCT 블록(311)의 분산값이 임계값 이하인지의 여부에 따라 해당 DCT 블록이 에지 영역인지의 여부를 판단한다.
판단 결과, 제1 DCT 블록(311)의 분산값이 소정 임계값 이하인 경우(S733, 예), 판단부(260)는 제1 DCT 블록(311)을 평활영역 즉, 에지를 포함하지 않는 영역으로 판단한다. 그리고, 판단부(260)는 계속해서 제1 서브 영역(310)의 제2 DCT 블록(312)을 대상으로 에지 영역 여부를 판단한다(S734, S732, S733).
판단 결과, 제1 DCT 블록(311)의 분산값이 소정 임계값 보다 큰 경우(S733, 아니오), 판단부(260)는 제1 DCT 블록(311)을 에지 영역 즉, 에지를 포함하는 영역으로 판단한다.
제1 DCT 블록(311)이 에지 영역으로 판단되면, 판단부(260)는 제1 DCT 블록(311)에 포함되어 있는 에지의 종류를 판단한다(S735). 이 때, 판단부(260)는 제1 DCT 블록(311)의 DCT 계수 중에서 두 개의 AC 계수 특히, AC0,1 및 AC1,0 의 비에 따라, 제1 DCT 블록(311)이 포함하는 에지의 종류를 판단한다. 예를 들어, 두 AC 계수의 비가 1에 가깝고, 두 AC 계수의 부호가 같은 경우에는 제1 DCT 블록(311)이 45 방향 에지를 포함하는 것으로 판단한다. 그리고, 두 AC 계수의 비가 1에 가깝고, 두 AC 계수의 부호가 서로 다른 경우에는 제1 DCT 블록(311)이 135도 방향 에지를 포함하는 것으로 판단한다. 이에 비해 두 AC 계수의 비가 무한대에 가까우 면, 제1 DCT 블록(311)이 수직 방향 에지 또는 수평 방향 에지를 포함하는 것으로 판단한다. 즉, R1 값이 무한대에 가까운 경우에는 제1 DCT 블록(311)이 수평 방향의 에지를 갖는 것으로 판단하고, R2 값이 무한대에 가까운 경우에는 제1 DCT 블록(311)이 수직 방향의 에지를 갖는 것으로 판단한다.
이와 같이, 제1 DCT 블록(311)이 포함하는 에지의 종류에 대한 판별이 이루어지면(S735), 에지 히스토그램 생성부(270)는 해당 I 프레임에 대한 로컬 에지 히스토그램에서 제1 서브 영역(310)에 포함되는 5개의 빈들 중, 해당 에지에 대응하는 빈의 값을 1 증가시킨다(S736). 예를 들어, 제1 DCT 블록(311)이 수직 방향의 에지를 포함하는 것으로 판별된 경우, 에지 히스토그램 생성부(270)는 제1 서브 영역(310)에 포함되는 5개의 빈들 중에서, 수직 방향 에지에 대응하는 빈의 값을 1 증가시킨다. 만약, 제1 DCT 블록(311)이 수평 방향의 에지를 포함하는 것으로 판별된 경우, 에지 히스토그램 생성부(270)는 제1 서브 영역(310)에 포함되는 5개의 빈들 중에서, 수평 방향 에지에 대응하는 빈의 값을 1 증가시킨다.
전술한 과정이 제1 서브 영역(310)을 이루는 모든 DCT 블록을 대상으로 수행된 경우(S737, 예), 판단부(260) 및 에지 히스토그램 생성부(270)는 제2 서브 영역(320)을 대상으로 전술한 과정(S731 내지 S737)을 반복하여, I 프레임에 대한 로컬 에지 히스토그램을 완성한다.
또한, 한 I 프레임에 대한 로컬 에지 히스토그램이 완성되면, 판단부(260) 및 에지 히스토그램 생성부(270)는 질의 비디오에서 검출된 모든 I 프레임을 대상으로 전술한 과정(S731 내지 S737)을 반복하여, 각 I 프레임별로 로컬 에지 히스토 그램을 완성한다.
한편, 각 I 프레임에 대한 로컬 에지 히스토그램이 완성되면, 키 프레임 선택부(280)는, 각 I 프레임의 로컬 에지 히스토그램을 근거로 하여, 키 프레임을 검색한다(S740). 이 때, 키 프레임 선택부(280)는 이전 I 프레임의 로컬 에지 히스토그램과의 에지 변화량이 소정 임계값 이상인 I 프레임을 키 프레임으로 선택한다.
질의 비디오로부터 키 프레임이 선택되면, 에지 히스토그램 생성부(270)는 각 키 프레임의 로컬 에지 히스토그램을 기반으로 하여, 글로벌 에지 히스토그램 및 세미 글로벌 에지 히스토그램을 각각 생성한다.
이 후, 비디오 검색부(290)는 선택된 키 프레임(이하, '제1 키 프레임'이라 한다)과 기저장되어 있는 비디오의 키 프레임(이하, '제2 키 프레임'이라 한다)과의 유사도 측정을 통해 질의 비디오에 매칭되는 비디오를 검색한다(S750). 여기서, 비디오 검색 단계에 대한 보다 구체적인 설명을 위해 도 9를 참조하기로 한다.
도 9는 도 8에 도시된 비디오 검색 단계 S750을 보다 상세히 도시한 흐름도이다.
비디오 검색부(290)는 제1 키 프레임과 제2 키 프레임 간의 유사도 측정을 위해 제1 키 프레임과 제2 키 프레임 간의 하우스도르프 거리를 산출한다. 이를 위해 비디오 검색부(290)는 우선, 제1 키 프레임의 로컬 에지 히스토그램 및 제2 키 프레임의 로컬 에지 히스토그램에서 각각 동일한 위치의 빈에 대한 차분값을 구한다. 그리고, 80개의 각 차분값들을 모두 더하여 제1 결과값을 산출한다(S751).
그 다음, 비디오 검색부(290)는 제1 키 프레임의 글로벌 에지 히스토그램 및 제2 키 프레임의 글로벌 에지 히스토그램에서 동일한 위치의 빈의 차분값을 구한다. 그리고, 5개의 각 차분값들을 모두 더하여 제2 결과값을 산출한다(S752).
그 다음, 비디오 검색부(290)는 제1 키 프레임의 세미 글로벌 에지 히스토그램 및 제2 키 프레임의 세미 글로벌 에지 히스토그램에서 각각 동일한 위치의 빈의 차분값을 구한다. 그리고, 65개의 각 차분값들을 모두 더하여 제3 결과값을 산출한다(S753).
이 후, 비디오 검색부(290)는 제1 결과값, 제2 결과값 및 제3 결과값을 모두 더하여 제1 키 프레임 및 제2 키 프레임 간의 하우스도르프 거리를 산출한다. 여기서, 비디오 검색부(290)는 각 결과값들을 합산할 때 제2 결과값에 소정 가중치를 적용할 수 있다. 왜냐하면, 글로벌 히스토그램은 로컬 히스토그램 및 세미 글로벌 히스토그램에 비해 적은 수의 빈을 포함하기 때문이다.
비디오 검색부(290)는 전술한 방법에 따라, 기저장되어 있는 비디오의 모든 제2 키 프레임을 대상으로 하우스도르프 거리를 산출한다. 그 결과, 산출된 값이 가장 작은 비디오를 질의 비디오와 매칭되는 비디오로 선택한다(S754).
전술한 유사도 측정을 통해 질의 비디오와 매칭되는 비디오가 검색되면, 비디오 검색 장치(200)는 디스플레이부(295)를 통해 검색된 비디오를 디스플레이한다(S760).
본 발명의 실시예에 따른 비디오 검색 방법에 의하면, 종래 기술 대비 전체적인 연산량을 감소시키는 효과가 있다. 좀 더 구체적인 설명을 위해 (표 1) 및 (표 2)를 참조하기로 한다. 여기서, (표 1)은 본 발명의 실시예에 따른 비디오 검색 방법과, 종래 비디오 검색 기술인 EMI 및 GofGop 의 검색 성능 측정 결과를 비교하여 나타낸 것이다. 그리고, (표 2)는 본 발명의 실시예에 따른 비디오 검색 방법, 종래 비디오 검색 기술인 EMI 및 GofGop에 따라 비디오를 검색하는 경우에 있어 연산량을 비교하여 나타낸 것이다.
       Query 제안한 EHB EMI GOFGOP
NMRR 0.6301 0.6895 0.6635
축구 0.6354 0.4554 0.4635
뉴스 0.5351 0.5415 0.6558
토크쇼 0.5052 0.6615 0.5969
스펀지 0.5286 0.5514 0.6308
주주클럽 0.6357 0.7364 0.6512
ANMRR 0.5783 0.6059 0.6103
  sample EHB EMI GOFGOP 효율 평균효율
key frame 추출 실험 news.mpg 2,031 30,135 X 93.3% 93.2%
boat.mpg 744 11,697 93,7%
amplaza.mpg 1,623 22,020 92.6%
db 추출 실험 news.mpg 7,140 110,889 175,204 93.6% 93.7%
boat.mpg 2,775 43,593 69,312 93.6%
amplaza.mpg 5,901 96,198 151,030 93.9%
db 매칭 실험 news.mpg 7,158 311,463 181,862 97.7% 97.1%
boat.mpg 2,787 142,323 73,402 98.0%
amplaza.mpg 5,961 212,088 157,223 97.2%
검색 성능에 대한 지표로는 예를 들어, NMRR(Normalized Modified Retrieval Rank) 및 ANMRR(Average Normalized Modified Retrieval Rank)을 사용할 수 있다. 여기서, NMRR은 MPEG-7에서 검색 효율을 평가하기 위한 평가 기준으로서, 항상 0에서 1 사이의 값을 가지며, 낮은 값일수록 검색 결과가 좋음을 의미한다. 그리고, ANMRR은 NMRR의 평균을 나타낸다.
(표1)을 참조하면, 본 발명의 실시예에 따른 비디오 검색 방법은, 종래의 EMI 및 GofGop 기술과 검색 성능이 유사함을 알 수 있다. 또한, (표2)를 참조하면, 본 발명의 실시예에 따라 비디오를 검색하는 경우, 종래 비디오 검색 기술인 EMI 및 GofGop에 비하여 연산량이 90% 이상 감소됨을 알 수 있다.
이상과 같이 예시된 도면을 참조로 하여, 본 발명에 따른 비디오 검색 장치 및 방법에 대하여 설명하였으나, 본 발명은 본 명세서에 개시된 실시예와 도면에 의해 한정되지 않으며, 그 발명의 기술사상 범위 내에서 당업자에 의해 다양한 변형이 이루어질 수 있음은 물론이다.
상기한 바와 같이 본 발명에 의한 비디오 검색 장치 및 방법에 따르면, 비디오 검색에 소요되는 연산량이 감소되므로, 비디오를 고속으로 검색할 수 있다는 효과가 있다.

Claims (20)

  1. 소정 비디오로부터 추출된 샘플 비디오를 입력받는 입력부;
    상기 샘플 비디오에 포함되며, 복수의 DCT 블록으로 이루어지는 복수의 서브 영역을 포함하는 프레임별로 상기 DCT 블록이 포함하는 에지의 종류에 따른 에지 히스토그램을 생성하는 에지 히스토그램 생성부;
    상기 에지 히스토그램을 근거로 하여 상기 샘플 비디오에서 키 프레임을 선택하는 키 프레임 선택부; 및
    상기 선택된 키 프레임과 기저장된 비디오에서 선택된 키 프레임과의 유사도 측정을 통해 상기 샘플 비디오에 매칭되는 비디오를 검색하는 비디오 검색부를 포함하는 비디오 검색 장치.
  2. 제 1 항에 있어서,
    상기 샘플 비디오에 포함되어 있는 프레임들 중에서 I 프레임을 검출하는 프레임 검출부를 더 포함하는 비디오 검색 장치.
  3. 제 1 항에 있어서,
    상기 DCT 블록의 분산값이 제1 임계값 보다 큰 경우, 상기 DCT 블록을 에지 영역으로 판단하는 판단부를 더 포함하는 비디오 검색 장치.
  4. 제 1 항에 있어서,
    상기 DCT 블록은, 상기 DCT 블록을 이루는 픽셀들의 조합으로 표현되는 DCT 계수를 포함하며, 상기 분산값은 상기 DCT 계수 중 복수의 AC 계수들을 근거로 하여 산출되는 비디오 검색 장치.
  5. 제 4 항에 있어서,
    상기 판단부는, 상기 복수의 AC 계수들 중에서 상기 DCT 블록이 포함하는 에지의 수평 성분을 나타내는 제1 AC 계수 및 상기 DCT 블록이 포함하는 에지의 수직 성분을 나타내는 제2 AC 계수의 비에 근거하여, 상기 DCT 블록이 포함하는 에지의 종류를 판별하는 비디오 검색 장치.
  6. 제 5 항에 있어서,
    상기 판단부는, 상기 제1 AC 계수와 상기 제2 AC 계수의 크기 및 부호에 의해 상기 DCT 블록이 포함하는 에지의 종류를 판별하는 비디오 검색 장치.
  7. 제 1 항에 있어서,
    상기 에지 히스토그램 생성부는,
    상기 각 서브 영역별 에지 분포 정보를 갖는 로컬 에지 히스토그램을 생성하는 로컬 에지 히스토그램 생성부;
    상기 프레임에 대한 에지 분포 정보를 갖는 글로벌 에지 히스토그램을 생성 하는 글로벌 에지 히스토그램 생성부; 및
    상기 복수의 서브 영역이 소정 단위로 그룹핑된 세미 글로벌 영역별 에지 분포 정보를 갖는 세미 글로벌 히스토그램 생성부를 포함하는 비디오 검색 장치.
  8. 제 7 항에 있어서,
    상기 키 프레임의 로컬 히스토그램과 이전 프레임의 로컬 히스토그램 간의 차이는 제2 임계값 이상인 비디오 검색 장치.
  9. 제 7 항에 있어서,
    상기 비디오 검색부는, 소정 거리 함수에 따라 상기 유사도를 측정하는데,
    상기 거리 함수는 상기 선택된 키 프레임의 로컬 에지 히스토그램, 글로벌 에지 히스토그램 및 세미 글로벌 에지 히스토그램과 상기 기저장된 비디오에서 선택된 키 프레임의 로컬 에지 히스토그램, 글로벌 에지 히스토그램 및 세미 글로벌 에지 히스토그램 간의 차이의 합인 비디오 검색 장치.
  10. 제 9 항에 있어서,
    상기 거리 함수는, 상기 선택된 키 프레임 및 상기 기저장된 비디오에서 선택된 키 프레임의 각 에지 히스토그램이 포함하는 빈의 개수에 따라 가중치가 적용되는 비디오 검색 장치.
  11. 소정 비디오로부터 추출된 샘플 비디오를 입력받는 단계;
    상기 샘플 비디오에 포함되며, 복수의 DCT 블록으로 이루어지는 복수의 서브 영역을 포함하는 프레임별로 상기 DCT 블록이 포함하는 에지의 종류에 따른 에지 히스토그램을 생성하는 단계;
    상기 에지 히스토그램을 근거로 하여 상기 샘플 비디오에서 키 프레임을 선택하는 단계; 및
    상기 선택된 키 프레임과 기저장된 비디오에서 선택된 키 프레임과의 유사도 측정을 통해 상기 샘플 비디오에 매칭되는 비디오를 검색하는 단계를 포함하는 비디오 검색 방법.
  12. 제 11 항에 있어서,
    상기 입력받는 단계는, 상기 샘플 비디오에 포함되어 있는 프레임들 중에서 I 프레임을 추출하는 단계를 포함하는 비디오 검색 방법.
  13. 제 11 항에 있어서,
    상기 에지 히스토그램을 생성하는 단계는, 상기 DCT 블록의 분산값이 제1 임계값 보다 큰 경우, 상기 DCT 블록을 에지 영역으로 판단하는 단계를 포함하는 비디오 검색 방법.
  14. 제 11 항에 있어서,
    상기 DCT 블록은, 상기 DCT 블록을 이루는 픽셀들의 조합으로 표현되는 DCT 계수를 포함하며, 상기 분산값은 상기 DCT 계수 중 복수의 AC 계수들을 근거로 하여 산출되는 비디오 검색 방법.
  15. 제 14 항에 있어서,
    상기 에지 히스토그램을 생성하는 단계는, 상기 복수의 AC 계수들 중에서 상기 DCT 블록이 포함하는 에지의 수평 성분을 나타내는 제1 AC 계수 및 상기 DCT 블록이 포함하는 에지의 수직 성분을 나타내는 제2 AC 계수의 비에 근거하여, 상기 DCT 블록이 포함하는 에지의 종류를 판별하는 단계를 포함하는 비디오 검색 방법.
  16. 제 15 항에 있어서,
    상기 에지의 종류를 판별하는 단계는, 상기 제1 AC 계수 및 상기 제2 AC 계수의 크기 및 부호에 의해 상기 DCT 블록이 포함하는 에지의 종류를 판별하는 비디오 검색 방법.
  17. 제 11 항에 있어서,
    상기 에지 히스토그램을 생성하는 단계는,
    상기 각 서브 영역별 에지 분포 정보를 갖는 로컬 에지 히스토그램을 생성하는 단계;
    상기 프레임에 대한 에지 분포 정보를 갖는 글로벌 에지 히스토그램을 생성 하는 단계; 및
    상기 복수의 서브 영역이 소정 단위로 그룹핑된 세미 글로벌 영역별 에지 분포 정보를 갖는 세미 글로벌 히스토그램을 생성하는 단계를 포함하는 비디오 검색 방법.
  18. 제 17 항에 있어서,
    상기 키 프레임의 로컬 히스토그램과 이전 프레임의 로컬 히스토그램 간의 차이는 제2 임계값 이상인 비디오 검색 방법.
  19. 제 17 항에 있어서,
    상기 비디오를 검색하는 단계는, 소정 거리 함수에 따라 상기 유사도를 측정하는 단계를 포함하는데,
    상기 거리 함수는 상기 선택된 키 프레임의 로컬 에지 히스토그램, 글로벌 에지 히스토그램 및 세미 글로벌 에지 히스토그램과 상기 기저장된 비디오에서 선택된 키 프레임의 로컬 에지 히스토그램, 글로벌 에지 히스토그램 및 세미 글로벌 에지 히스토그램 간의 차이의 합인 비디오 검색 방법.
  20. 제 19 항에 있어서,
    상기 거리 함수는, 상기 선택된 키 프레임 및 상기 기저장된 비디오에서 선택된 키 프레임의 각 에지 히스토그램이 포함하는 빈의 개수에 따라 가중치가 적용 되는 비디오 검색 방법.
KR1020060044416A 2006-05-17 2006-05-17 비디오 검색 장치 및 방법 KR100827229B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060044416A KR100827229B1 (ko) 2006-05-17 2006-05-17 비디오 검색 장치 및 방법
US11/590,822 US20070268966A1 (en) 2006-05-17 2006-11-01 Apparatus and method for retrieving video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060044416A KR100827229B1 (ko) 2006-05-17 2006-05-17 비디오 검색 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070111264A true KR20070111264A (ko) 2007-11-21
KR100827229B1 KR100827229B1 (ko) 2008-05-07

Family

ID=38711944

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060044416A KR100827229B1 (ko) 2006-05-17 2006-05-17 비디오 검색 장치 및 방법

Country Status (2)

Country Link
US (1) US20070268966A1 (ko)
KR (1) KR100827229B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100986223B1 (ko) * 2008-08-07 2010-10-08 한국전자통신연구원 불법 동영상 데이터 검색 장치 및 방법
KR101029437B1 (ko) * 2009-04-01 2011-04-14 엔에이치엔(주) 동영상 중복 검출 방법 및 시스템
KR20180092470A (ko) * 2017-02-09 2018-08-20 주식회사 휴머스온 광고 이메일을 이용한 키워드 수집 서버 및 광고 이메일을 이용한 키워드 수집 방법
CN112565909A (zh) * 2020-11-30 2021-03-26 维沃移动通信有限公司 视频播放方法、装置、电子设备及可读存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711193B2 (en) 2006-11-07 2010-05-04 Aol Inc. Recognizing blank and nearly blank images
GB2443666A (en) * 2006-11-10 2008-05-14 Tandberg Television Asa Determining resolution of encoding for a previous image compression operation
KR100834095B1 (ko) * 2006-12-02 2008-06-10 한국전자통신연구원 디지털 미디어의 데이터 고유특성을 이용한 논블라인드워터마크 삽입/추출 장치 및 워터마크 삽입/추출 방법
US20100094971A1 (en) * 2008-10-15 2010-04-15 Patentvc Ltd. Termination of fragment delivery services from data centers participating in distributed streaming operations
US7818445B2 (en) * 2008-10-15 2010-10-19 Patentvc Ltd. Methods and devices for obtaining a broadcast-like streaming content
US8224157B2 (en) 2009-03-30 2012-07-17 Electronics And Telecommunications Research Institute Method and apparatus for extracting spatio-temporal feature and detecting video copy based on the same in broadcasting communication system
KR101033296B1 (ko) 2009-03-30 2011-05-09 한국전자통신연구원 방송통신시스템에서 시공간적 특징정보 추출 및 비교판별 장치 및 방법
US8837769B2 (en) * 2010-10-06 2014-09-16 Futurewei Technologies, Inc. Video signature based on image hashing and shot detection
CN102857778B (zh) * 2012-09-10 2015-01-21 海信集团有限公司 3d视频转换系统和方法及其选择关键帧的方法和装置
CN103258010A (zh) * 2013-04-17 2013-08-21 苏州麦杰智能科技有限公司 大规模图像视频检索方法
US10061987B2 (en) * 2016-11-11 2018-08-28 Google Llc Differential scoring: a high-precision scoring method for video matching
CN108377399B (zh) * 2018-03-07 2019-03-19 广州图普网络科技有限公司 实时视频流转码方法、装置及计算机可读存储介质
FR3103302B1 (fr) * 2019-11-14 2021-11-26 Thales Sa Segmentation d'images par flot optique

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635982A (en) * 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
KR100369370B1 (ko) * 1999-10-11 2003-01-24 한국전자통신연구원 블록기반 영상 히스토그램 생성 방법
US6766098B1 (en) * 1999-12-30 2004-07-20 Koninklijke Philip Electronics N.V. Method and apparatus for detecting fast motion scenes
KR100582595B1 (ko) * 2002-12-23 2006-05-23 한국전자통신연구원 이산여현변환에 기반하여 압축된 영상으로부터 블록에지를 검출 및 분류하는 방법
KR100959053B1 (ko) * 2003-01-13 2010-05-20 한국전자통신연구원 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법
KR20040110755A (ko) * 2003-06-20 2004-12-31 서종수 예측 모드 선택 방법과 그 장치, 그 방법을 이용한 동영상압축 방법과 그 장치를 포함한 동영상 부호화기 및 상기방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 기록매체
KR100601957B1 (ko) * 2004-07-07 2006-07-14 삼성전자주식회사 얼굴 인식을 위한 영상간 대응 결정 방법 및 장치, 이를이루기위한 영상 보정 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100986223B1 (ko) * 2008-08-07 2010-10-08 한국전자통신연구원 불법 동영상 데이터 검색 장치 및 방법
KR101029437B1 (ko) * 2009-04-01 2011-04-14 엔에이치엔(주) 동영상 중복 검출 방법 및 시스템
KR20180092470A (ko) * 2017-02-09 2018-08-20 주식회사 휴머스온 광고 이메일을 이용한 키워드 수집 서버 및 광고 이메일을 이용한 키워드 수집 방법
CN112565909A (zh) * 2020-11-30 2021-03-26 维沃移动通信有限公司 视频播放方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
KR100827229B1 (ko) 2008-05-07
US20070268966A1 (en) 2007-11-22

Similar Documents

Publication Publication Date Title
KR100827229B1 (ko) 비디오 검색 장치 및 방법
Chen et al. Automatic detection of object-based forgery in advanced video
US6549643B1 (en) System and method for selecting key-frames of video data
US8363960B2 (en) Method and device for selection of key-frames for retrieving picture contents, and method and device for temporal segmentation of a sequence of successive video pictures or a shot
JP5117670B2 (ja) 画像及び画像群を表現する方法、画像又は画像群を比較する方法、画像又は画像群を検索する方法、各方法を実行する装置およびシステム、プログラム、及びコンピュータ読み取り可能な記憶媒体
US7003038B2 (en) Activity descriptor for video sequences
CN1909670B (zh) 图像表示和分析方法
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
US7142602B2 (en) Method for segmenting 3D objects from compressed videos
JP2014503095A (ja) 映像を比較する方法および装置
CN112395457B (zh) 一种应用于视频版权保护的视频待检索定位方法
JP2010507155A (ja) ビデオシーケンス内の漸進的遷移の検出
Vila et al. Tsallis entropy-based information measures for shot boundary detection and keyframe selection
KR100811835B1 (ko) 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상검색방법
Rathod et al. An algorithm for shot boundary detection and key frame extraction using histogram difference
JP2002513487A (ja) オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム
EP2325802A2 (en) Methods of representing and analysing images
Bezerra et al. Using string matching to detect video transitions
Bhaumik et al. Towards redundancy reduction in storyboard representation for static video summarization
Guru et al. Histogram based split and merge framework for shot boundary detection
US8571342B2 (en) Image processing and generation of focus information
Asatryan et al. Improved algorithm for video shot detection
Rajendran et al. A content-based video retrieval system: video retrieval with extensive features
Mojsilovic et al. Extraction of perceptually important colors and similarity measurement for image matching
Vadivel Content-Based Image and Video Retrieval Using the Properties of the HSV Color Space

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110330

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee