KR101634395B1 - 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품 - Google Patents

시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품 Download PDF

Info

Publication number
KR101634395B1
KR101634395B1 KR1020100006860A KR20100006860A KR101634395B1 KR 101634395 B1 KR101634395 B1 KR 101634395B1 KR 1020100006860 A KR1020100006860 A KR 1020100006860A KR 20100006860 A KR20100006860 A KR 20100006860A KR 101634395 B1 KR101634395 B1 KR 101634395B1
Authority
KR
South Korea
Prior art keywords
sequence
word
descriptor
images
elements
Prior art date
Application number
KR1020100006860A
Other languages
English (en)
Other versions
KR20100087268A (ko
Inventor
폴 브라스네트
스타브로스 파찰라키스
밀로슬라브 보베
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20100087268A publication Critical patent/KR20100087268A/ko
Application granted granted Critical
Publication of KR101634395B1 publication Critical patent/KR101634395B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Abstract

이미지의 제 1 시퀀스와 이미지의 제 2 시퀀스를 처리하여 제 1 시퀀스와 제 2 시퀀스를 비교하는 방법 및 장치가 개시되어 있다. (1) 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해, 생성함으로써, 또한, (2) 각 워드가 디스크립터 요소 비트의 고유한 조합을 포함하도록, 이미지의 디스크립터 요소로부터 복수의 워드를 형성함으로써, 제 1 시퀀스 내의 복수의 이미지 각각과 제 2 시퀀스 내의 복수의 이미지 각각을 처리한다. 제 2 시퀀스에 대한 워드 각각은, 제 1 시퀀스에 대한 워드 각각과 같은 조합의 디스크립터 요소 비트로부터 생성된다. 제 1 시퀀스 내의 복수의 이미지에 대해 생성된 워드를 제 2 시퀀스 내의 복수의 이미지에 대해 생성된 워드와 비교함으로써, 제 1 시퀀스와 제 2 시퀀스를 비교하는 처리를 수행한다.

Description

시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품{VIDEO IDENTIFICATION}
본 발명은, 카메라 캡쳐, 아날로그/디지털 변환, 재압축(recompression) 등의 통상적인 편집 동작에 대해 로버스트(robust)한, 고속이며 신뢰할 수 있는 비디오의 식별 방법, 장치 및 컴퓨터 프로그램 제품에 관한 것이다.
전문가 및 소비자에 의해 저장되고 있는 비디오의 수가 급격히 증가하고 있 다. 전문가에게는, 비디오 컨텐츠를 작성하고, 저장하고, 편집하는 비용적인 어려움 및 기술적인 어려움은 감소되었다. 소비자에게는, 셋톱 박스, 퍼스널 비디오 레코더, 비디오 카메라 및 컴퓨터 선택의 폭 증가 및 그 비용 감소는 비디오 컨텐츠의 증가로 이어졌다. 과거 몇 년 동안, 인터넷 상에서 이용할 수 있는 합법 및 불법 컨텐츠는 모두 폭발으로 증대되었다. 이러한 컨텐츠의 색인화, 서치 및 모니터링 능력은 점점 더 중요한 문제가 되었다. MPEG-7 표준 규격은 컨텐츠 기반의 서치 및 검색의 영역(area)에서의 초기 업무였다. MPEG-7 표준 규격의 원본에서 부족한 영역은 복제 유사 비디오의 검출(near-duplicate video detection)이다.
복제 유사 비디오의 검출은, 질의 비디오 시퀀스가 주어지면, 데이터베이스에서 모든 복제를 찾는 것(find all of the duplicates in a database)으로서 정의될 수 있다. 복제(복제 유사)의 개념 및 해석은 다양하다. 그러나, 본 발명에 있어서 복제란, 원본에 대한 일반적인 비디오 편집/처리 조작을 이용하여 작성된 시퀀스로서 간주된다. 예를 들어, 이러한 조작은, 그 중에서도 특히, 컬러 변경, 압축, 트랜스코딩(transcoding), 포맷 변경, 프레임 레이트 변경, 아날로그식 VCR 재캡쳐, 및 카메라 재캡쳐를 포함한다. 또한, 본 발명은 복제 부분이 질의 시퀀스의 일부만을 형성하는 경우가 있다는 문제점에도 대처한다.
이 영역에서의 종래의 업무로서, [2003년 오스트레일리아, 애들레이드에서 개최된 오스트레일리아 컴퓨터 사이언스 회의의 학회지, 237~245쪽에 실린, T. Hoad 및 J. Zobel 작 "Video similarity detection for digital rights management"]에서는, 비디오 시퀀스의 서명(signature)을 형성하기 위해 샷 컷(shot cut) 및 바운드리(boundary)가 사용되었다. 이는 비디오의 매우 컴팩트한 표현을 제공하지만, 짧은 시퀀스에 대해서는 매우 불충분하게 기능하고, 사용된 샷 검출 알고리즘에는 매우 민감하다[2003년 미국, 버클리에서 개최된, Multimedia information retrieval에 관한 제 5 차 ACM SIGMM 국제 워크숍의 학보, 262~269쪽에 실린, T. Hoad 및 J. Zobel의 논문].
비디오에서 복제 (유사)의 검출에 대한 전형적인 종래 기술의 특징점 접근 방법이 [2008년 4월, 96(4), IEEE의 학회지, 548~566쪽에 실린, J.Sivic, A. Zisserman 저 "Efficient Visual Search for Objects in videos"]에 개시되어 있으며, 1) 키 프레임을 검출하는 것, 2) 프레임에서 키 포인트를 검출하는 것, 3) 그 포인트 주변의 영역으로부터 특징을 추출하는 것, 4) 특징을 이용하여 시퀀스를 매칭하는 것, 5) 시퀀스에서의 물체의 공간적 결합성(spatial cohesion)에 관한 테스트를 적용하는 것으로서 개요를 서술하고 있다. 개요가 서술된 이러한 접근 방법에는 다수의 단점이 있다. 먼저, 키 프레임을 사용한다는 것은, 이러한 방법이 짧은 클립에 대해서는 양호하게 기능하지 않는다는 것을 의미한다. 3)의 특징 추출은 계산 비용이 고가인 방법으로, 그 결과 대량의 저장 용량을 필요로 한다. 4)의 단계에서, 데이터의 클러스터링(clustering)으로부터 습득되는 비주얼 어휘(visual vocabulary)가 사용된다. 이는, 일반화(generalise)하는데 실패한 특정 데이터 세트에 대한 오버피팅(over-fitting)으로 이어질 수 있다. [2007년, 네덜란드, 암스테르담에서 개최된, Image and video retrieval에 대한 제 6 차 ACM 국제 회의의 학회지, 549~556 쪽에 실린, Ondrej chum, James Philbin, Michael Isard 및 Andrew Zisserman 저 "Scalabe near identical image and shot detection"] 등의 관련 방법에서는, 사용되는 해시(hash) 테이블에 대한 메모리 조건이 높은 대신, 그 만큼, 고속 검색하는 것을 개시하고 있다. 이러한 방법은 일부 시나리오에서는 적합할 수 있으나, 메모리 리소스가 제한되는 것이 일반적인, 가정용 전자 제품의 환경에서는 적합하지 않다.
본 발명은 이러한 종래 방법의 적어도 하나 이상의 문제를 해결하는 것을 목적으로 한다.
본 발명의 특정 측면은 첨부한 청구범위에 개시되어 있다. 다른 측면은 아래의 실시예에 설명되어 있으며, 당업자가 이러한 설명을 보면 알 수 있을 것이다.
요약하면, 본 발명은 이미지의 제 1 시퀀스와 이미지의 제 2 시퀀스를 처리하여 제 1 시퀀스와 제 2 시퀀스를 비교하는 장치를 제공하며, 본 장치는, 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터(descriptor) 요소를, 이웃하는 픽셀 각각에 대해, 생성함으로써, 제 1 시퀀스 내의 복수의 이미지 각각과 제 2 시퀀스 내의 복수의 이미지 각각을 처리하도록 구성된 디스크립터 요소 생성 수단과, 각 워드가 디스크립터 요소 비트의 고유한 조합을 포함하도록, 각 이미지의 디스크립터 요소로부터 복수의 워드를 형성하도록 구성되어 있으며, 또한, 제 2 시퀀스에 대한 워드 각각을 제 1 시퀀스에 대한 워드 각각과 같은 조합의 디스크립터 요소 비트로부터 생성하도록 구성되어 있는 워드 생성 수단과, 제 1 시퀀스 내의 복수의 이미지에 대해 생성된 워드를 제 2 시퀀스 내의 복수의 이미지에 대해 생성된 워드와 비교함으로써, 제 1 시퀀스와 제 2 시퀀스를 비교하는 처리를 수행하도록 구성된 시퀀스 비교 수단을 포함한다.
시퀀스 비교 수단은, 제 1 시퀀스와 제 2 시퀀스 내에서, 상이한 워드 값의 발생 빈도를 비교 처리하는 것을 포함한, 제 1 시퀀스와 제 2 시퀀스를 비교하는 처리를 수행하도록 구성될 수 있다.
시퀀스 비교 수단은, 제 1 시퀀스에 대한 발생 데이터를 생성하기 위하여 제 1 시퀀스 내의 각 워드에 대한 각 가능한 워드 값의 발생 횟수를 구하는 것과, 제 2 시퀀스에 대한 발생 데이터를 생성하기 위하여 제 2 시퀀스 내의 각 워드에 대한 각 가능한 워드 값의 발생 횟수를 구하는 것과, 제 1 시퀀스에 대한 발생 데이터를 제 2 시퀀스에 대한 발생 데이터와 비교하는 것을 포함한, 제 1 시퀀스와 제 2 시퀀스를 비교하는 처리를 수행하도록 구성될 수 있다.
시퀀스 비교 수단은, 제 1 시퀀스에 대한 발생 데이터를 제 2 시퀀스에 대한 발생 데이터와 비교하도록, 또한, 개별적인 비교 결과를 합쳐서 전체 비교 결과를 생성하도록 구성될 수 있다.
본 장치는, 각 워드에 대해, 시퀀스 둘 다에서 발생하는 워드 값을 구하는 수단과, 각 워드에 대해, 시퀀스 둘 다에서의 워드 값의 발생 시간 순서를 구하는 수단과, 발생 시간 순서를 비교하는 수단을 더 포함할 수 있다.
본 장치는, 각각이, 제 1 시퀀스로부터의 이미지와 제 2 시퀀스로부터의 이미지를 포함하고 있는, 매칭 이미지 쌍을 식별하는 수단과, 적어도 하나의 식별된 매칭 이미지 쌍 간의 유사성을 구하는 수단을 더 포함할 수 있다.
또한, 본 발명은, 이미지를 정의하는 이미지 데이터를 처리하여 이미지를 나타내는 적어도 하나의 값을 생성하는 장치를 제공하며, 본 장치는 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해, 생성하도록 구성된 디스크립터 요소 생성 수단과, 각 워드가 하나 이상의 디스크립터 요소로부터 하나 이상의 비트를 포함하도록, 또한, 모든 워드 내의 총 비트 수가 모든 디스크립터 요소 내의 총 비트 수보다 적도록, 디스크립터 요소로부터 적어도 하나의 워드를 형성하도록 구성된 워드 생성 수단을 포함한다.
또한, 본 발명은, 이미지를 정의하는 이미지 데이터를 처리하여 이미지를 나타내는 복수의 값을 생성하는 장치를 제공하며, 본 장치는, 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해 생성하도록 구성된 디스크립터 요소 생성 수단과, 각 워드가 디스크립터 요소 비트의 고유한 조합을 포함하도록, 디스크립터 요소로부터 복수의 워드를 형성하도록 구성된 워드 생성 수단을 포함한다.
본 장치는, 각 디스크립터 요소를 양자화하는 양자화(quantising) 수단을 더 포함할 수 있으며, 워드 생성 수단은 양자화된 디스크립터 요소로부터 각 워드를 형성하도록 구성될 수 있다.
양자화기는 각 디스크립터 요소를 양자화하여 각각의 1비트의 2진 결과를 형성하도록 구성될 수 있다.
디스크립터 요소 생성 수단은 이미지에 대한 디스크립터 요소를 복수의 상이한 픽셀 해상도로 생성하도록 구성될 수 있으며, 워드 생성 수단은 상이한 픽셀 해상도로 생성된 디스크립터 요소로부터의 하나 이상의 비트를 조합함으로써 적어도 하나의 워드를 생성하도록 구성될 수 있다.
또한, 본 발명은 이미지를 정의하는 이미지 데이터를 처리하여 이미지를 나타내는 적어도 하나의 값을 생성하는 장치를 제공하며, 본 장치는, 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해, 생성하도록 구성된 디스크립터 요소 생성 수단과, 각 디스크립터 요소를 양자화하도록 구성된 양자화 수단과, 양자화된 디스크립터 요소로부터 이미지를 나타내는 적어도 하나의 값을 형성하도록 구성된 표현값(representative value) 형성 수단을 포함한다.
양자화기는 각 디스크립터 요소를 양자화하여 각각의 1비트의 2진 결과를 형성하도록 구성될 수 있다.
또한, 본 발명은, 이미지의 시퀀스를 정의하는 이미지 데이터를 처리하여 시퀀스의 표현을 생성 및 저장하는 장치를 제공하며, 본 장치는, 시퀀스 내의 각 이미지에 대해, 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해, 생성하도록 구성된 디스크립터 요소 생성 수단과, 시퀀스 내의 각 이미지에 대해, 각 워드가 하나 이상의 디스크립터 요소로부터의 하나 이상의 비트를 포함하도록, 또한, 이미지의 모든 워드 내의 총 비트 수가 이미지의 모든 디스크립터 요소 내의 총 비트 수보다 적도록, 이미지의 디스크립터 요소로부터 적어도 하나의 워드를 형성하도록 구성된 워드 생성 수단과, 이미지의 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 정의하는 히스토그램 데이터를 생성하도록 구성된 히스토그램 데이터 생성 수단과, 시퀀스 내의 이미지에 대한 히스토그램 데이터, 워드 및 디스크립터 요소를 시퀀스로 기록하여 저장하도록 구성된 데이터 기록 수단을 포함한다.
본 장치는 각 디스크립터 요소를 양자화하도록 구성된 디스크립터 요소 양자화 수단을 더 포함할 수 있으며, 워드 생성 수단은 양자화된 디스크립터 요소로부터 각 워드를 형성하도록 구성될 수 있다. 추가로, 본 장치는 히스토그램 데이터를 양자화하도록 구성된 히스토그램 데이터 양자화 수단을 더 포함할 수 있으며, 데이터 기록 수단은 양자화된 히스토그램 데이터, 워드, 및 양자화된 디스크립터 요소를 기록하여 저장하도록 구성될 수 있다.
본 장치는 비디오 시퀀스의 조각(fragment)을 포함하는 이미지 시퀀스를 처리하도록 동작 가능하다.
데이터 기록 수단은 히스토그램 데이터, 워드, 및 디스크립터 요소를 비트스트림에 저장하도록 구성될 수 있다.
또한, 본 발명은, 이미지의 시퀀스를 정의하는 이미지 데이터를 처리하여 시퀀스의 표현을 생성하여 저장하는 장치를 제공하며, 본 장치는, 시퀀스 내의 각 이미지에 대해, 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해, 생성하도록 구성된 디스크립터 요소 생성 수단과, 시퀀스 내의 각 이미지에 대해, 각 워드가 디스크립터 요소 비트의 고유한 조합을 포함하도록, 이미지의 디스크립터 요소로부터 복수의 워드를 생성하도록 구성된 워드 생성 수단과, 이미지의 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 정의하는 히스토그램 데이터를 생성하도록 구성된 히스토그램 데이터 생성 수단과, 시퀀스 내의 이미지에 대한 히스토그램 데이터, 워드 및 디스크립터 요소를 기록하여 저장하도록 구성된 데이터 기록 수단을 포함한다.
본 장치는 각 디스크립터 요소를 양자화하도록 구성된 디스크립터 요소 양자화 수단과, 양자화 디스크립터 요소로부터 각 워드를 형성하도록 구성된 워드 생성 수단을 더 포함할 수 있다. 또한, 본 장치는 히스토그램 데이터를 양자화하도록 구성된 히스토그램 양자화 수단과, 양자화된 히스토그램 데이터, 워드 및 양자화된 디스크립터 요소를 기록하여 저장하도록 구성된 데이터 기록 수단을 더 포함할 수 있다.
본 장치는 비디오 시퀀스의 조각을 포함하는 이미지의 시퀀스를 처리하도록 동작 가능하다.
데이터 기록 수단은 히스토그램 데이터, 워드 및 디스크립터 요소를 비트스트림에 저장하도록 구성될 수 있다.
또한, 본 발명은, 이미지의 시퀀스를 정의하는 이미지 데이터를 처리하여 시퀀스의 표현을 생성 및 저장하는 장치를 제공하며, 본 장치는, 시퀀스 내의 각 이미지에 대해, 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 각각이 하나 이상의 비트를 포함하는 적어도 하나의 개별적인 디스크립터 요소를, 이웃하는 픽셀 각각에 대해, 생성하도록 구성된 디스크립터 요소 생성 수단과, 각 디스크립터 요소를 양자화하도록 구성된 디스크립터 요소 양자화 수단과, 시퀀스 내의 각 이미지에 대해, 양자화된 디스크립터 요소로부터 이미지를 표현하는 적어도 하나의 값을 형성하도록 구성된 표현값 형성 수단과, 이미지의 시퀀스 내에 어떠한 이미지 표현 값이 나타나는지, 그리고 얼마나 자주 나타나는지를 정의하는 히스토그램 데이터를 생성하도록 구성된 히스토그램 데이터 생성 수단과, 히스토그램 데이터를 양자화하도록 구성된 히스토그램 데이터 양자화 수단과, 양자화된 히스토그램 데이터, 이미지를 표현하는 값, 및 양자화된 디스크립터 요소를 기록하여 저장하도록 구성된 데이터 기록 수단을 포함한다.
본 장치는 비디오 시퀀스의 조각을 포함하는 이미지의 시퀀스를 처리하도록 동작 가능하다.
데이터 기록 수단은, 히스토그램 데이터, 이미지를 표현하는 값, 및 디스크립터 요소를 비트스트림에 저장하도록 구성될 수 있다.
본 발명의 실시예는 비디오 식별을 위한 신규한 방법 및 장치를 제공하며, 이는, 비디오 시퀀스를 매우 콤팩트하게 표현하며, 트레이닝 데이터에 의존하지 않으며, 매우 고속의 서치 및 매칭을 제공하며, 통상의 편집/처리 동작에 대해 로버스트하며, 매칭 프레임 위치의 정확한 위치 특정(localisation)을 제공한다.
이하, 본 발명의 실시예를 하기의 첨부된 도면을 참조하면서 설명하며, 이는 단지 예시적인 것이다.
도 1은 일 실시예에서 디스크립터 요소(descriptor element)를 생성하는 처리를 도시한 도면,
도 2a 및 도 2b는 일 실시예에서 디스크립터 요소로부터 워드를 생성하는 처리를 도시한 도면,
도 3은 일 실시예에서의 2진화를 도시한 도면,
도 4는 일 실시예에서 시간 천이 및 프레임 레이트 변경의 결정을 도시한 도면,
도 5는 일 실시예에서 처리 동작을 수행하는 처리 장치의 예를 도시한 도면.
이하, 본 발명의 일 실시예에서 처리 장치에 의해 수행되는 방법을 설명한다. 이 방법은 복수의 처리 동작을 포함한다. 본 상세한 설명의 끝에서 설명되는 바와 같이, 이들 처리 동작은 하드웨어, 펌웨어, 컴퓨터 프로그램 명령어에 따라 동작하는 처리 유닛, 또는 이들의 조합을 이용하는 처리 장치에 의해 수행될 수 있다.
비디오 프레임 fi(c,x,y)의 시퀀스를 생각한다. 여기서, i는 프레임 인덱스이고, 예를 들어, i∈[0,T-1]이고, 여기서 T는 시퀀스 내의 프레임의 총 갯수이며, c는 l개의 컬러 채널에서의 인덱스이고, 예를 들어, l=3일 때
Figure 112015007820670-pat00001
)이다. x 및 y는 공간 좌표이고, 예를 들어,
Figure 112015007820670-pat00002
이고, 여기서 M 및 N은 각기 수평 및 수직 프레임 해상도이다.
본 발명의 바람직한 실시예에 있어서, 각 프레임을, 그 픽셀 강도 및 차이에 관해서 설명한다. 이 디스크립터(descriptor)는 본 출원인의 동시 계속 출원인 유럽 특허 출원 제1640913호와 제1640914호에 개시되어 있으며, 그 전체 내용은 본 명세서에 참조로서 포함된다. 본 발명의 바람직한 실시예에서는, m×m 픽셀 해상도의 공간적으로 재샘플링된 프레임을 생각하며, 여기서 m은 2의 거듭제곱이다. m은 작은 값, 예를 들어, m=16 또는 m=32인 것이 바람직하지만, 이것으로 한정되는 것은 아니다. 각 프레임은 중첩되지 않는 2×2 픽셀 이웃(neighbourhood)으로 분할되고, 각 이웃에서의 디스크립터 요소는 다음과 같이 계산된다.
Figure 112010005243492-pat00003
이것은 도 1에서 m=8이고 c=Y에 대해서 일반성을 손상시키지 않고 도시되어 있다. 수학식 (1)에 따른 디스크립터 요소는 평균 강도로서, 전체 프레임에 대해서 구한 것으로, 그 프레임을 (m/2)×(m/2) 픽셀 해상도로 재샘플링된 버전을 제공하며, 이것이 수학식 (1)~(4)에 따라서 재처리된다. 이 처리는 전체 프레임에 대한 평균 강도가 계산될 때까지 계속된다. 따라서, 프레임 fi에 대한 완성된 디스크립터는 다른 픽셀 해상도(즉, m×m, m/2×m/2, …, 4×4, 2×2)에서의 프레임에 대한 디스크립터 요소를 포함하고,
Figure 112015007820670-pat00004
로 주어진다. 본 발명의 바람직한 실시예에 있어서, 프레임은 그들의 휘도 채널 Y에 의해 표현되고, 디스크립터 di는 이 휘도 정보로부터 추출된다.
선택적으로, 디스크립터 요소는 소망하는 비트수로 양자화되고, 이 수는 다른 요소, 컬러 채널 등마다 달라질 수 있다. 본 발명의 바람직한 실시예에 있어서, 디스크립터 요소는 다음과 같이 2진화된다.
Figure 112010005243492-pat00005
여기서, r은 동적 범위로, 예를 들어, 8비트 픽셀 값에 대해 r=256이다.
Figure 112010005243492-pat00006
여기서,
Figure 112015007820670-pat00007
Figure 112015007820670-pat00008
은 각각 수학식 (1)에 따른 평균 및 수학식 (2)-(4)에 따른 차분을 의미한다. 수학식 (5) 및 (6)의 장점은, 요소의 정수 부분의 2진수 표현의 MSB(Most Significant Bit)를 유지하는 것과 등가가 되도록 수학식 (5) 및 (6)이 구현될 수 있다는 점이다.
대안의 실시예에 있어서, LSH(locality sensitive hashing)와 같은 다른 양자화/2진화 기법도 채용될 수 있다. 이 방법은 본 명세서에서 설명하지 않지만, Samet H저 "Foundations of Multidimensional and Metric Data Structures", Morgan Kaufmann, 2006에 개시되어 있다.
프레임에 대한 완전한 디스크립터가 이용되어서, 그것의 하나 이상의 디스크립터 요소의 하나 이상의 비트에 기초해서 적어도 하나의 컴팩트한 워드(word)를 형성한다. 이것은 도 2a에 도시된다. 본 명세서에서 사용되는 "워드"라는 용어는, 임의의 비트수를 가질 수 있는 워드를 가리키는 것으로, 일부 컴퓨터 관련 문헌에서와 같이 특정한 비트수로 구체적으로 한정되는 것은 아니라는 점에 유의해야 한다. 상세하게, 본 발명의 바람직한 실시예에 있어서, 2진화된
Figure 112015007820670-pat00009
에 포함되는 작은 순서 집합(ordered set)이 연결되어서 하나의 워드를 생성한다. 어떠한 요소가 선택될지에 대한 제약은 없으며, 워드는, 상이한 컬러 채널로부터, (예를 들어, 16×16 또는 4×4 해상도로 추출된) 상이한 레벨의 거칠기(coarseness)로부터의 요소를, 수학식 (1)에 따른 평균이나 또는 수학식 (2)~(4)에 따른 차분에서도, 혼합할 수 있다. 예를 들어, 본 발명의 바람직한 실시예에 있어서, 요소는 모든 이용 가능한 요소 중에서 임의로 선택될 수 있다. 본 발명의 다른 실시예에 있어서, 요소는 소정의 기하학적 패턴에 따라, 예를 들어 비디오 프레임의 임의의 공간 영역만을 커버하는 패턴에 따라 선택될 수 있다. 본 발명의 또 다른 실시예에 있어서, 요소는 그들의 엔트로피에 따라 순서가 부여될 수 있고, 최고 엔트로피 요소가 선택되어서 워드를 형성할 수 있다. 따라서, 워드를 형성하는 처리는. φ 차원 공간으로부터 ψ 차원 공간으로 사영(projection)하는 것으로, 여기서 φ<<ψ인 것이 바람직하다. 2개의 비디오 프레임에 관하여, 2개의 대응하는 워드 사이의 거리, 즉, 순서가 부여된, 선택된 대응하는 요소로 이루이지는 비트 패턴은 풀 프레임 디스크립터의 거리의 근사치이다.
워드를 구성하는, 순서가 부여된 요소의 모든 가능한 값의 모든 가능한 조합은, 그 워드에 대한 어휘(vocabulary)를 제공한다. 따라서, 워드는 디스크립터 요소의 고유한 조합이고, 어느 워드에 대한 어휘는 그 워드가 취할 수 있는 상이한 값의 집합이다. 예를 들어, 워드가 2개의 디스크립터 요소를 포함하고, 각 디스크립터 요소가 1비트 길이인데 각 비트가 0과 1의 값을 자유롭게 취할 수 있는 경우에, 워드에 대한 어휘는 00, 01, 10 및 11이다.
본 발명의 바람직한 실시예에 있어서, 각 프레임으로부터 복수의 워드가 추출되며, 도 2b에 도시된 바와 같이, 각 워드는 2진화된
Figure 112015007820670-pat00010
에 포함되는 요소의 작은 순서 집합으로부터 주어진다. 바람직하게는, 각 워드의 요소는 임의의 적절한 방법, 즉, 임의 사영(random projection), 기하학적 제약 조건(geometric constraints), 엔트로피 순서 부여(entropy ordering) 등에 따라 선택된다. 각 워드는 어휘를 갖고, 각 워드를 생성하는 비트의 조합은 고유한 것이지만, 부분적으로 중첩될 가능성, 예를 들어, 2 이상의 워드에서 몇개의 요소가 나타날 가능성을 배제하지 않는다. 또한, 각 워드는 임의의 다른 워드와 동일한 길이를 가질 수도 있고 갖지 않을 수 있다. 즉, φ으로부터 ψ1, ψ2 등으로 차원 축소가 있을 수 있다.
본 발명의 다른 실시예에 있어서, 워드는, 그의 원래 해상도 및 동적 범위로 양자화 또는 2진화되는, 디스크립터 di의 임의 버전으로부터 형성될 수 있다. 그러한 실시예에 있어서, 요소는 하나의 워드에 대한 1비트, 다른 워드에 대한 상이한 비트수보다 기여할 수 있고, 워드는 상이한 요소로부터 상이한 비트수를 포함할 수 있다.
비디오 시퀀스는 상술한 바와 같이, 그의 하나 이상의 프레임에 의해 디스크립트된다. 이어서, 하나 이상의 어휘의 각각에서의, 상이한 워드의 발생 빈도를 계산한다. 상세하게, 본 발명의 바람직한 실시예에 있어서, 시퀀스 내의 복수의 프레임이 처리되어, 각 프레임 fi으로부터 φ 차원 완전한 디스크립터 및 복수의 워드 Wik(k∈[0,Q-1])가 추출되며, 이는 각각이 Q개의 어휘 중 하나에 대응된다. 그리고, 각 어휘(k)에 대해, 프레임 시퀀스에서 보여지는 워드의 히스토그램 hk이 플로트된다. 간단히 말하면, 그러한 히스토그램은 프레임 시퀀스 내에서 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 보여준다. 상세하게, 각 워드에 대해, 한쪽 축 상에 워드가 취할 수 있는 각 값(즉, 워드의 어휘에서의 각 값)에 대한 각각의 빈(bin)을 갖고, 다른 축 상에 각 값의 발생 수를 기록하는 히스토그램이 생성된다.
프레임
Figure 112015007820670-pat00011
Figure 112015007820670-pat00012
의 2개의 시퀀스에 대해, 각 어휘 k에 대한 히스토그램
Figure 112015007820670-pat00013
Figure 112015007820670-pat00014
를 비교해서, 그 결과를 병합해서 결정에 도달함으로써, 그들의 유사성을 평가할 수 있다. 이 비교는 히스토그램 교차와 같은 적절한 거리 측정을 사용하여 달성될 수 있다. 본 발명의 바람직한 실시예에 있어서, 히스토그램이 2진화된다. 이렇게 2진화된 히스토그램은 많이 존재하는 워드를 나타낸다. 2진화는, 단순 임계화(simple thresholding), 적응 임계화(adaptive thresholding) 등과 같은 복수의 적절한 방식 중 임의의 방식에 의해, 달성된다. 2진화된 히스토그램
Figure 112015007820670-pat00015
Figure 112015007820670-pat00016
에 대해, 그들의 거리는 하기의 수학식 (7)에 의해 주어지는 자카드(Jaccard) 거리 측정에 의해 측정되는 것이 바람직하다.
Figure 112010005243492-pat00017
간단히 말하면, 수학식 (7)은 주어진 어휘 내의 프레임 시퀀스
Figure 112015007820670-pat00018
Figure 112015007820670-pat00019
의 거리를, 그들이 공통으로 갖는 각 워드의 기능 및 그들이 함께 포함하는 모든 각 워드로서, 측정한다.
Q개의 어휘에 대하여, Q개의 자카드 거리
Figure 112015007820670-pat00020
가 있다.
본 발명의 바람직한 실시예에 있어서, 이들 거리가 융합되어서, 아래의 수학식 (8)로서 합성 거리 DJ를 제공한다.
Figure 112010005243492-pat00021
프레임 시퀀스가 유사한지 여부에 대한 결정은 DJ의 처리(바람직하게는 임계화)에 의해 이루어질 수 있다. 이 경우에, DJ가 소정의 임계값 이하인 경우에는 시퀀스는 매칭한다고 선언되고, 그렇지 않으면 매칭되지 않았다고 선언된다.
분명히, 절사 평균(trimmed mean), 중앙값, 최대값 등의, 식 (8)에 대한 다수의 대안이 존재한다. 또한, 다른 실시예에서는, 거리 융합(distance fusion)이 아닌 결정 융합(decision fusion)에 의해, 즉 각각의
Figure 112015007820670-pat00022
를 적절한 임계값으로 개별적으로 임계화(thresholding)하고 나서, 예를 들어 다수결에 의해 개별적인 결정을 융합하는 것에 의해, 프레임 시퀀스의 유사성을 구할 수 있다. 본 발명의 다른 실시예에서는, 결정 융합과 거리 융합을 조합하여, 즉 복합의
Figure 112015007820670-pat00023
를 계산하고 나서 임계화함으로써 결정할 수도 있지만, 매칭 결정(matching decision)이 적어도 설정된 수의
Figure 112015007820670-pat00024
거리에 의해 서포트될 필요도 있다.
선택적으로는, 각각의 어휘에 있어서 비디오 시퀀스 내에 매칭 워드가 발생하는 시간적 순서를 고려하여, 검출된 매치를 검증한다. 바람직한 실시예에서, 각각의 어휘 k에 있어서, 비디오 시퀀스
Figure 112015007820670-pat00025
Figure 112015007820670-pat00026
모두에서 워드의 집합이 발생하는 것이 발견된다. 바람직하게, 이것들은, 양쪽의 히스토그램
Figure 112015007820670-pat00027
Figure 112015007820670-pat00028
에서 0이 아닌 요소, 즉 이진 히스토그램
Figure 112015007820670-pat00029
Figure 112015007820670-pat00030
의 공통 부분을 확인함으로써 발견된다. 각 히스토그램의 각 요소가 어휘로부터의 하나의 워드에 대응하는 점을 상기하면, 공통 부분은, z 개의 요소를 갖는, 양쪽의 프레임에 대해 공통인 워드의 집합
Figure 112015007820670-pat00086
을 생성하고, 이는 바람직하게는 어휘에 따라, 예를 들어 수치순으로 또는 알파벳순으로 순서가 부여된다. 그러면, 각각의 비디오 시퀀스에 있어서, 순서 집합
Figure 112015007820670-pat00087
에서의 각 워드의 최초의 발생을 기록한 프레임 번호의 집합
Figure 112015007820670-pat00032
이 생성된다.
프레임 번호의 2개의 집합
Figure 112015007820670-pat00034
Figure 112015007820670-pat00035
(각각
Figure 112015007820670-pat00036
Figure 112015007820670-pat00037
에 대응)이 비교되어서, 이들 사이의 거리가 구해진다. 바람직한 실시예에서,
Figure 112015007820670-pat00038
Figure 112015007820670-pat00039
은 2진화되고, 이들 사이의 거리는 정규화 해밍 거리에 의해 주어진다. 바람직한 실시예에서, 2진화는, 도 3에서 도시된 바와 같이, 집합에 포함되는 이웃하는 요소간의 차이를 평가함으로써 수행된다.
Figure 112010005243492-pat00040
2진화된 집합은
Figure 112015007820670-pat00041
로 표현되고, 정규화된 해밍 거리는
Figure 112015007820670-pat00042
로 표현된다. 간단히 말하면, 이러한 2진화된 집합은, 순서 집합
Figure 112015007820670-pat00088
내의 각 워드가 비디오 시퀀스에서 처음으로 나타나는 것이, 워드의 순서 집합
Figure 112015007820670-pat00089
내의 다음 워드의 이전인지 이후인지를 기록한다.
본 발명의 다른 실시예에서,
Figure 112015007820670-pat00045
Figure 112015007820670-pat00046
은, 2진화하지 않고, 적절한 거리 측정을 이용하여, 예를 들어 하나의 시퀀스에서의 워드의 발생 상황이 다른 시퀀스와는 상이한 프레임의 전체 개수가 주어지는 L1을 이용하여, 비교될 수 있다.
Q개의 어휘에 있어서, Q개 정규화된 해밍 거리
Figure 112015007820670-pat00047
가 존재한다. 본 발명의 바람직한 실시예에서, 이들 거리가 융합되어서 복합 거리
Figure 112015007820670-pat00090
Figure 112010005243492-pat00048
로서 주어진다.
그러면, 프레임 시퀀스가 유사한지 여부가,
Figure 112015007820670-pat00050
의 처리, 바람직하게는 임계화에 의해 결정될 수 있다. 이 경우에,
Figure 112015007820670-pat00051
이 소정의 임계값 미만이면 시퀀스가 매칭된다고 선언되고, 그렇지 않으면 매칭되지 않는다고 선언된다.
분명히, 절사 평균, 중앙값, 최대값 등의, 식 (10)에 대한 다수의 대안이 존재한다. 또한, 다른 실시예에서는, 거리 융합이 아닌 결정 융합에 의해, 즉 각각의
Figure 112015007820670-pat00091
을 적절한 임계값으로 개별적으로 임계화하고 나서, 예를 들어 다수결에 의해 개별적인 결정을 융합하는 것에 의해, 프레임 시퀀스의 유사성을 구할 수 있다. 본 발명의 다른 실시예에서는, 결정 융합과 거리 융합을 조합하여, 즉 복합체
Figure 112015007820670-pat00053
를 계산하고 나서 임계화함으로써 결정할 수도 있지만, 매칭 결정이 적어도 설정된 수의
Figure 112015007820670-pat00092
거리에 의해 서포트될 필요도 있다.
선택적으로는, 비디오 시퀀스가 매칭되는지 여부를 매우 높은 수준의 정확도로 결정하고, 2개의 시퀀스에서 대응하는 프레임 위치를 결정하기 위해, 다른 개량 및 위치 특정 스테이지를 적용한다. 양쪽 시퀀스로부터의 매칭 워드의 집합이 사용되어서, 가능성 있는 프레임의 대응성을 결정된다. 그 후, 시퀀스간의 시간적 변화가 추정될 수 있다. 바람직한 실시예에서, 시퀀스간의 시간 천이(time-shift) 및 프레임 레이트 차이는 도 4에 도시된 바와 같이 구해진다. 그러면, 가능성 있는 대응하는 복수의 프레임으로부터의 디스크립터를, 대응성의 타당성을 판단하고 및/또는 시간적 변화 파라미터를 개량하는데 사용할 수 있다.
보다 구체적으로, 각 어휘 k에 있어서, 공통 부분
Figure 112015007820670-pat00055
에서의 각 워드는 각각의 비디오 시퀀스로부터 하나 이상의 프레임에 대응하고, 여기서 "하나 이상"이란 시퀀스마다 상이한 개수일 수 있고, 예를 들어 워드는, 하나의 시퀀스 내의 단지 하나의 프레임에 의해 또한 제 2 시퀀스 내의 다수의 프레임에 의해 만들어질 수 있다. 1쌍의 비디오 시퀀스에 있어서, 또한 각각의 어휘 k에 있어서, 그리고
Figure 112015007820670-pat00056
에서의 z개의 워드 각각에 있어서, 그 워드에 대응하는 시퀀스
Figure 112015007820670-pat00057
Figure 112015007820670-pat00058
에 프레임 번호쌍을 포함하는 집합을 구성한다. 그래서,
Figure 112015007820670-pat00059
에서의 z개의 워드 중 하나가
Figure 112015007820670-pat00060
Figure 112015007820670-pat00061
에서의 단일쌍의 프레임에 의해 생성되면, 그 워드에 대한 집합은 1쌍만의 프레임 번호를 포함한다. 또 다른 워드가
Figure 112015007820670-pat00062
Figure 112015007820670-pat00063
에서의 다수쌍의 프레임에 의해 생성되면, 그 워드에 대한 집합은 이와 동일한 다수쌍의 프레임 번호를 포함한다.
그러면,
Figure 112015007820670-pat00064
에서의 각 워드에 있어서 또한 각 어휘 k에 있어서, 그 워드에 대응하는 프레임 번호쌍은 단일의 2차원 히스토그램
Figure 112015007820670-pat00065
에 플로트되고, 여기서 T1 및 T2는 각각, 시퀀스
Figure 112015007820670-pat00066
Figure 112015007820670-pat00067
에서의 프레임 수이다. 간단히 말하면,
Figure 112015007820670-pat00068
에서, 0의 빈(bin) 값은, 논의되고 있는 프레임쌍, 즉 (i, j)이 Q개의 어휘 중 어느 하나에서 매칭 워드를 생성하지 않았다는 것을 나타내고, k<Q의 빈 값은, 논의되고 있는 프레임쌍이 Q 어휘 중 k에서만 매칭 워드를 생성했다는 것을 나타내며, Q의 빈 값은, 논의되고 있는 프레임쌍이 모든 Q 어휘에서 매칭 워드를 생성했다는 것을 나타낸다.
Figure 112015007820670-pat00069
Figure 112015007820670-pat00070
에서의 프레임은, 이들이 하나 이상의 어휘에서 동일한 워드를 갖는 경우에는 대응하고 있다고 간주되고, 이는 대응도가 약한 테스트(weak test)라고 간주할 수 있고, 즉 이들 프레임은 약하게 대응한다고 볼 수 있다. 약하게 대응하는 프레임쌍 각각에 있어서, 보다 상세한 디스크립터에 따라 그것들을 비교함으로써, 대응도가 보다 강한 테스트가 수행된다. 바람직하게, 앞서 설명한 바와 같이, 2진 디스크립터
Figure 112015007820670-pat00071
Figure 112015007820670-pat00072
Figure 112015007820670-pat00073
Figure 112015007820670-pat00074
로부터 추출되어 사용된다. 이러한 2진 디스크립터간의 거리는 해밍 거리
Figure 112015007820670-pat00075
로서 계산되는 것이 바람직하다.
본 발명의 다른 실시예에서, 원래의 해상도 및 동적 범위에서, 식 (1)~(4)에 표현된 디스크립터 d의 임의의 버전(양자화 혹은 2진화되어 있어도)이 사용될 수도 있고, 혹은 이 디스크립터의 적절한 부분 집합이 사용될 수 있으며, 또한 해밍 거리
Figure 112015007820670-pat00076
는 적절한 거리, 예컨대 L1으로 대치될 수 있다.
약하게 대응하는 프레임 쌍이 다수 존재할 때에는, 처리 시간을 유익하게 감소시키기 위해서, 이들 중 일정 수만을 강하게 대응하는 프레임 쌍으로서 확정할 수 있다. 바람직하게는, 이 프레임 쌍은 공통인 워드가 많은 순으로 시험된다. 즉, 공통인 워드가 Q개인 프레임 쌍이 우선 시험되고, 이후에 공통인 워드가 Q-1개인 프레임 쌍이 시험된다. 이와 같이 공통인 워드의 수에 따라서 순서를 정하는 방식은 2D 히스토그램
Figure 112015007820670-pat00077
에 의해 용이하게 제공된다. 약하게 대응하는 프레임 쌍은, 프레임 디스크립트 사이의 거리가 일정 기준을 만족하고 있다면, 즉 바람직하게는 사전 결정된 임계값 이하라면, 이 프레임 쌍은 강하게 대응하는 프레임 쌍으로서 수용된다. 이는 약하게 대응하는 프레임 쌍이 남아있지 않을 때까지 혹은 특정 수의 강하게 대응하는 프레임 쌍이 발견될 때까지 반복된다. 이로써, 매칭 워드가 Q개 이하인 혹은 1개뿐인 프레임 쌍도 강하게 대응하는 프레임 쌍으로서 확정될 수는 있지만, 한편으로는 Q개의 어휘 중 Q개의 워드가 매칭되는 프레임 쌍은 강하게 대응하는 프레임 쌍으로서 확정될 수 없으며, 그 이유는 이들의 상세한 디스크립터에 의하면 유사성이 매우 낮기 때문이다. 따라서, 일반적으로 보다 다수인 약하게 대응하는 프레임 쌍이, 더 소수인 강하게 대응하는 프레임 쌍으로 감소된다.
강하게 대응하는 프레임 쌍이 사용되어서, 프레임 시퀀스 사이의 시간 파라미터의 변화가 추정된다. 바람직한 실시예에서, 이 시간 파라미터는 시간-천이 및 프레임 레이트 변화이다. 이들은 선형 특성을 갖고 있으며, 따라서 2개의 강하게 대응하는 프레임 쌍을 이용해서 추정될 수 있다. 바람직하게는, 허프 변환(Hough transform)이 시간 파라미터를 추정하는데 사용될 수 있다. 허프 공간(Hough space)의 피크가 가장 가능성 있는 시간 파라미터에 대응한다. 본 명세서에서는 허프 변환 및 라돈 변환(Radon transform)을 상세하게 기술하지 않으며, 이는 델프트 공대의 Quantitative Imaging Group Technical Report Series의 넘버 QI-2004-01인, van Ginkel, M., Hendricks, C.L., van Vliet, L, J.저 "A short introduction to the Radon and Hough transforms and how they relate to each other"에 전문적으로 기술되어 있다.
전형적으로 허프 변환은 파라미터를 개략적으로 산출하는데 사용된다. 이들 파라미터를 사용해서, 2개의 비디오 시퀀스간의 프레임의 대응 관계가 확립된다. 바람직한 실시예에서, 프레임의 대응 관계는 더 정확하게 구해질 수 있다. 하나의 디스크립터가 일정 레벨의 정확성을 제공하지만, 복수의 디스크립터를 조합함으로써 더 높은 레벨의 정확성을 얻을 수 있다. 바람직한 실시예에서, 디스크립터 사이의 해밍 거리가 이용되고, 이 해밍 거리는 디스크립터 모두에 제공된다. 바람직하게는, 2개의 시퀀스에서 복수의 대응 프레임이 선택되고, 이 프레임으로부터의 디스크립터의 조합들 사이의 거리를 평가함으로써 해당 시퀀스 사이의 거리를 구한다. 바람직한 실시예에서, 첫번째 시퀀스의 개시로부터, 연속하는 프레임의 그룹(예컨대 7개)이 선택되어서, 두번째 시퀀스로부터의 대응 프레임과 비교된다. 다른 방안으로, 이 프레임은 그 시퀀스의 다른 부분(중간, 끝 등)에서부터 선택될 수도 있고, 또한 이 프레임은 연속되지 않을 수도 있다. 바람직한 실시예에서, 대응 프레임 쌍 중 하나의 프레임을 고정해 두고, 그 대응 프레임 주위에서 더 대응 관계가 좋은 프레임을 탐색함으로써, 프레임의 대응 관계를 개량한다.
일 실시예에서, 효율적인 디스크립터 저장 방식이 이용됨으로써 비디오 시퀀스의 컴팩트한 표현을 형성한다. 바람직한 실시예에서, 이 시퀀스는 예컨대 1초씩 조각(fragment)들로 나누어진다. 각각의 조각마다 Q개의 2진 히스토그램
Figure 112015007820670-pat00078
이 비트스트림에 저장된다. 2진 히스토그램에 이어서, 이 조각의 각각의 프레임에 대한 디스크립터
Figure 112015007820670-pat00079
가 저장된다. 이런 방식으로 시퀀스의 모든 조각이 비트스트림에 연속해서 저장된다. 선택적으로는, 시퀀스의 프레임 레이트, 프레임 수, 조각의 수와 같은 정보가 비트스트림의 헤드에 저장될 수 있다.
다른 실시예에서, 시퀀스는 복수의 프레임 표현을 이용해서 비트스트림에 표현될 수도 있다. 여기서 각각의 프레임은 Q개의 워드 및 하나의 2진 디스크립터
Figure 112015007820670-pat00080
로 표현되어 있다. 이런 방식으로 시퀀스의 모든 프레임이 저장될 수 있다. 다른 방식에서는, 모든 프레임 내의 모든 워드를 먼저 저장하고, 후속해서 모든 디스크립터를 저장하는 것이 바람직하다. 히스토그램, 워드 및 디스크립터의 양자화된 버전 혹은 원래의 버전을 저장할 수 있다는 것은 분명하다.
본 발명의 다른 실시예에서, 비디오 프레임으로부터 추출한 디스크립터는 예컨대, 컬러 히스토그램 혹은 에지 강도 히스토그램와 같은 적절한 프레임 디스크립터로 변경되어서 원래의 형태나, 양자화된 형태 혹은 2진화된 형태로 저장될 수 있으며, 이 디스크립터로부터 워드가 형성될 수 있다. 본 발명의 다른 실시예에서, 다양한 판정 스테이지가 생략될 수 있다. 예컨대, 비디오 시퀀스의 각각의 어휘마다 매칭 워드가 나타나는 시간 순서에 기초하고 있는 처리 및 판정 스테이지를 완전히 생략하고, 대응하는 프레임의 개선 스테이지, 위치 특정 스테이지 및 결정 스테이지로 바로 처리가 넘어갈 수 있다. 본 발명의 다른 실시예에서, 각각의 비디오 시퀀스에서 발견되는 매칭 워드에 의존하는 판정 스테이지는 생략하고, 비디오 시퀀스에서 매칭 워드가 나타나는 시간 순서에 기초하고 있는 처리 및 판정 스테이지로 바로 처리가 넘어갈 수 있다.
전술한 처리 동작을 수행하는 데이터 처리 장치(1)가 도 5에 도시되어 있다. 장치(1)는 예컨대 퍼스널 데스크톱 컴퓨터가 될 수도 있고 휴대형 컴퓨터가 될 수도 있다.
장치(1)는 기존의 데이터 처리 장치의 구성 요소를 포함하고 있으며, 이는 당업자에게 공지되어 있으므로 상세한 설명은 생략한다. 요컨대, 도 5의 장치(1)는 저장 매체(5)로부터 컴퓨터 프로그램 제품과 같은 컴퓨터 프로그램 명령어를 수신하거나, 신호(7) 및 처리될 비디오 데이터를 수신하는 입력 데이터 인터페이스(3)를 포함한다. 처리 시스템에는 CPU(9), RAM(11) 및 ROM(13)이 마련되어 있으며 이들은 버스(15)로 접속되어 있다. CPU(9)는 전체 동작을 제어한다. RAM(11)은 CPU(9)가 프로그램을 실행하고 프로그램 및 다른 데이터를 저장하고 있는 ROM(4)을 제어하는데 이용하는 작업용(working) 메모리이다. 장치(1)의 데이터 처리 장치는 전술한 바와 같은, 이미지를 형성하는 이미지 데이터의 처리 방법을 수행하도록 구성된다. 처리 결과는 출력 인터페이스(17)에서 출력된다.
상기 설명된 처리 장치(1)는 컴퓨터 프로그램 명령어에 따라서 처리를 수행하지만, 다른 처리 장치가 임의의 적절한 혹은 바람직한 방식으로, 하드웨어, 소프트웨어 혹은 하드웨어와 소프트웨어의 임의의 적절한 조합의 형태로 구현될 수 있다. 프로그래밍가능 처리 장치에 로딩되어서 실행될 때, 이미지 데이터를 처리하는 상기 설명된 방법 중 하나를 수행하는 컴퓨터 프로그램으로서, 그리고 이러한 컴퓨터 프로그램을 저장한 예컨대 데이터 캐리어와 같은 컴퓨터 프로그램 제품으로서, 본 발명이 구현될 수 있다는 점에 더 주의한다.
상기 본 발명의 설명은 예시 및 설명을 목적으로 제공된 것이다. 이는 예외적인 것들을 배제하는 것이 아니며, 본 발명을 설명된 정확한 형태로 한정하려는 것도 아니다. 대체, 수정 및 변형이 본 발명의 범주를 벗어남 없이 행해질 수 있다.
1 : 장치 3 : 입력 데이터 인터페이스
5 : 저장 매체 7 : 신호
9 : CPU 11 : RAM
13 : ROM 15 : 버스
17 : 출력 인터페이스

Claims (26)

  1. 이미지의 시퀀스의 이미지 데이터를 처리하여 상기 시퀀스를 표현하는 값을 생성하는 방법으로서,
    상기 시퀀스 내의 각 이미지에 대해, 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 복수의 디스크립터(descriptor) 요소를 생성하는 단계와,
    상기 복수의 디스크립터 요소의 일부인 복수의 디스크립터 요소의 순서 집합(ordered set)을 연결해서 각 워드가 형성되도록, 또한 모든 상기 워드 내의 총 비트 수가 모든 상기 디스크립터 요소 내의 총 비트 수보다 적도록, 상기 복수의 디스크립터 요소로부터 복수의 워드를 형성하는 단계와,
    상기 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 나타내는 2진화된 히스토그램 데이터를 생성하는 단계
    를 포함하는 방법.
  2. 이미지의 시퀀스의 이미지 데이터를 처리하여 상기 시퀀스를 표현하는 값을 생성하는 방법으로서,
    상기 시퀀스 내의 각 이미지에 대해 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 복수의 디스크립터 요소를 생성하는 단계와,
    상기 복수의 디스크립터 요소의 일부인 복수의 디스크립터 요소의 순서 집합을 연결해서 각 워드가 디스크립터 요소의 고유한 조합으로서 형성되도록, 상기 복수의 디스크립터 요소로부터 복수의 워드를 형성하는 단계
    상기 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 나타내는 2진화된 히스토그램 데이터를 생성하는 단계
    를 포함하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    각 디스크립터 요소를 양자화(quantising)하는 양자화 단계를 더 포함하며,
    각 워드는 상기 양자화된 디스크립터 요소로부터 형성되는
    방법.
  4. 제 3 항에 있어서,
    각 디스크립터 요소를 양자화하는 상기 단계는, 각 디스크립터 요소를 양자화하여 각각의 1비트의 2진 결과를 형성하는 단계를 포함하는 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 디스크립터 요소는 상기 이미지에 대해 복수의 상이한 픽셀 해상도로 생성되고,
    상이한 픽셀 해상도로 생성된 상기 디스크립터 요소로부터의 하나 이상의 비트를 조합함으로써 적어도 하나의 워드가 생성되는
    방법.
  6. 제 1 항 또는 제 2 항에 있어서,
    상기 이미지의 시퀀스는 비디오 시퀀스의 조각(fragment)을 포함하는 방법.
  7. 제 1 항 또는 제 2 항에 있어서,
    상기 히스토그램 데이터, 상기 워드 및 디스크립터 요소는 상기 시퀀스를 표현하는 비트스트림에 저장되는 방법.
  8. 이미지의 제 1 시퀀스와 이미지의 제 2 시퀀스를 처리하여 상기 제 1 시퀀스와 상기 제 2 시퀀스를 비교하는 방법으로서,
    (a) 상기 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 복수의 디스크립터 요소를 생성함으로써, 그리고 상기 복수의 디스크립터 요소의 일부인 복수의 디스크립터 요소의 순서 집합을 연결해서 각 워드가 디스크립터 요소의 고유한 조합으로서 형성되도록, 상기 디스크립터 요소로부터 복수의 워드를 형성함으로써, 그리고 상기 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 나타내는 2진화된 히스토그램 데이터를 생성함으로써, 상기 제 1 시퀀스 내의 복수의 이미지 각각과 상기 제 2 시퀀스 내의 복수의 이미지 각각을 처리하는 단계로서, 상기 제 2 시퀀스에 대한 워드 각각은, 상기 제 1 시퀀스에 대한 워드 각각과 같은 조합의 디스크립터 요소로부터 생성되는, 상기 단계와,
    (b) 상기 제 1 시퀀스 내의 상기 복수의 이미지에 대해 생성된 상기 2진화된 히스토그램 데이터를, 상기 제 2 시퀀스 내의 상기 복수의 이미지에 대해 생성된 상기 2진화된 히스토그램 데이터와 비교함으로써, 상기 제 1 시퀀스와 상기 제 2 시퀀스를 비교하는 처리를 수행하는 단계
    를 포함하는 방법.
  9. 제 8 항에 있어서,
    상기 2진화된 히스토그램 데이터에 대한 비교 결과를 합쳐서 전체 비교 결과를 생성하는 방법.
  10. 제 8 항 또는 제 9 항에 있어서,
    각 워드에 대해, 상기 시퀀스 둘 다에서 발생하는 워드 값을 구하는 단계와,
    각 워드에 대해, 상기 시퀀스 둘 다에서의 상기 워드 값의 발생 시간 순서를 구하는 단계와,
    상기 발생 시간 순서를 비교하는 단계
    를 더 포함하는 방법.
  11. 제 8 항 또는 제 9 항에 있어서,
    상기 제 1 시퀀스로부터의 이미지와 상기 제 2 시퀀스로부터의 이미지를 포함하는 매칭 이미지 쌍을 식별하는 단계와,
    적어도 하나의 식별된 매칭 이미지 쌍 간의 유사성을 구하는 단계
    를 더 포함하는 방법.
  12. 이미지의 제 1 시퀀스와 이미지의 제 2 시퀀스를 처리하여 상기 제 1 시퀀스와 상기 제 2 시퀀스를 비교하는 장치로서,
    상기 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 이미지 데이터를 처리하여, 복수의 디스크립터 요소를 생성함으로써, 상기 제 1 시퀀스 내의 복수의 이미지 각각과 상기 제 2 시퀀스 내의 복수의 이미지 각각을 처리하도록 구성된 디스크립터 요소 생성 수단과,
    상기 복수의 디스크립터 요소의 일부인 복수의 디스크립터 요소의 순서 집합을 연결해서 각 워드가 형성되도록, 각 이미지의 상기 디스크립터 요소로부터 복수의 워드를 형성하도록 구성되어 있으며, 또한, 상기 제 2 시퀀스에 대한 워드 각각을, 상기 제 1 시퀀스에 대한 워드 각각과 같은 조합의 디스크립터 요소로부터 생성하도록 구성되어 있는 워드 생성 수단과,
    상기 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 나타내는 2진화된 히스토그램 데이터를 생성하도록 구성된 히스토그램 데이터 생성 수단과,
    상기 제 1 시퀀스 내의 상기 복수의 이미지에 대해 생성된 상기 2진화된 히스토그램 데이터를, 상기 제 2 시퀀스 내의 상기 복수의 이미지에 대해 생성된 상기 2진화된 히스토그램 데이터와 비교함으로써, 상기 제 1 시퀀스와 상기 제 1 시퀀스를 비교하는 처리를 수행하도록 구성된 시퀀스 비교 수단
    을 포함하는 장치.
  13. 이미지의 시퀀스의 이미지 데이터를 처리하여 상기 시퀀스를 표현하는 값을 생성하는 장치로서,
    상기 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 상기 이미지 데이터를 처리하여 복수의 디스크립터 요소를 생성하도록 구성된 디스크립터 요소 생성 수단과,
    상기 복수의 디스크립터 요소의 일부인 복수의 디스크립터 요소의 순서 집합을 연결해서 각 워드가 형성되도록, 또한, 모든 워드 내의 총 비트 수가 모든 디스크립터 요소 내의 총 비트 수보다 적도록, 상기 디스크립터 요소로부터 복수의 워드를 형성하도록 구성된 워드 생성 수단과,
    상기 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 나타내는 2진화된 히스토그램 데이터를 생성하도록 구성된 히스토그램 데이터 생성 수단
    을 포함하는 장치.
  14. 이미지의 시퀀스의 이미지 데이터를 처리하여 상기 시퀀스를 표현하는 값을 생성하는 장치로서,
    상기 이미지 내의 이웃하는 복수의 픽셀 각각에 대한 상기 이미지 데이터를 처리하여 복수의 디스크립터 요소를 생성하도록 구성된 디스크립터 요소 생성 수단과,
    상기 복수의 디스크립터 요소의 일부인 복수의 디스크립터 요소의 순서 집합을 연결해서, 각 워드가 디스크립터 요소의 고유한 조합으로서 형성되도록, 상기 디스크립터 요소로부터 복수의 워드를 형성하도록 구성된 워드 생성 수단과,
    상기 시퀀스 내에 어떠한 워드가 나타나는지, 그리고 얼마나 자주 나타나는지를 나타내는 2진화된 히스토그램 데이터를 생성하도록 구성된 히스토그램 데이터 생성 수단
    을 포함하는 장치.
  15. 처리 장치로 하여금, 청구항 1, 청구항 2, 청구항 8 중 어느 한 항에 기재된 방법을 수행하게 하는 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
KR1020100006860A 2009-01-26 2010-01-26 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품 KR101634395B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0901262.6A GB0901262D0 (en) 2009-01-26 2009-01-26 Video identification
GB0901262.6 2009-01-26

Publications (2)

Publication Number Publication Date
KR20100087268A KR20100087268A (ko) 2010-08-04
KR101634395B1 true KR101634395B1 (ko) 2016-06-28

Family

ID=40469100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100006860A KR101634395B1 (ko) 2009-01-26 2010-01-26 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품

Country Status (6)

Country Link
US (1) US8699851B2 (ko)
EP (1) EP2214106A3 (ko)
JP (1) JP5634075B2 (ko)
KR (1) KR101634395B1 (ko)
CN (1) CN101789082B (ko)
GB (1) GB0901262D0 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849044B2 (en) 2011-01-24 2014-09-30 Alcatel Lucent Method and apparatus for comparing videos
KR101556513B1 (ko) * 2011-01-07 2015-10-02 알까뗄 루슨트 비디오들을 비교하는 방법 및 장치
US8731292B2 (en) 2011-01-07 2014-05-20 Alcatel Lucent Method and apparatus for comparing videos
KR102121534B1 (ko) * 2015-03-10 2020-06-10 삼성전자주식회사 시퀀스 간의 유사성을 결정하는 방법 및 디바이스
CN109657524B (zh) * 2017-10-11 2021-03-05 阿里巴巴(中国)有限公司 一种图像匹配方法及装置
GB2582592A (en) * 2019-03-26 2020-09-30 Sony Corp A method, apparatus and computer program product for storing images of a scene

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006135938A (ja) * 2004-09-23 2006-05-25 Mitsubishi Electric Information Technology Centre Europa Bv 画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020059706A (ko) * 2000-09-08 2002-07-13 요트.게.아. 롤페즈 저장 매체상에 저장된 정보 신호를 재생하는 장치
KR101204788B1 (ko) * 2004-06-03 2012-11-26 삼성전자주식회사 영상의 공간 예측 부호화 방법, 부호화 장치, 복호화 방법및 복호화 장치
WO2006007871A1 (en) * 2004-07-23 2006-01-26 Telecom Italia S.P.A. Method for generating a vector codebook, method and device for compressing data, and distributed speech recognition system
GB2418555A (en) 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
GB2418556A (en) 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
US7650039B2 (en) * 2005-03-03 2010-01-19 Canon Kabushiki Kaisha Image encoding apparatus, image decoding apparatus, control method therefor, computer program, and computer-readable storage medium
US8009861B2 (en) * 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
EP1912160B1 (en) 2006-10-11 2012-05-16 Mitsubishi Electric R&D Centre Europe B.V. Image descriptor for image recognition
JP4916950B2 (ja) 2007-05-14 2012-04-18 ヤフー株式会社 動画像比較装置、動画像比較方法、及び動画像比較プログラム
US8086675B2 (en) * 2007-07-12 2011-12-27 International Business Machines Corporation Generating a fingerprint of a bit sequence

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006135938A (ja) * 2004-09-23 2006-05-25 Mitsubishi Electric Information Technology Centre Europa Bv 画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ang et al. Evaluating bag-of-visual-words representations in scene classification. Proceedings of the international workshop on Workshop on multimedia information retrieval. 2007. pp. 197-206.*
Kashino et al. A quick search method for audio and video signals based on histogram pruning. IEEE Transactions on Multimedia, 2003, Vol. 5, No. 3, pp. 348-357.*

Also Published As

Publication number Publication date
CN101789082B (zh) 2013-11-20
GB0901262D0 (en) 2009-03-11
EP2214106A2 (en) 2010-08-04
JP2010191954A (ja) 2010-09-02
US20100189409A1 (en) 2010-07-29
JP5634075B2 (ja) 2014-12-03
CN101789082A (zh) 2010-07-28
KR20100087268A (ko) 2010-08-04
US8699851B2 (en) 2014-04-15
EP2214106A3 (en) 2013-04-10

Similar Documents

Publication Publication Date Title
US10956484B1 (en) Method to differentiate and classify fingerprints using fingerprint neighborhood analysis
US9135674B1 (en) Endpoint based video fingerprinting
US8340449B1 (en) Three-dimensional wavelet based video fingerprinting
JP5501777B2 (ja) 画像のシーケンスを処理する方法および装置、記憶媒体ならびに信号
US8477836B2 (en) System and method for comparing an input digital video to digital videos using extracted and candidate video features
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
JP5711387B2 (ja) 映像を比較する方法および装置
JP5117670B2 (ja) 画像及び画像群を表現する方法、画像又は画像群を比較する方法、画像又は画像群を検索する方法、各方法を実行する装置およびシステム、プログラム、及びコンピュータ読み取り可能な記憶媒体
JP5878238B2 (ja) 映像を比較するための方法および装置
KR101634395B1 (ko) 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품
CN108881947B (zh) 一种直播流的侵权检测方法及装置
JP5685324B2 (ja) 映像を比較する方法および装置
Saracoglu et al. Content based copy detection with coarse audio-visual fingerprints
Steinebach et al. Efficient cropping-resistant robust image hashing
JP2010186307A (ja) 動画コンテンツ識別装置および動画コンテンツ識別方法
EP2325801A2 (en) Methods of representing and analysing images
KR101400928B1 (ko) 히스토그램을 이용한 고속 유사도 측정 방법 및 장치
JP2013070158A (ja) 映像検索装置およびプログラム
KR101367821B1 (ko) 계층적 영상블록의 대칭정보를 이용한 비디오 식별 방법 및 장치
Ibrahim et al. Image similarity using dynamic time warping of fractal features
Vadivel Content-Based Image and Video Retrieval Using the Properties of the HSV Color Space
Li et al. Segment Oriented Search (SOS) Method for TV Repeats Detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 4