KR20100087269A - 유사한 비디오 세그먼트의 검출 - Google Patents

유사한 비디오 세그먼트의 검출 Download PDF

Info

Publication number
KR20100087269A
KR20100087269A KR1020100006888A KR20100006888A KR20100087269A KR 20100087269 A KR20100087269 A KR 20100087269A KR 1020100006888 A KR1020100006888 A KR 1020100006888A KR 20100006888 A KR20100006888 A KR 20100006888A KR 20100087269 A KR20100087269 A KR 20100087269A
Authority
KR
South Korea
Prior art keywords
image
matrix
distance
identify
processing
Prior art date
Application number
KR1020100006888A
Other languages
English (en)
Inventor
스타브로스 파찰라키스
알프레도 지아니
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20100087269A publication Critical patent/KR20100087269A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

이미지의 제 1 시퀀스 및 이미지의 제 2 시퀀스를 처리하여, 제 1 시퀀스와 제 2 시퀀스를 비교하는 방법 및 장치가 개시된다. 제 1 시퀀스의 각 이미지 및 제 2 시퀀스의 각 이미지는, (ⅰ) 이미지 내에서 각각의 복수의 화소 근방에 대한 이미지 데이터를 처리하여, 각각의 화소 근방에 대한 적어도 하나의 각자의 디스크립터 성분을 생성하고, (ⅱ) 상기 디스크립터 성분으로부터 전체 이미지 디스크립터를 형성함으로써 처리된다. 비교될 이미지의 전체 이미지 디스크립터 각각들 간의 거리를 산출함으로써, 제 1 시퀀스의 각 이미지와 제 2 시퀀스의 각 이미지가 비교된다. 거리는 행렬로 배열되고, 행렬은 유사한 이미지를 식별하기 위해 처리된다.

Description

유사한 비디오 세그먼트의 검출{DETECTION OF SIMILAR VIDEO SEGMENTS}
본 발명은 유사한 비디오 세그먼트의 검출을 위한 방법, 장치 및 컴퓨터 프로그램 제품에 관한 것이다.
최근 소비자가 액세스하여 그들의 비디오 라이브러리에 저장하는 디지털 비디오 데이터의 양이 급격하게 증가하고 있다. 이러한 비디오는 상업적인 DVD 및 VCD, 개인 캠코더 기록, HDD 및 DVR 시스템으로의 방송 중이 아닌 기록, 퍼스널 컴퓨터 또는 휴대 전화 또는 PDA 또는 포터블 플레이어로의 비디오 다운로드 등의 형태를 취할 수 있다. 이 디지털 비디오 라이브러리의 성장은 블루레이 등의 새로운 대용량 기술의 가용성 증가와 함께 지속되고 가속되리라 기대된다. 그러나, 이러한 비디오 자료의 풍부함은 그들의 비디오 컬렉션을 관리하는 것이 점점 더 어려워진다는 것을 발견하는 사용자에게는 문제가 되기도 한다. 이를 해결하기 위해, 사용자에게 그들의 비디오 콘텐츠로의 효율적인 액세스, 비디오의 카테고리별 분류, 요약, 검색 등과 같은 기능을 허용하는 새로운 자동 비디오 관리 기술이 개발되고 있다.
여기서 발생하는 하나의 문제는 유사한 비디오 세그먼트를 식별할 필요가 있다는 것이다. 잠재적인 애플리케이션은, 예컨대, 큰 비디오의 데이터베이스 내에서 사용자에 의해 제공되는 짧은 프래그먼트의 식별에 근거하여, 반복되는 비디오 세그먼트(예컨대, 방송국의 CM송)의 식별, 비디오 데이터베이스 검색을 포함한다. 다른 잠재적인 애플리케이션은 광고 전후의 반복되는 비디오 세그먼트의 식별이다.
영국 공개 특허 제2,444,094호 "검출된 후보 비디오 시퀀스로부터 비디오 핑거프린트를 비교하여 반복되는 비디오 섹션을 식별"에는, 광고 시간의 식별 수단으로서 반복되는 시퀀스를 식별하기 위한 방법이 창안되었다. 처음에, 하드컷, 페이드, 오디오 레벨 변화의 검출은 후보 세그먼트를 식별한다. 하드컷/페이드의 일정 수가 식별될 때마다, 후보 세그먼트가 고려되어 저장된다. 이는 이후의 식별된 후보 세그먼트와 비교될 것이다. 비교는 가능한 형태의 집합으로부터의 특성(오디오 레벨, 컬러 히스토그램, 컬러 코히런스 벡터, 에지 변화율, 모션 벡터 길이)을 사용하여 행해진다.
이 방법의 문제는 먼저 세그먼트가 식별되고 다음으로 다른 세그먼트와 비교되는 순서로 세그먼트와 그 이웃 사이의 명확한 경계선에 의존한다는 것이다. 또한, 부분적인 반복(즉, 세그먼트의 하나의 섹션만이 반복됨)은 검출될 수 없다. 또한, 컬러 코히런스 벡터는 아주 적은 공간 정보를 제공하므로 프레임-프레임 매칭에 적합하지 않다. 마지막으로, 제안된 특성의 일부는 압축되지 않은 비디오에서 사용할 수 없으므로 계산 및 시간 요건을 현저하게 증가시키는 애드혹(ad-hoc)으로 계산되어야 한다.
국제 공개 특허 WO 2007/053112 A1 "비디오 데이터에서 반복 클립 식별"에는, 비디오 데이터에서 반복되는 클립을 식별하기 위한 방법 및 시스템이 개시된다. 이 방법은, 비디오 데이터를 콘텐츠 기반의 키프레임 샘플링을 사용하는 정렬된 비디오 유닛으로 분할하되, 각 비디오 유닛은 두 연속된 키프레임 사이에 시퀀스 간격을 포함하는 것, 각 비디오 유닛에 대하여 핑거프린트를 생성하는 것, 적어도 두 연속된 비디오 유닛을 하나의 시간 인덱스 비디오 세그먼트로 그루핑(grouping)하는 것, 비디오 세그먼트의 상관에 근거하여 반복되는 클립의 예를 식별하는 것을 포함한다.
처음으로 비디오가 스캔되고 각 프레임에 대하여 컬러 히스토그램이 계산된다. 두 프레임 사이에 히스토그램의 변화가 검출되면, 주어진 임계값에 따라, 제 2 프레임이 키프레임으로서 표시된다. 하나의 키프레임과 그 다음 키프레임 사이의 프레임의 집합은 비디오 유닛을 구성한다. 그 후 유닛 레벨 컬러 서명과 프레임 레벨 컬러 서명이 추출된다. 또한, 유닛 시간 길이도 특성으로서 고려된다. 그 후 두 연속된 비디오 유닛의 최소값이 세그먼트를 형성하기 위해 통합된다. 이것은 비디오 내의 세그먼트와 서로 비교된다. 유닛 레벨 서명 및 시간 길이에 대한 L1 거리가 계산되고, 모두가 고정 임계값보다 작으면, 매치가 검출되고 상관 행렬 내의 대응하는 포인트가 1(또는 0)로 설정된다. 그러면 1의 시퀀스는 매칭 세그먼트의 시퀀스를 표시한다. 프레임 레벨 특성은 후처리 검증 단계로서만 사용되고, 적절한 검출 처리에서는 사용되지 않는다.
국제 공개 특허 WO 2007/053112 A1에서의 기술의 한 문제점은, 그것은 비디오 유닛에 근거한 것이고, 비디오 유닛은 불균일하게 샘플링된 콘텐츠 기반 키프레임 사이의 비디오라는 것이다. 따라서, 유닛은 중요한 구조적 요소, 예컨대, 샷 등이다. 매우 정적인 또는 매우 동적인 비디오 콘텐츠의 존재하에서는, 키프레임 추출 처리 자체가 불안정해지고 너무 적거나 또는 너무 많은 유닛을 검출하므로, 이는 중요한 문제이다. 또한, 매칭은 되지만 조금씩 다른 비디오 세그먼트에 대하여, 예컨대, 텍스트 오버레이 또는 작은 PIP(Picture In Picture)의 추가 등에 의해, 키프레임 추출은 불안정해질 수 있고 아주 다른 유닛을 검출할 수 있다. 그러면 세그먼트는 둘 이상의 유닛의 그루핑으로서 정의되고, 유사도 메트릭이 세그먼트 레벨에서 적용된다. 즉, 유사도는 유닛쌍(unit-pairs)의 레벨에서 검출된다. 그래서, 이 발명은 상당히 제한되어 보다 긴 세그먼트, 예컨대, 샷의 그룹의 매칭을 타겟으로 하고 있어, 몇 프레임만 지속되는 애드혹 세그먼트에는 적용될 수 없다. 발명자는 이를 인정하고, 예컨대, 1초당 하나 이상의 키프레임에서 샘플링한다고 가정함으로써 이 문제가 해결될 수 있다고 주장한다. 그러나, 이것은 콘텐츠 기반 샘플링이 아닌 균일한 샘플링에 의해서만 달성될 수 있다. 이 경우에 생기는 주요한 문제는 비디오 유닛 레벨 특성이 프레임 레이트 변화에 대한 모든 내성(robustness)을 잃는 것이다. 모든 경우에, 이 방법의 근본적인 결함은 고정 임계값에 근거하여 세그먼트의 유사도(즉, 유닛쌍)에 대한 결정을 하지만, 이웃한 세그먼트가 드러내는 유사도 레벨에 대해서는 고려하지 않는다는 것이다. 2진화된 상관 행렬은 매칭의 과도하게 거친 설명을 제공할 수 있고, 예컨대, 노이즈의 존재로 인해, 1의 초과수가 생길 수 있다. 그러면, 매칭 세그먼트의 선형 시퀀스가 검색된다. 불균일 키프레임 샘플링 때문에, 매칭 유닛쌍의 이들 라인은 근접하지 않을 수 있고 브레이킹 및 공선적이 아닌(non-collinear) 세그먼트로 이루어질 수 있어, 이 모든 경우에 대응하기 위해 복잡한 라인 트랙킹 알고리즘이 채용된다. 프레임 레벨 특성이 사용 가능하더라도, 이것은 이미 검출된 매칭 세그먼트의 검증에만 사용되고, 매칭 세그먼트의 실제 검출에는 사용되지 않는다.
일반적으로, 상술한 종래기술은 매우 높은 유사도를 갖는 동일 길이의 세그먼트 및 이웃하는 세그먼트에 대한 독특한 경계의 식별에 주로 관계되어 있다. 이 상황은 그러한 방법의 애플리케이션을, 보통 분명한 경계(예컨대, 광고 전후에 약간의 어두운 프레임), 독특한 오디오 레벨, 같은 길이의 반복의 특징이 있는 반복되는 광고의 식별에 합리적으로 만족시킬 수 있다. 그러나, 상술한 종래기술은 보다 임의적인 애플리케이션에 대응하기 위해 필요한 일반성이 없다.
해결되지 않는 한 문제는 짧은 세그먼트의 부분적인 반복, 즉, 세그먼트의 일부분만이 반복된다는 것이다. 이 경우에, 식별을 위한 특성/핑거프린트로서 세그먼트 길이를 사용할 수 없다.
해결되지 않는 다른 문제는 두 세그먼트 중 하나에 텍스트 오버레이가 존재하거나, 두 세그먼트 중 하나의 선형/비선형 왜곡이 존재하는 것이다(예컨대, 블러링, 또는 휘도/대비/채도 변화). 보다 일반적인 애플리케이션을 생각할 때 그러한 왜곡이 고려되어야 한다.
국제 공개 특허 WO 2004/040479 A1 "비디오의 콘텐츠를 검색하는 방법"에는, 비디오 신호에서 유사한 세그먼트를 검출하는 방법이 개시되어 있다. 알려지지 않은 임의의 콘텐츠 및 길이의 비디오는 특성 추출의 영향을 받기 쉽다. 특성은, 예컨대, MPEG-7 디스크립터(descriptor)와 같은 모션 활동, 컬러, 오디오, 텍스처에 근거한 오디오 및 비디오일 수 있다. 시간적인 특성의 연속은 시계열(time series)을 구성한다. 자기 거리(self-distance) 행렬은 시계열의 각 포인트(또는 다차원 시계열의 각 벡터) 사이의 유클리드 거리를 사용하여 이 시계열로 구성된다. 청구항에서, 다른 기준, 특히 도트 프로덕트(dot product)(각거리) 및 히스토그램 인터섹션(histogram intersection)이 언급된다. 여러 특성(예컨대, 오디오, 컬러 등)이 고려되든 되지 않든, 각 특성에 대하여 거리 행렬의 경로를 찾는 방법이 독립적으로 적용된다. 결과로서 생긴 식별된 세그먼트는 그 후 결합된다.
그 방법은 동적 프로그래밍 기술, 즉, 적절한 비용 함수에 의해 규정되는 최소 비용의 경로 탐색을 사용하여 대각선 행렬 내의 대각 또는 준대각선 경로를 찾는다. 이 비용 함수는 두 프레임 사이의 매치가 "양호(낮은 거리)" 또는 "불량(높은 거리)"으로 고려되어야 할 거리 행렬에서 규정하는 고정 임계값을 포함한다. 따라서 값이 임계값을 넘는 포인트는 고려되지 않고, 값이 임계값보다 작은 거리 행렬 내의 모든 포인트가 고려된다. 그 후, 연속된 경로(가까운 종점(close endpoint))가 연결되고, 부분적으로 또는 전체적으로 겹치는 경로가 합쳐진다. 연결 및 합쳐진 후, 짧은 경로(종점 사이의 특정한 거리 이하)가 제거된다.
국제 공개 특허 WO 2004/040479 A1에서의 기술이 갖는 한 문제점은 거리 행렬에서 선형 패턴을 검색하기 위한 동적 프로그래밍의 애플리케이션이 계산적으로 매우 집약적일 수 있다는 것이다. 또한 동적 프로그래밍은 특정한 고정 임계값을 하회하는 거리 행렬 내의 모든 포인트에 적용됨을 고려하여야 한다. 이 고정 임계값은 매우 큰 또는 매우 작은 후보 포인트의 수를 초래할 수 있다. 큰 수의 포인트는 비디오의 세그먼트가 강하게 자기 유사성(self similar)을 가질 때, 즉, 세그먼트의 프레임이 매우 유사할 때 생성된다. 이 경우 너무 높은 고정 임계값은 트랙킹되어야 할 포인트를 비현실적으로 많이 생성할 수 있다.
반복된 세그먼트가 동일한 프레임으로 구성된 경우에, 제 1 세그먼트의 포인트와 제 2 세그먼트의 포인트를 연결하는 모든 대각 경로는 같은 비용을 산출할 것이므로, 최소 비용 경로를 찾는 문제는 부적절할 수 있다. 이것은 매우 큰 수의 병렬 패턴을 생성할 것이다. 이 패턴의 일례가 도 4에 도시된다. 이 발명은 강한 자기 유사도 영역에 의해 생성된 병렬 세그먼트의 그룹을 합치는 방법을 제공하지 않는다.
한편, 강한 비선형 편집(예컨대, 텍스트 오버레이, 블러, 밝게 함/어둡게 함)의 존재하에서는, 프레임 사이의 거리는 고정 임계값 위로 올라갈 수 있고, 후보 포인트의 수를 부족하게 한다.
복제된 세그먼트가 부분적으로 편집되면, 예컨대, 세그먼트의 일부의 프레임이 블러 또는 텍스트 오버레이와 함께 복제되면, 또 다른 문제가 일어날 수 있다. 이 경우 최소 비용의 경로가 단절되어, 두 세그먼트가 의미적으로 연결되어 있다고 해도 두 개의 분할된 세그먼트를 초래한다.
국제 공개 특허 WO 2007/053112 A1 및 국제 공개 특허 WO 2004/040479 A1의 양자가 갖는 다른 문제는 거리 행렬을 계산하고 기본적인 디스크립터를 저장하는 것이 복잡하고 비용이 많이 든다는 것인데, 이는 실시간 또는 보다 빠른 동작이 요구될 때 매우 큰 시퀀스에 대하여 금지되는 것이다. 요구되는 것은 큰 시퀀스, 예컨대, 전체 프로그램의 빠른 처리를 할 수 있도록 이 문제를 경감하는 방법이다.
본 발명의 특정한 국면은 첨부한 청구범위에 게시된다. 다른 국면은 이하의 실시예에서 설명되고, 당업자라면 이 설명으로부터 이해할 수 있을 것이다.
본 발명의 실시예는 이하와 같은, 유사한 비디오 세그먼트를 검출하는 새로운 방법 및 장치를 제공한다.
· 해밍 거리(Hamming distance) 행렬을 발생시키며, 계산을 크게 줄일 수 있는 해밍 거리에 의해 비교될 수 있는 간단한 2진 디스크립터에 의해 프레임을 규정한다.
· 거리 행렬에 있어서의 포인트의 작은 서브세트의 거리 행렬에서 라인 패턴을 검색한다. 이것은 거리 행렬에 대하여 로컬 미니마(local minima)인 포인트, 또는 로컬 미니마의 인접 포인트이고, 최소값은 거리 행렬의 제 1 및 제 2 도함수(derivative)의 유한 차분 근사에 의해 규정된다.
- 이 포인트는 더 처리되어 값이 특정 임계값 아래인 포인트만 유지된다. 이 임계값은 거리 행렬의 열(column)당 발견되는 최소값의 수에 따라 적응적으로 결정된다. 즉, 최소값(발견된다면)의 최소수 이상 및 최소값의 최대값 이하가 유지된다는 것을 보증한다.
- 또한, 동일한 또는 거의 동일한 로컬 미니마의 시퀀스, 즉, 강한 자기 유사도 지역을 나타내는 로컬 밸리(valley)가 발견될 때마다, 밸리에서 선택된 포인트만을 발견하고 유지하는 방법이 제공되어, 생성되는 평행 패턴의 수를 감소시킨다.
- 이렇게 함으로써, 해밍 거리 행렬에서 잠재적으로 유효한 매치의 수를 최소화함으로써 계산적인 노력을 최소화하므로, 이 방법은 국제 공개 특허 WO 2004/040479 A1에 비하여 큰 이점을 갖는다.
· 높은 자기 유사성(거리 행렬에서 밸리)을 갖는 세그먼트에 의해 생성된 복수의 병렬 패턴을 제거하기 위한 방법을 제공한다.
· 휘도 변화, 텍스트 오버레이, 비선형 편집(예컨대, 블러링)에 강하고, 로컬 미니마상의 적응적인 임계값을 통해 약한 유사도를 검출하는 것에 강하다.
· 히스테리시스(hysteresis) 임계값 결합 방법을 통해 분할 세그먼트를 결합하는 방법을 제공함으로써 세그먼트의 부분적인 비선형 편집에 강하다.
· 압축된 MPEG 비디오 스트림뿐만 아니라 압축되지 않은 비디오도 조작할 수 있다. 압축된 MPEG 스트림의 I 프레임만을 조작할 수 있으므로, 비디오 스트림의 P 및 B 프레임의 복호를 필요로 하지 않는다. 그 결과 이 방법은 비디오의 시간적으로 서브샘플링된 버전(time-subsampled version)도 조작할 수도 있다.
· DC 또는 서브 DC 프레임 해상도를 조작할 수 있으므로, 연산 노력과 필요 메모리를 최소화하고, 프레임을 풀해상도로 복호할 필요가 없다.
· 멀티 레벨 공간 변환에 근거하여, 각각의 프레임에 대한 특성의 작은 벡터를 조작한다.
· 유사도의 기준으로서 프레임 내의 세부 사항과 고주파 공간 콘텐츠를 활용한다.
· 프레임 대 프레임(frame-to-frame) 매칭에 근거하고, 분석에 앞서 프레임의 그루핑을 필요로 하지 않는다.
· 오디오 트랙, 전이(transition)/하드컷/장면 변화 검출, 동적 콘텐츠 분석에 의존하지 않는다.
· 세그먼트가 동일하거나 유사한 길이를 갖도록 요구하지 않는다.
· 프레임 레이트 변화에 강하다.
· 오류 검출이 무시할 수 있는 정도인 높은 회수율을 갖는다.
더 상세하게는, 두 개의 비디오 시퀀스가 주어지면, 본 발명의 실시예는 각 시퀀스의 각 프레임에 대한 아래의 처리를 실행한다.
· 멀티레벨 휘도 및 색차 콘텐츠(평균값/로우패스) 및 연관성(차이/하이패스)을 캡쳐하는 멀티레벨 변환에 근거하여, 간편하고 계산적으로 효율적인 디스크립터(descriptor)를 계산한다.
· 그 디스크립터의 성분을 2진화한다.
· 대응하는 디스크립터의 2진 거리(binary distance)에 따라 다른 시퀀스 내의 모든 프레임을 갖는 한 시퀀스의 프레임 사이의 매칭 스코어를 계산하고, 그 결과를 해밍 거리 행렬(Hamming distance matrix)에 저장한다.
· 불확실/불완전/다수의 매칭 및 개략 샘플링(coarse sampling)을 처리하기 위해, 연속성 정보를 보존하는 거리 행렬의 행 및/또는 열을 따라 로컬 미니마(local minima)를 검색한다.
· 대각 경로를 통해 연속적이고 이웃한 미니마의 시퀀스, 잘못된 정렬의 정정 및 누락된 매치(matches)를 검출하고, 그들의 전체적 매칭 스코어에 따라 그들을 평가한다.
이하에 첨부도면을 참조하여, 본 발명의 실시예를 예로서 설명할 것이다.
도 1 및 2는 일 실시예의 처리 동작을 도시하는 흐름도를 포함하는 도면,
도 3은 로컬 미니마 및 밸리포인트(valley point)의 검출을 도시하는 도면,
도 4는 직선상의 로컬 미니마의 검출을 도시하는 도면,
도 5는 히스테리시스(hysteretic) 라인 세그먼트 결합 알고리즘을 적용하기 위해 처리 동작을 도시하는 흐름도,
도 6은 처리 결과의 예를 도시하는 도면,
도 7은 처리 동작을 실행하기 위한 처리 장치의 실시예를 도시하는 도면이다.
이하에, 본 발명의 일 실시예의 처리 장치에 의해 실행되는 방법을 설명할 것이다. 그 방법은 다수의 처리 동작을 포함한다. 명세서의 끝에 설명되는 바와 같이, 이들 처리 동작은 하드웨어, 펌웨어를 이용하는 처리 장치, 컴퓨터 프로그램 명령에 따라 동작하는 처리 유닛, 또는 그들의 조합에 의해 실행될 수 있다.
두 개의 비디오 시퀀스 Sa, Sb가 주어지면, 일 실시예에서 실행된 처리는 그 두 개의 시퀀스 사이에서 유사한 세그먼트를 검색한다.
본 실시예에 따르면, 비디오 프레임
Figure pat00001
은 임의의 적당한 색공간(예컨대, RGB 또는 YUV 색공간에서 C=3, 또는 그레이스케일 이미지에 대해서는 C=1) 또는 그로부터 유도된 임의의 적당한 디스크립터로 그 화소값에 의해 기술될 수 있다.
본 발명의 일 실시예에서, Sa, Sb의 각 프레임은 그 화소값에 의해 기술된다. 본 발명의 바람직한 실시예(도 1)에서, Sa, Sb의 각 프레임은 YUV 색 채널에서의 프레임의 하이패스 및 로우패스 콘텐츠를 캡쳐하는 디스크립터에 의해 기술된다(단계 S1).
그러한 디스크립터는 EP 1,640,913 및 EP 1,640,914에 기술된 기법을 이용하여 계산될 수 있고, 그 콘텐츠 전체는 참조를 위해 여기에 통합된다. 예컨대, 그러한 디스크립터는 Haar 또는 Daubechies 웨이블렛 변환 등의 다중해상도 변환(multi-resolution transform, MRT)을 이용하여 계산될 수 있다. 바람직한 실시예에서, 2×2 화소 윈도우에 국소적으로 계산되고, 아래와 같이 정의된 습관적이고 더 빠른 변환이 이용된다.
Figure pat00002
Haar 변환과 유사한 방식으로, 이 MRT는 N=M=2의 제곱 크기의 리샘플링된 프레임에서 모든 2×2 비중첩 윈도우에 적용된다. N×M 프레임 F(n,m)에 대해, 그것은 각 색 채널 c에 대해 (N×M)/4 LPc 성분 및 (3×N×M)/4 HPc 성분을 생성한다. 그 후 결국 색 채널당 하나의 LPc 및 (N×M-1) HPc 성분만이 남을 때까지, 그것은 이전에 계산된 LPc 성분에 적용될 것이다.
각 프레임 F(n,m)에 대해 LP 및 HP 성분 또는 그들의 적절한 서브세트가 벡터(이하에서는 디스크립터라고 함)
Figure pat00003
에 배열되고(단계 S2), 각 성분 φd는 LP 및 HP 성분의 적절한 서브세트(예컨대, D=C×N×M)에 속한다.
그 후 벡터 φd의 각 성분은 그 최상위비트(MSB)의 값에 따라 2진화(양자화)된다(단계 S3).
Figure pat00004
본 발명의 다른 실시예에서, 다른 프레임 디스크립터 또는 각 디스크립터의 다른 성분이 MSB 선택, 국소선택적 해싱(locality-sensitive hashing)(예컨대, Samet H.의 "Foundations of Multidimensional and Metric Data Structures"(Morgan Kaufmann, 2006)에 기술된 바와 같음) 등의 개별적 2진화(양자화) 파라미터로 될 수 있다.
Figure pat00005
의 각 프레임
Figure pat00006
은,
Figure pat00007
인 Sb에 각 프레임
Figure pat00008
에 대해, 그들 각각의 2진화된 디스크립터의 해밍거리 δij에 의해 비교된다.
성분 δij는 거리 행렬에 배열된다(단계 S4).
Figure pat00009
본 발명의 바람직한 실시예(도 2)에서는, Δ의 각 열에 대해(단계 S5), 로컬 미니마 μ가 검색된다(단계 S6). 미니마는 시험 대상열의 제 1 도함수(derivative)에서 제로크로싱(zero-crossing)으로 정의되고, 양(positive)의 제 2 도함수를 생성한다. 제 1 및 제 2 도함수를 산출하기 위해, 일반적 방식은 연속적으로 분석적으로 두번 미분되는, 매끄러운 구별 가능한 곡선(예컨대, 고차 다항식)으로 열을 보간한다. 더 실제적인 방식은 매끄럽고 유한한 차이의 조합으로서 제 1 도함수를 산출한다. 일 실시예에서는, 계산 비용을 최소화하기 위해, 제 1 및 제 2 차 유한한 차이의 내포적 조합이 구현되는데, 여기서 이전 및 다음의 값(열 방향)이 더 높을 때 미니마가 검색된다(단계 S6).
Figure pat00010
Δ의 j번째 열의 i번째 행에서의 로컬 미니멈 μij는, 프레임
Figure pat00011
이 그 열 방향 근방(neighbourhood)
Figure pat00012
내에서
Figure pat00013
와 가장 유사한 것을 나타낸다. 상술한 간이 미니멈 검색 프로시저에서, "근방"이라는 것은
Figure pat00014
으로 정의된다. 결론적으로 j번째 열에서도 전반적인 로컬 미니멈 μij는, 프레임
Figure pat00015
Figure pat00016
에 가장 잘 부합되는 것을 나타낸다. 로컬 미니마는 임계값에 대해 추정된다(단계 S7). 알고리즘은 값이 충분이 작은, 즉, Sa 및 Sb의 대응하는 프레임 사이에서 충분히 강력한 매칭을 포함하는 미니마만을 보존한다.
S7의 임계값은 미니마의 최대량 Mm이 아니라 최소량 mm이 유지되도록 적응적으로 계산된다. 그러나, 단계 S6에서 알아낸 미니마의 수가 mm보다 작으면, 그 결과로 그들 전부를 보존하기 위해 임계값이 적용된다.
각 로컬 미니멈 μ에 대해 밸리포인트의 세트 V가 발견된다(단계 S8). 이들은 대응하는 미니멈, 즉,
Figure pat00017
의 바로 아래나 위(Δ에서 열 방향)의 비 미니마 포인트로서 정의되고, 여기서 v는 디폴트 파라미터(3 등) 또는 대안으로 체험적으로 결정된다. V의 목적은 각 μ의 근방에서 연속적 정보를 제공하는 것이고, 따라서 임의의 형태의 샘플링, 비선형 편집으로부터 생기고, 또한 두 시퀀스 Sa와 Sb 사이의 "강력한" 매칭의 전반적 부족으로 발생하는 불연속성 및 비 공선성(non-colinearity)을 이용한다.
밸리포인트는 임계값에 대해 추정된다(단계 S9). 알고리즘은 값이 충분이 작은, 즉, Sa 및 Sb의 대응하는 프레임 사이에서 충분히 강력한 매칭을 포함하는 밸리포인트만을 보존한다.
로컬 미니마 및 밸리포인트는 매칭 세그먼트 포인트 π의 후보로서 함께 명명된다(단계 S10). π의 예는 도 3에 도시되고, 로컬 미니마는 원과 밸리포인트로서 대각선에 표시된다.
본 발명의 다른 실시예에서는 로컬 미니마 및 밸리 포인트가 열 대신에 거리 행렬의 행을 따라 유사한 방식으로 탐색될 수 있음을 주의해야 한다. 본 발명의 또 다른 실시예에서는, 로컬 미니마 및 밸리 포인트가 거리 행렬의 양쪽 크기와 유사한 방식으로 탐색될 수도 있다.
라인 세그먼트 검색 알고리즘은 π의 세트에 적용된다(단계 S11). 그 이유는, 비디오 세그먼트 Sa가 Sb에서 반복되면, 이것은
Figure pat00018
에서 방향지어진 라인 세그먼트의 σ에 배열된 Δ에서 연속한(인접한) π의 세트를 얻을 것이기 때문이고, 여기서 ρa 및 ρb는 각각 Sa 및 Sb의 프레임 레이트이다. 프레임 레이트가 Sa에서 Sb로 변경되지 않으면, ρa = ρb 및 θ=45°로 된다.
따라서, 밸리 포인트 V는 임의의 개략 시간 샘플링(coarse time sampling)으로 인한 노이즈 또는 불완전한 매칭의 존재에 의해 생길 수 있는 임의의 갭(gap)을 메울 수 있게 한다. 라인 세그먼트 검색 알고리즘의 예가 도 4에 도시된다.
본 발명의 바람직한 실시예에서, 라인 세그먼트 검색에 대해, 히스테리시스 라인 세그먼트 결합 알고리즘이 후속된다(도 5). 이것은 로컬 비선형 편집, 노이즈, 샘플링 또는 부정확한 매칭으로 생길 수 있는 라인 세그먼트 사이의 갭을 더 메우도록 돕는다. 두 공선성 라인 세그먼트가 두 라인 세그먼트의 중심부 끝 사이에서 Δ의 포인트 수에 관해 주어진 거리보다 더 가까우면(단계 S12), 대응하는 중간 δ값이 평균화된다. 이 평균값
Figure pat00019
이 주어진 임계값보다 작으면, 그에 따라 Sa 및 Sb의 중간 프레임 사이의 충분한 매칭을 나타내고, 그 후 두 라인 세그먼트가 연결된다(단계 S13).
바람직한 실시예에서, 라인 세그먼트 σ(단계 S14) 및 매칭 비디오 세그먼트가
Figure pat00020
에 의해 계산된 Δ의 그 평균값에 따라 유효화된다.
여기서, L(σ)은 라인 세그먼트 σ의 길이(π의 수)이다(단계 S15). 높은
Figure pat00021
은 프레임의 불충분한 매칭이 드러나게 하기 때문에, 주어진 임계값보다 높은 라인 세그먼트의 수율(yielding)
Figure pat00022
은 잘못된 매칭으로 폐기된다(도 5).
바람직한 실시예에서, 애매한 해상도 처리(ambituity resolution procedure, AR)가 다중 매칭과 애매한 결과를 제거하기 위해 채용된다. 최종 결과의 예는 도 6에 도시된다.
2 단계의 AR 작업은 아래와 같다.
스테이지 1 : 섀도우 제거
1. 라인 세그먼트는 그들 길이에 따라 정렬된다. 더 긴 라인 세그먼트가 우선 고려된다. 각 라인 세그먼트 σ는 "스퀘어 섀도우"
Figure pat00023
를 보여준다, 즉, 대각선이 σ인 스퀘어 영역을 정의한다. σ이 그 시작과 끝의 좌표 x
Figure pat00024
에 의해 정의되고,
Figure pat00025
이면, 포인트 π=(xπ, yπ)는 σ에 의해 차단된다.
따라서, 라인 세그먼트 σa는,
Figure pat00026
이면 σa에 의해 차단된다.
세부적으로,
Figure pat00027
로 된다.
두 라인 세그먼트 사이의 부분적 차단은, 한 라인 세그먼트로부터의 포인트의 서브세트만이 다른 라인 세그먼트에 의해 차단되는 것을 내포하며, 그 반대의 경우도 성립된다. 이 경우에, 상대적 길이에서의 가정이 도출될 수 없다.
2. 더 긴 라인 세그먼트 σlonger에 의해 차단된 라인 세그먼트 σshorter가 제거된다. 그러나, σshorter가 부분적으로만 σlonger에 의해 차단되면, 포인트
Figure pat00028
가 제거된다. 그러나, σshorter의 길이(또는 이와 달리 그 차단된 부분의 길이)가 σlonger의 길이의 반, 즉,
Figure pat00029
이상이고, σshorter의 평균값(또는 이와 달리 그 차단된 부분의 평균값)이 σlonger의 평균값, 즉,
Figure pat00030
미만이면, σshorter가 각각의 비디오 시퀀스에 대해 더 나은 평균 매칭을 암시하기 때문에, σlonger의 이들 포인트는 σshorter에 의해 차단된다, 즉, 이들 포인트
Figure pat00031
는 제거되고, 프로시저가 반복된다.
스테이지 2: 다중 매치(multiple matches)
본 발명의 일 실시예는, Sa(Sb) 내의 2개 이상의 비디오 세그먼트가 Sb(Sa) 내에서 동일한 매치를 가지는 경우에 대해 상정한다. Δ의 대응 라인 세그먼트는 그들이 "경합(compete)"할 때에 경합된다고 말할 수 있어, Sb(Sa) 내의 동일 프레임을 Sa(Sb) 내의 다른 프레임과 연관시킨다. 사소하게는, 경합하는 라인 세그먼트들은 서로 함께 하지 않는다(이러한 사태는 스테이지 2에서 다루어진다). 이하와 같은 경우, 2개의 라인 세그먼트 σ1, σ2가 주어지면, σ1은 σ2와 경합된다고 말할 수 있다.
· Sa에서 동일 세그먼트에 대한 경합:
Figure pat00032
· Sb에서 동일 세그먼트에 대한 경합
Figure pat00033
프레임 세그먼트의 경합이 발생하더라도, 경합하는 라인 세그먼트의 부재는 알고리즘에 의해 장애 결과를 무시할 수 있어, 이에 따라 그들은 이하와 같이 평가된다.
1. 모든 경합하는 라인 세그먼트 σ의 평균값
Figure pat00034
을 고려한다. 최저의
Figure pat00035
을 산출하는 것은 먼저 트루(위너) 매치(true(winner) match)를 σwinner로서 고려된다.
2. 다른 경합하는 세그먼트 σ가 위너 평균
Figure pat00036
로부터 상한 내에서
Figure pat00037
를 산출하는 경우,
Figure pat00038
(κ>0)에 있어서, 그때의 적절한 임계값 σ은 σwinner의 다른 경우가 고려된다. 그 경우가 아니면, σ는 장애 검출로서 고려되어, 폐기된다.
본 발명의 다른 실시예에 있어서, 타겟 애플리케이션에 따라, 스테이지 1 또는 스테이지 2, 또는 전체 AR 프로시저가 생략된다.
본 발명의 일 실시예에 있어서, 2개의 비디오 시퀀스 Sa 및 Sb는 동일한 것, 즉 Sa=Sb=S이며, S 내의 반복 비디오 세그먼트를 탐색하는 것이 당해 방법의 목적이다. Δ의 상부 삼각 부분(upper-triangular part)만이 처리를 요구하는 경우, 사소하게는 Sb=Sa가 대칭적인 Δ를 의미하므로, 주요 대각선은 글로벌 미니마의 장소(자기 유사성(self-similarity))이다. 라인 세그먼트
Figure pat00039
가 주어지면 (
Figure pat00040
)이 되는 것이 보장되어야 한다. 게다가, 자기 유사성의 검출을 회피하기 위해서는, Sa 및 Sb의 2개의 비중첩 시간 간격을 검출된 라인 세그먼트가 추론함을 보장해야 한다. 다시 말하면,
Figure pat00041
, 즉 Sb의 반복 비디오 세그먼트는 Sa에서 그것의 복사본의 종단 뒤에서 시작해야 한다. 그러나,
Figure pat00042
이기 때문에, 조건
Figure pat00043
는 상부 삼각 부분에 세그먼트가 놓여져 있는 것도 암시할 때에 충족된다. 본 발명의 다른 실시예에 있어서, 거리 행렬의 하부 삼각 부분은 유사한 방식으로 상부 삼각 부분 대신에 처리될 수 있다.
본 발명의 다른 실시예에 있어서, Sa 및 Sb는 다중 디스크립터에 의해, 예컨대 다른 컬러 채널 및/또는 LP 및 HP 계수에 대해 따로따로 기술될 수 있기 때문에, 다중 거리 행렬 Δ가 산출된다. 이것은, 컬러, 명도, 세부 사항, 평균 컬러/명도 등의 면에서 따로따로 유사도를 어드레싱함으로써 프레임들간의 유사성을 더욱 잘 이용할 수 있음을 이해할 것이다.
바람직한 실시예에 있어서, YUV 컬러 공간을 고려하고, Y-채널에 대한 HP 및 LP 계수를 분리하고, U-채널 및 V-채널의 LP 계수만을 보유한다. 이것은 3개의 거리 행렬
Figure pat00044
를 산출한다. 그러한 실시예에 있어서, 각 거리 행렬은 개별적으로 처리될 수 있다. 예컨대, 미니마 및 밸리 포인트는
Figure pat00045
상에서 발견되며, 또한
Figure pat00046
내의 그들의 값에 따라 입증될 수 있다. 유사한 방식으로, 라인 세그먼트 σ는 3개의 행렬의 그들의 평균값에 따라, 즉,
Figure pat00047
에 따라 입증될 수 있다.
본 발명의 다른 실시예에 있어서, 적당한 거리 측정 예컨대 L1에 의해 해밍 거리가 교체되는 경우에, 디스크립터 성분은 2진화되지 않지만, 다른 비트수, 예컨대 2 또는 3비트로 양자화되어, 해밍 거리를 공통적으로 이용하는 것과 유사한 방식으로, 테이블 룩업 연산자를 이용해서 효과적으로 실현될 수 있다.
본 발명의 다른 실시예에 있어서, 하나 이상의 전술한 다중 스크립터는 일부분으로부터만, 예컨대, 대응 프레임의 중앙부로부터만 산출된다. 이는 연산 부하를 줄일 수 있어, 정확도를 향상시킬 수 있다.
본 발명의 다른 실시예에 있어서, 프레임 디스크립터는 공간적으로 및/또는 시간적으로 서브샘플링된 비디오, 예컨대 저해상도 비디오 프레임 표현(low-resolution video frame representations) 및 프레임 뛰어넘기(frame skipping)를이용하여 산출될 수 있다. 일 실시예에 있어서, Sa 및/또는 Sb는 MPEG 코딩되고, 프레임 매치는 I-프레임의 DC 또는 서브샘플링된 DC 표현에 근거하여 수행된다. 이는, 비디오 디코딩이 필요없음을 의미하며, 그 결과 연산 효율면에서 크게 향상된다.
전술한 처리 동작을 수행하는 데이터 처리 장치(1)는 도 7에 도시되어 있다. 장치(1)는 예컨대 퍼스널 데스크탑 컴퓨터 또는 휴대용 컴퓨터일 수 있다.
장치(1)는 데이터 처리 장치의 종래 구성요소를 구비하며, 당업자라면, 상세한 설명이 불필요함을 알 수 있다. 간단하게 설명하면, 도 7의 장치는 저장 매체(5)와 같은 컴퓨터 프로그램 제품으로부터 컴퓨터 프로그램 명령 또는 신호(7)뿐만 아니라, 처리될 비디오 데이터를 수신하는 입력 데이터 인터페이스(3)를 구비한다. 처리 시스템은, 예컨대, 버스(15)에 의해 접속되는 CPU(9), RAM(11), ROM(13)으로 구성된다. CPU(9)는 전체 동작을 제어한다. RAM(11)은 프로그램을 실행하고 ROM(4)을 제어하는 CPU(9)에 의해 이용되는 작업 메모리이며, 프로그램 및 다른 데이터를 저장한다. 장치(1)의 처리 장치는 전술한 바와 같이, 이미지를 규정하는 이미지 데이터를 처리하는 방법을 수행하도록 구성된다. 이 처리의 결과는 출력 인터페이스(17)에 의해 출력된다.
전술한 처리 장치(1)가 컴퓨터 프로그램 명령에 따라 처리를 수행하더라도, 이와 다른 처리 장치는, 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 적당한 조합과 같이, 적당하거나 바람직한 방식으로 구현될 수 있다. 게다가, 본 발명은 프로그램 가능한 처리 장치에 대해 로딩되고 구동될 때에 이미지 데이터를 처리하는 전술한 방법 중 하나를 실행하는 컴퓨터 프로그램, 및 예컨대 그러한 컴퓨터 프로그램을 저장하는 데이터 캐리어로서도 구현될 수 있음을 유의해야 한다.

Claims (14)

  1. 이미지의 제 1 시퀀스 및 이미지의 제 2 시퀀스를 처리하여, 상기 제 1 및 제 2 시퀀스를 비교하는 방법에 있어서,
    (a) 각각의 상기 제 1 시퀀스의 이미지 및 각각의 상기 제 2 시퀀스의 이미지에 대해,
    상기 이미지 내에서 각각의 복수의 화소 근방에 대한 이미지 데이터를 처리하여, 각각의 화소 근방에 대해 적어도 하나의 디스크립터 성분 제각각을 발생시키고, 상기 디스크립터로부터 전체 이미지 디스크립터를 형성하는 단계와,
    (b) 비교된 상기 이미지의 각각의 전체 이미지 디스크립터들 간의 거리를 연산함으로써, 상기 제 1 시퀀스 내의 각 이미지와 상기 제 2 시퀀스 내의 각 이미지를 비교하는 단계와,
    (c) 상기 거리를 행렬로 배열하는 단계와,
    (d) 상기 행렬을 처리하여 유사한 이미지를 식별하는 단계
    를 포함하는 방법.
  2. 제 1 항에 있어서,
    각 거리는 해밍 거리(hamming distance)를 구비하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 전체 이미지 디스크립터 각각은 2진화된 디스크립터 성분으로부터 형성되는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 행렬을 처리하여 상기 거리 내에서 로컬 미니마(local minima)를 식별하고, 식별된 로컬 미니마와, 상기 행렬의 행 또는 열당 식별된 미니마의 수에 따라 적응적으로 결정되는 임계값을 비교하고, 상기 임계값 이하인 미니마를 유지하고, 상기 유지된 미니마에 따라 유사한 이미지를 식별함으로써, 상기 행렬을 처리하여 유사한 이미지를 식별하는 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 행렬을 처리하여 상기 거리 내에서 로컬 미니마를 식별하고, 상기 행렬의 값에서 로컬 밸리(local valley)를 검출하고, 상기 로컬 밸리 내에 포인트의 서브세트를 유지하고, 상기 유지된 포인트에 따라 유사한 이미지를 식별함으로써, 상기 행렬을 처리하여 유사한 이미지를 식별하는 방법.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 행렬을 처리하여 상기 거리 내에서 로컬 미니마를 식별하고, 라인 세그먼트 검색 알고리즘(line segment searching algorithm)을 적용하여, 직선상의 로컬 미니마를 식별하고, 히스테리시스 라인 세그먼트 접속 알고리즘(hysteretic line segment joining algorithm)을 적용하여, 식별된 라인 세그먼트들간의 간격을 채우고, 상기 프로세싱의 결과를 이용하여 매치 이미지를 식별함으로써, 상기 행렬을 처리하여, 유사한 이미지를 식별하는 방법.
  7. 이미지의 제 1 시퀀스 및 이미지의 제 2 시퀀스를 처리하여, 상기 제 1 및 제 2 시퀀스를 비교하는 장치에 있어서,
    각각의 복수의 화소 근방에 대한 이미지 데이터를 처리하여, 각각의 화소 근방에 대해 적어도 하나의 디스크립터 성분 제각각을 발생시키고, 상기 디스크립터로부터 전체 이미지 디스크립터를 형성함으로써, 상기 제 1 시퀀스의 각각의 이미지 및 상기 제 2 시퀀스의 각각의 이미지를 처리하도록 구성되는 이미지 디스크립터 생성 수단과,
    비교된 상기 이미지의 각각의 전체 이미지 디스크립터들 간의 거리를 연산함으로써, 상기 제 1 시퀀스 내의 각 이미지와 상기 제 2 시퀀스 내의 각 이미지를 비교하도록 구성되는 비교 수단과,
    상기 거리를 행렬로 배열하도록 구성되는 행렬 생성 수단과,
    상기 행렬을 처리하여 유사한 이미지를 식별하도록 구성하는 유사 이미지 식별 수단
    을 구비하는 장치.
  8. 제 7 항에 있어서,
    상기 비교 수단은 비교될 이미지의 전체 이미지 디스크립터 각각들간의 거리를 산출하도록 구성되며, 상기 거리는 해밍 거리를 구비하는 장치.
  9. 제 7 항 또는 제 8 항에 있어서,
    상기 이미지 디스크립터 생성 수단은 2진화된 디스크립터 성분으로부터 전체 이미지 디스크립터 각각을 형성하도록 구성되는 장치.
  10. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 유사 이미지 식별 수단은, 상기 거리 내에서 상기 행렬을 처리하여 로컬 미니마를 식별하고, 식별된 로컬 미니마 각각과, 상기 매트릭의 열 또는 행당 식별된 미니마의 수에 따라 적응적으로 결정되는 임계값을 비교하여, 상기 임계값 이하인 미니마를 유지하고, 상기 유지된 미니마에 따라 유사한 이미지를 식별함으로서, 상기 행렬을 처리하여 유사한 이미지를 식별하는 장치.
  11. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 유사 이미지 식별 수단은, 상기 거리 내에서 상기 행렬을 처리하여 로컬 미니마를 식별하고, 행렬의 값 내에서 로컬 밸리를 검출하고, 상기 로컬 밸리 내에 포인트의 서브세트를 유지하고, 상기 유지된 포인트에 따라 유사한 이미지를 식별함으로써, 상기 행렬을 처리하여 유사한 이미지를 식별하도록 구성되는 장치.
  12. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 유사 이미지 식별 수단은, 거리 내에서 상기 행렬을 처리하여 로컬 미니마를 식별하고, 라인 세그먼트 검색 알고리즘을 적용하여 직선상의 로컬 미니마를 식별하고, 히스테리시스 라인 세그먼트 접속 알고리즘을 적용하여 식별된 라인 세그먼트들간의 간격을 채우고, 상기 처리의 결과를 이용하여 매치 이미지를 식별함으로써, 상기 행렬을 처리하여, 유사한 이미지를 식별하도록 구성되는 장치.
  13. 청구항 1 내지 6 중 적어도 한 항에 기재된 바와 같은 방법을 행하도록 동작 가능해지도록 프로그램 가능한 처리 장치를 프로그래밍하는 컴퓨터 프로그램 명령을 저장하는 저장 매체.
  14. 청구항 1 내지 6 중 적어도 어느 한 항에 기재된 바와 같은 방법을 행하도록 동작 가능해지도록 프로그램 가능한 처리 장치를 프로그래밍하는 컴퓨터 프로그램 명령을 전달하는 신호.
KR1020100006888A 2009-01-26 2010-01-26 유사한 비디오 세그먼트의 검출 KR20100087269A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0901263.4 2009-01-26
GBGB0901263.4A GB0901263D0 (en) 2009-01-26 2009-01-26 Detection of similar video segments

Publications (1)

Publication Number Publication Date
KR20100087269A true KR20100087269A (ko) 2010-08-04

Family

ID=40469101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100006888A KR20100087269A (ko) 2009-01-26 2010-01-26 유사한 비디오 세그먼트의 검출

Country Status (6)

Country Link
US (1) US20100188580A1 (ko)
EP (1) EP2211293A2 (ko)
JP (1) JP5501777B2 (ko)
KR (1) KR20100087269A (ko)
CN (1) CN101789011A (ko)
GB (1) GB0901263D0 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022055828A1 (en) * 2020-09-09 2022-03-17 Micron Technology, Inc. A memory including examples of calculating hamming distances for neural network and data center applications
WO2022055826A1 (en) * 2020-09-09 2022-03-17 Micron Technology, Inc. Memory controllers including examples of calculating hamming distances for neural network and data center applications
US11586380B2 (en) 2020-09-09 2023-02-21 Micron Technology, Inc. Memory systems including examples of calculating hamming distances for neural network and data center applications

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2395452A1 (en) * 2010-06-11 2011-12-14 Toyota Motor Europe NV/SA Detection of objects in an image using self similarities
JP2012039524A (ja) * 2010-08-10 2012-02-23 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
CN102005041B (zh) * 2010-11-02 2012-11-14 浙江大学 一种针对存在循环回路的图像序列的特征点匹配方法
US20120114046A1 (en) * 2010-11-10 2012-05-10 Iouri Gordon Transcode video verifier device and method for verifying a quality of a transcoded video file
CN103150718B (zh) * 2011-12-06 2016-02-10 中国科学院电子学研究所 基于变化矢量分析与分类后比较的遥感图像变化检测方法
EP2845188B1 (en) 2012-04-30 2017-02-01 Nokia Technologies Oy Evaluation of downbeats from a musical audio signal
EP2867887B1 (en) * 2012-06-29 2016-12-28 Nokia Technologies Oy Accent based music meter analysis.
GB2508243B (en) * 2012-11-27 2016-04-06 Mirriad Advertising Ltd Producing video data
US9344759B2 (en) 2013-03-05 2016-05-17 Google Inc. Associating audio tracks of an album with video content
GB201310861D0 (en) * 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
WO2014205769A1 (en) * 2013-06-28 2014-12-31 Hulu Llc Local binary pattern-based optical flow
CN103390279B (zh) * 2013-07-25 2016-03-09 中国科学院自动化研究所 联合显著性检测与判别式学习的目标前景协同分割方法
US9542488B2 (en) * 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
CN103440274B (zh) * 2013-08-07 2016-09-28 北京航空航天大学 一种基于细节描述的视频事件概要图构造和匹配方法
US9336685B2 (en) * 2013-08-12 2016-05-10 Curious.Com, Inc. Video lesson builder system and method
CN104424436B (zh) * 2013-08-28 2019-02-15 腾讯科技(深圳)有限公司 一种恶意广告识别方法及装置
US9407678B2 (en) * 2013-10-21 2016-08-02 Cisco Technology, Inc. System and method for locating a boundary point within adaptive bitrate conditioned content
CN103561264B (zh) * 2013-11-07 2017-08-04 北京大学 一种基于云计算的媒体解码方法及解码器
US10031925B2 (en) * 2014-10-15 2018-07-24 Thinkcx Technologies, Inc. Method and system of using image recognition and geolocation signal analysis in the construction of a social media user identity graph
CN104867161B (zh) * 2015-05-14 2018-03-23 国家电网公司 一种视频处理方法及装置
US10628736B2 (en) 2015-09-24 2020-04-21 Huron Technologies International Inc. Systems and methods for barcode annotations for digital images
CN106375773B (zh) * 2016-09-08 2019-11-26 福建师范大学 基于动态阈值的帧复制粘贴篡改检测方法
US20180139408A1 (en) * 2016-11-17 2018-05-17 Parrotty, LLC Video-Based Song Comparison System
CN106777159B (zh) * 2016-12-20 2020-04-28 西安交通大学 一种基于内容的视频片段检索及定位方法
CN107633526B (zh) * 2017-09-04 2022-10-14 腾讯科技(深圳)有限公司 一种图像跟踪点获取方法及设备、存储介质
CN110569373B (zh) * 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
CN110324659B (zh) 2018-03-29 2020-08-28 北京字节跳动网络技术有限公司 一种视频特征提取方法及装置
WO2020093152A1 (en) * 2018-11-05 2020-05-14 Hamid Reza Tizhoosh Systems and methods of managing medical images
CN111327945B (zh) * 2018-12-14 2021-03-30 北京沃东天骏信息技术有限公司 用于分割视频的方法和装置
US11200820B2 (en) * 2019-01-31 2021-12-14 Micware Co., Ltd. Information processor, method of controlling information processor, and storage medium
US11205414B2 (en) 2019-02-15 2021-12-21 Brainfm, Inc. Noninvasive neural stimulation through audio
GB2582592A (en) * 2019-03-26 2020-09-30 Sony Corp A method, apparatus and computer program product for storing images of a scene
US12014320B2 (en) 2019-08-12 2024-06-18 Walmart Apollo, Llc Systems, devices, and methods for estimating stock level with depth sensor
CN112560552A (zh) * 2019-09-25 2021-03-26 华为技术有限公司 视频分类的方法和装置
US10997625B1 (en) * 2019-12-11 2021-05-04 Cloudinary Ltd. System, device, and method for determining predicted annoyance level of multimedia content
EP3848931A1 (en) 2020-01-07 2021-07-14 Microsoft Technology Licensing, LLC Method of identifying an abridged version of a video
CN111263234B (zh) * 2020-01-19 2021-06-15 腾讯科技(深圳)有限公司 一种视频剪辑的方法、相关装置、设备以及存储介质
EP4252190A4 (en) 2020-11-24 2024-09-11 Huron Tech International Inc SYSTEMS AND METHODS FOR GENERATING CODED REPRESENTATIONS FOR MULTIPLE MAGNIFICATIONS OF IMAGE DATA
US11966661B2 (en) 2021-10-19 2024-04-23 Brainfm, Inc. Audio content serving and creation based on modulation characteristics
US11392345B1 (en) * 2021-12-20 2022-07-19 Brainfm, Inc. Extending audio tracks while avoiding audio discontinuities
US11957467B2 (en) 2021-07-02 2024-04-16 Brainfm, Inc. Neural stimulation through audio with dynamic modulation characteristics
CN113722543A (zh) * 2021-09-14 2021-11-30 图灵创智(北京)科技有限公司 一种视频相似性比对方法、系统及设备
US11417099B1 (en) 2021-11-08 2022-08-16 9219-1568 Quebec Inc. System and method for digital fingerprinting of media content

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3688489B2 (ja) * 1998-12-25 2005-08-31 株式会社東芝 画像認識方法および画像認識装置
US7110458B2 (en) * 2001-04-27 2006-09-19 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion descriptors
US7375731B2 (en) 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
GB2418555A (en) 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
US7813552B2 (en) * 2004-09-23 2010-10-12 Mitsubishi Denki Kabushiki Kaisha Methods of representing and analysing images
GB2418556A (en) 2004-09-23 2006-03-29 Mitsubishi Electric Inf Tech Representing an image using descriptors based on colour information
US20120114167A1 (en) 2005-11-07 2012-05-10 Nanyang Technological University Repeat clip identification in video data
EP1912160B1 (en) * 2006-10-11 2012-05-16 Mitsubishi Electric R&D Centre Europe B.V. Image descriptor for image recognition
GB2444094A (en) 2006-11-22 2008-05-28 Half Minute Media Ltd Identifying repeating video sections by comparing video fingerprints from detected candidate video sequences
JP4916950B2 (ja) * 2007-05-14 2012-04-18 ヤフー株式会社 動画像比較装置、動画像比較方法、及び動画像比較プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022055828A1 (en) * 2020-09-09 2022-03-17 Micron Technology, Inc. A memory including examples of calculating hamming distances for neural network and data center applications
WO2022055826A1 (en) * 2020-09-09 2022-03-17 Micron Technology, Inc. Memory controllers including examples of calculating hamming distances for neural network and data center applications
US11586380B2 (en) 2020-09-09 2023-02-21 Micron Technology, Inc. Memory systems including examples of calculating hamming distances for neural network and data center applications
US11609853B2 (en) 2020-09-09 2023-03-21 Micron Technology, Inc. Memory controllers including examples of calculating hamming distances for neural network and data center applications
US11636285B2 (en) 2020-09-09 2023-04-25 Micron Technology, Inc. Memory including examples of calculating hamming distances for neural network and data center applications

Also Published As

Publication number Publication date
CN101789011A (zh) 2010-07-28
EP2211293A2 (en) 2010-07-28
JP5501777B2 (ja) 2014-05-28
US20100188580A1 (en) 2010-07-29
JP2010191955A (ja) 2010-09-02
GB0901263D0 (en) 2009-03-11

Similar Documents

Publication Publication Date Title
KR20100087269A (ko) 유사한 비디오 세그먼트의 검출
Koprinska et al. Temporal video segmentation: A survey
US7376274B2 (en) Method and apparatus for use in video searching
US7813552B2 (en) Methods of representing and analysing images
Liu et al. Effective and scalable video copy detection
WO2017114211A1 (zh) 用于对视频场景切换进行检测的方法和装置
US7840081B2 (en) Methods of representing and analysing images
WO2009146180A2 (en) Methods and systems for representation and matching of video content
US20090290752A1 (en) Method for producing video signatures and identifying video clips
EP2270748A2 (en) Methods of representing images
WO2010089383A2 (en) Method for fingerprint-based video registration
WO2010148539A1 (en) Techniques to detect video copies
Kim et al. Adaptive weighted fusion with new spatial and temporal fingerprints for improved video copy detection
KR101634395B1 (ko) 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품
Panchal et al. Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries
KR101068288B1 (ko) 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법
EP2355041A1 (en) Methods of representing and analysing images
Chen Detection of video copies based on robust descriptors
Asha et al. F-SURF feature descriptor for video copy detection
Ouellet et al. To watch or not to watch: Video summarization with explicit duplicate elimination
Bhaumik et al. Real-time video segmentation using a vague adaptive threshold
Girija et al. Copy frame detection in video using data mining techniques
Barbu Content-based video recognition technique using a nonlinear metric
Zaharieva et al. Finding the missing piece: Content-based video comparison
Lee et al. Real-time monitoring system for TV commercials using video features

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid