KR20140058643A

KR20140058643A - 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법

Info

Publication number: KR20140058643A
Application number: KR1020147007574A
Authority: KR
Inventors: 엔커 삭세나; 펠릭스 카를로스 페르난데스; 카르시케얀 에스. 바디벨; 왕 린 라이; 쯔안 마
Original assignee: 삼성전자주식회사
Priority date: 2011-09-08
Filing date: 2012-09-10
Publication date: 2014-05-14
Also published as: WO2013036086A2; EP2754098A4; US20130064417A1; KR101968921B1; US8995708B2; WO2013036086A3; EP2754098A2

Abstract

본 발명은 비디오 핑거프린팅(finger printing)을 위한 방법에 있어서, 비디오 시퀀스(sequence)의 각 프레임(frame)에 있어서,다수의 프레임을 포함하는 과정과, 상기 프레임의 일부분을 제거하는 과정과, 상기 프레임의 잔여 일부분을 블록으로 나누는 과정과, 각 블록을 서브 블록으로 나누는 과정과, 블록 내의 각 서브 블록에서 픽셀의 평균에 따라 블록 레벨 특성을 계산하는 과정과, 상기 프레임에서 모든 블록 레벨 특성을 연결하는 과정과, 상기 비디오 시퀀스에서 모든 프레임의 특성을 연결하는 과정을 포함하는 것을 특징으로 한다.

Description

강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법{APPARATUS AND METHOD FOR ROBUST LOW-COMPLEXITY VIDEO FINGERPRINTING}

본 발명은 비디오 핑거프린팅을 위한 장치 및 방법에 관한 것이다. 특히, 본 발명은 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법에 관한 것이다.

비디오 카메라 기술과 인터넷의 발전에 따라 디지털 비디오가 확산되고 있다. 저작권 침해와 데이터의 불법 복제는 비디오 시장의 성장에 큰 우려가 되고 있다. 상업 사이트의 비디오는 대체로 텍스트로 태그(tag)되고, 이러한 태그는 저작권 침해를 방지하기 위한 약간의 정보를 제공한다.

비디오 콘텐츠(contents)는 다양한 전송 스트림(stream)을 통해 널리 배포된다. 이러한 배포 과정에서, 비디오 시퀀스(sequence)는 고의적으로 또는 인코딩 아티팩트(encoding artifacts), 로고 삽입(logo insertion), 리사이징(resizing) 등에 의해 변경될 것이다. 비디오 시퀀스가 시청을 위한 장치에 도달하면, 변경된 비디오의 정확한 식별을 위한 방법은 적어도 네 가지 이유로 바람직하다. 먼저, 콘텐츠 제작자는 종종 영화나 TV 프로그램과 같은 비디오 시퀀스를 제작하기 위해 많은 자원을 투자한다. 변경된 비디오의 정확한 식별은 불법 복제를 억제함으로써 콘텐츠 제작자의 투자를 보호할 수 있다. 둘째로 변경된 비디오의 정확한 식별은 아이들이 보기에 적합하지 않은 자동 차단을 통해 부모들의 보다 효율적으로 통제를 할 수 있게 한다. 셋째로, 변경된 비디오의 정확한 식별은 식별된 비디오 시퀀스의 자동 시청자 측정을 할 수 있다. 넷째로, 변경된 비디오의 정확한 식별은 향상된 인터넷 TV의 ATSC(Advanced Television Standards Committee) 2.0 표준의 요구 사항이다.

여러 관련 기술 방법은 영상 재생 장치에서 비디오 식별을 할 수 있게 한다. 그러나, 상기 여러 관련 기술 방법은 변경에 정확한 식별 강건함을 제공하지 않는다. 예를 들어, 비디오 콘텐츠의 텍스트 태그는 비디오 식별의 간단한 방법이다. 예를 들어, 영화는 영화의 제목, 감독, 작가, 프로듀서, 스튜디오, 출연진, 장르 등등의 정보를 담은 텍스트 태그를 포함할 수 있다. 그러나, 상기 태그는 유통 과정 중 또는 해적판에 의해, 손상되고, 대부분의 시간이 수동으로 배치되어야 한다. 해적판은 그들의 불법 복제가 검출되지 않도록 식별 태그를 제거할 것이다. 스테가노그래피(Steganography)는 식별정보가 모호하게 포함되어있는 비디오의 식별 방법이다. 예를 들어, 식별 정보는 키 프레임의 각 백 번째 픽셀의 최하위 비트를 사용함으로써 숨겨질 수 있다. 이러한 비디오에 정보를 넣는 방법은 인간의 눈으로는 실질적으로 감지할 수 없다. 그러나, 이러한 방법은 변경, 특히 노이즈 삽입에 의해 방지할 수 있다.

비디오 핑거프린팅은 쉽게 노이즈 공격에도 대응할 수 있는 식별 방법이다. 상기 비디오 핑거프린팅은 두 단계를 포함한다. 첫 번째 단계는, 컴팩트(compact) 핑거프린트와 시그니처(signature)가 비디오로부터 추출되는 특성(feature) 추출 단계이다. 두 번째 단계는, 이러한 시그니처를 저작권 비디오의 데이터 베이스와 쿼리(query) 비디오가 결정된 상태에 대해 일치시키는 매칭 단계이다. 일반적인 특성 추출 및 매칭 알고리즘(algorithms)에 대해 알려진 기술과 그 단점을 후술에서 설명한다.

여러 비디오 핑거프린팅 어플리케이션(application)의 첫 번째 단계는 비디오에서 키 프레임을 식별하는 것인다. 키 프레임은 동작의 전역(global) 강도의 극 값에 해당한다. 그러나, 키 프레임 선택 알고리즘은 연산 집약적이다. 더욱이, 키 프레임 선택은 심한 압축 또는 카메라 캡쳐와 같은 많은 수정에 의해 영향을 받을 수 있다. 그러므로, 비디오 핑거프린팅을 위한 전체 비디오 시퀀스를 이용하는 방법이 선호된다. 추출된 특성은 이미지(image) 도메인, 변환 도메인에서 전체적일 수 있고, 또는 이미지 도메인에서 국소(local)적일 수 있다.

스칼라블(Scalable) 컬러(Color) 기술, 컬러 레이아웃(Color Layout) 기술, 엣지(Edge) 히스토그램(histogram) 기술과 같은 전역 특징은 비디오 클립(clip) 매칭에 사용되어 왔다. 그러나 일반적으로, 국소 이미지 특징은 조작(비디오 조작/수정)에 더욱 강건하기 때문에 전역적인 특징이 선호된다.

CFMT(Compact Fourier Mellin Transform) 기술은 매칭을 위한 간결하고 기술적인 핑거프린트를 제공한다. 그러나, 다른 도메인에 이미지 프레임을 변형하는 것은 상당한 계산 복잡성을 초래한다.

SIFT(Scale Invariant Feature Transform)과 컴팩트한 버전, PCA(Principal Component Analysis)-SIFT와 같은 국한된 신호 포인트 특징은 비디오 핑거프린트 문제에 대한 유망한 결과를 가져왔다. 관심 포인트 특징은 또한 생성하기에 비용이 많이 든다. 매칭 알고리즘은 상당한 처리 리소스를 필요로 순서없이 관심 포인트 쌍의 많은 수의 비교를 포함한다.

그라디언트 오리엔테이션(Gradient Orientaion)의 센트로이드(Centroid)와 그라디언트 매그니튜드(Gradient Magnitude)의 센트로이드와 같은 비디오 핑거프린팅을 위한 낮은 복잡도 국소 특징 알고리즘은 자주 쓰이지만, 그라디언트 기반 특징은 노이즈에 민감하고 비디오의 높은 주파수 콘텐츠에 영향을 끼치는 조작에 강건하지 않다.

서수(Ordinal) 특징은 비디오의 간결한 바이너리(binary) 시그니처를 얻기 위해 사용되어 왔다. 그렇지만 서수는 재-계산 집약적이다.

MPEG(Motion Picture Expects Group)-7 비디오 시그니처 방법은 단순한 특성 추출 프로세스를 가지지만, 그 성능은 주로 전처리(pre-processing)단계에 의존한다. 이러한 접근은 비디오 데이터베이스에 특별하게 익숙한 다수의 블록들에 의해 미리 결정되고, 다른 비디오 데이터베이스에서는 동작하지 않을 것이다.

두 핑거프린트 사이의 거리 또는 차이를 계산하기 위한 몇 가지 방법이 있다. 단순 유클리드(Euclidean) 거리가 많이 쓰이지만, 조작이 많이 이루어지거나 국소적이라면 실패한다. 쿼리 길이가 짧을 때, 하우스도프(Hausdorff) 거리, 부분 하우스도프 거리, 그리고 제안된 변형 유클리드 거리와 같은 더욱 정교한 거리를 측정한다. 최종 매칭은 대체로 표준 임계치에 의해 얻어진 거리를 비교함으로써 결정된다. 하우스도프 기반 거리는 프레임이 순열로 배치된 실용적 경우에서 잘 동작하게 설계되었기 때문에 비용이 많이 든다. 이러한 매칭 기술은 비디오 핑거프린팅에 지나치고, 계산의 복잡도 오버헤드가 적당하지 않다. 그러므로, 자연적으로 국소적으로 된 많은 조작에 강건한 것처럼 효과적으로 계산될 수 있는 핑거프린트 거리 측정이 요구된다.

더욱이, 특성 추출 과정에서, 낮은 계산 복잡성을 갖는 것은 실용적인 어플리케이션을 위해서 중요하다. 비디오 핑거프린팅 알고리즘이 휴대용 장치에서 구현되어야 할 때, 곱셈기에 상당한 계산 불이익이 부과될 수 있다.

따라서, 비디오에 심각한 변경이 있은 후에도 비디오를 정확하게 식별할 수 있는 강건한 낮은 복잡도 비디오 핑거프린팅 장치 및 방법이 필요하다.

본 발명은 비디오의 심각한 변경이 있은 후에도 비디오를 정확하게 식별할 수 있는 강건한 낮은 복잡도 비디오 핑거프린팅 장치 및 방법을 제공함에 목적이 있다.

본 발명의 실시 예에 따라 강력한 낮은 복잡도 비디오 핑거프린팅을 위한 방법이 제공된다. 각 비디오 시퀀스를 위해서 본 발명은 다수의 프레임을 포함하고, 상기 프레임의 부분을 제거하는 과정과. 프레임의 잔여 부분을 블록으로 나누는 과정과, 각 블록을 서브 블록으로 나누는 과정과, 블록 내에 각 서브 블록의 픽셀을 의미하는 블록 레벨 특성을 계산하는 과정과, 모든 블록 레벨 특징을 연결하는 과정과, 비디오 시퀀스에서 모든 프레임의 특징을 연결하는 과정을 포함한다.

본 발명의 다른 실시 예에 따라 강력한 낮은 복잡도 비디오 핑거프린팅을 위한 장치가 제공된다. 상기 장치는 다수의 프레임을 포함하는 각 비디오 시퀀스의 프레임의 부분을 제거하고, 프레임의 잔여 부분을 블록으로 나누고, 각 블록을 서브 블록으로 나누고, 블록내의 각 서브 블록에서 픽셀을 의미하는 블록 레벨 특징을 계산하고, 프레임에서 모든 블록 레벨 특징을 연결하고, 비디오 핑거프린트로써 비디오 시퀀스의 모든 프레임의 특징을 연결하는 적어도 하나의 프로세서와 특징 추출 모듈을 포함한다.

본 발명의 또 다른 실시 예에 따르면, 미리 계산된 다수의 비디오 핑거프린트의 비디오 핑거프린트와 쿼리(query) 비디오 시퀀스의 쿼리 비디오 핑거프린트를 매칭시키는 방법이 제공된다. 상기 방법은 다수의 미리 계산된 비디오 핑거프린트로부터 후보 비디오 핑거프린트를 선택하는 과정과, 후보 비디오 핑거프린트의 후보 클립을 결정하는 과정과, 만일 거리가 미리 결정된 임계 값보다 작다면 쿼리 비디오 핑거프린트와 후보 클립 사이의 거리를 계산하는 과정과, 거리가 미리 결정된 임계값보다 좁지 않은 경우, 쿼리 비디오 시퀀스를 후보 비디오 핑거프린트에 매칭 시키는 것을 결정하는 과정과, 슬라이딩 윈도우와 비교함으로써 후보 비디오 핑거프린트의 새로운 후보 클립을 결정하는 과정을 포함한다.

본 발명의 더욱 또 다른 실시 예에 따르면, 복수의 미리 계산된 비디오 핑거프린트의 비디오 핑거프린트와 쿼리 비디오 시퀀스의 쿼리 비디오 핑거프린트를 매칭시키는 장치가 제공된다. 상기 장치는, 미리 계산된 다수의 비디오 핑거프린트로부터 후보 비디오 핑거프린트를 선택하는 과정과, 후보 비디오 핑거프린트의 후보 클립을 결정하는 과정과, 쿼리 비디오 핑거프린트와 후보 클립 사이의 거리를 계산하는 과정과, 만일 미리 결정된 임계치 보다 거리가 적을 경우 후보 비디오 핑거프린트와 쿼리 비디오 시퀀스를 매칭시키는 것을 결정하는 과정과, 만일 미리 결정된 임계치보다 거리가 적지 않을 경우 슬라이딩 윈도우를 비교하여 후보 비디오 핑거프린트의 새로운 후보 클립을 결정하는 적어도 하나의 프로세서와 핑거프린트 매칭 모듈을 포함한다.

본 발명의 더 더욱 또 다른 실시 예에 따르면, 비디오 핑거프린팅을 위한 방법이 제공된다. 상기 방법은 비디오 시퀀스의 각 프레임에 있어서, 다수의 프레임을 포함하고, 프레임의 부분을 제거하는 과정과, 프레임의 잔여 부분을 오버래핑되지 않은 블록으로 나누는 과정과, 각 블록에 있어서, 수평측의 Gx 그라디언트와 수직축의 Gy 그라디언트를 계산하는 과정과, 블록의 그라디언트 크기 G를 G = abs(Gx) + abs(Gy)로 계산하는 과정과, 그라디언트 비율 GR을 GR = Gx/G, GR = Gy/G, or GR = w1*Gx/G + w2*Gy/G로, (여기서 w1과 w2는 w1+w2=1이 되는 것과 같은 블록 배향에 따라 결정되는 가중 계수를 의미한다) 계산하는 과정과, GR을 비디오 시퀀스의 비디오 핑거프린트로 사용하는 과정을 포함하는 것을 특징으로 한다.

본 발명의 더 더 더욱 또 다른 실시 예에 따르면, 비디오 프로세싱 시스템에서 비디오 핑거프린팅을 위한 방법이 제공된다. 상기 방법은 입력 비디오 클립을 수신하는 과정과, 입력 비디오 클립으로부터 콤팩트 비디오 핑거프린트를 추출하는 과정과, 알려진 비디오 클립과 관련된 미리 결정된 다수의 비디오 핑거프린트를 포함하는 비디오 데이터베이스를 액세스하는 과정과, 미리 계산된 다수의 비디오 핑거프린트와 추출된 비디오 핑거프린트를 비교하는 과정과, 비디오 데이터베이스에서 입력 비디오 클립 핑거프린트가 존재하는지 여부를 결정하는 과정과, 입력 비디오 클립과 가장 유사한 알려진 비디오 클립을 식별하는 과정을 포함한다.

본 발명의 실시 예를 따르면 비디오에 심각한 변경이 있은 후에도 비디오를 정확하게 식별할 수 있는 강건한 낮은 복잡도 비디오 핑거프린팅 장치 및 방법이 제공된다.

도 1은 본 발명의 실시 예에 따른 비디오 핑거프린팅의 블록도를 도시한다.
도 2는 본 발명의 실시 예에 따른 마진(margin) 제거의 예를 도시한다.
도 3은 본 발명의 실시 예에 따른 각 블록 내의 4 서브 블록과 프레임에서 16블록을 도시한다.
도 4는 본 발명의 실시 예에 따른 핑거프린팅 매칭 모듈의 높은 레벨 블록도를 도시한다.
도 5는 본 발명의 실시 예에 따른 슬라이딩 윈도우 비디오 핑거프린트 매칭 기술의 예를 도시한다.

이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명은 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법에 관한 것이다.

도 1은 본 발명의 실시 예에 따른 비디오 핑거프린팅 시스템의 높은 레벨 블록도를 도시한다. 도 1을 참조하면, 전형적인 비디오 프린팅 시스템에서 비디오의 콤팩트 다이제스트(digest)(핑거프린트)는 가장 먼저 추출되고, 이는 핑거프린트 추출이라고도 불린다. 110 단계에서 비디오 클립은 입력된다. 120 단계에서 상기 비디오 클립은 전 처리를 거친다. 130 단계에서 비디오 클립으로부터 특징이 추출된다. 140 단계에서 추출된 특성에 따라 비디오 핑거프린트가 결정된다.

미리 계산된 핑거프린트는 비디오의 데이터베이스를 위해 이미 존재하는 것으로 가정한다. 예를 들어, 영화 스튜디오들은 제작 또는 출시한 모든 영화들을 위한 비디오 핑거프린트의 데이터베이스를 유지할 수 있다. 쿼리의 비디오 클립을 감안할 때, 그 핑거프린트는 추출되고 데이터베이스에 있는 핑거프린트와 비교된다. 결국, 쿼리 비디오 클립은 데이터베이스의 일부인지 아닌지, 즉, 데이터 베이스에서 어떠한 비디오 핑거프린트에 충분히 근접한지 여부와, 쿼리 클립과 가장 유사한 데이터베이스에서 비디오 클립을 식별하는지 여부를 결정한다. 이 것은 핑거프린트 매칭 단계이다.

도 2는 본 발명의 실시 예에 따른 마진 제거의 예를 도시한다. 비디오 클립(200)을 감안할 때, 색공간에서 오직 YUV와 같은 휘도(luminance) 요소(Y)가 추출된다. 그 다음, 마진(210,220,230,240)을 잘라내어 프레임들의 사전 프로세싱이 수행된다. 마진(210,220,230,240)은 패딩 조작에 의해 손상될 수 있고, 따라서 경우에 따라 매우 낮은 유용한 정보를 제공할 수 있다. 도 2에 도시된 바와 같이, 프레임의 모든 측면에서 마진의 미리 결정된 부분 m%이 제거된다. 예를 들어, m=10%면 마진(210)과 마진(230) 각각은 0.1y가 되고, 마진(220)과 마진(240)이 각각 0.1x가 된다. 여기서, x는 프레임의 가로 폭이고, y는 프레임의 수직 높이이다. 위의 예가 프레임의 마진을 제거함에도 불구하고, 본 발명은 이에 한정되지 않는다. 예를 들어, 코너(corner)가 일관되고 신뢰할 수 있는 비디오 핑거프린트를 제공할 가능성이 적다고 결정되면 코너는 제거될 수 있다.

일반적으로, 마진(210,220,230,240)은 네 개의 서로 다른 값일 수 있는 프레임의 네 면(수직에서 둘, 수평에서 둘)에서 제거될 수 있다. 마진(210,220,230,240)을 제거한 후, 프레임(200)의 잔여 부분은 직사각형 블록으로 나누어 지고, 특성은 이러한 블록에서 계산된다.

도 3은 본 발명의 실시 예에 따른 각 블록 내의 4 서브 블록과 프레임에서 16블록을 도시한다. 블록 레벨 특징을 추출하기 위해서, 매 블록(310)은 네 개의 서브 블록(320)으로 나누어지고, 계산된 블록 레벨 특징은 블록(310) 내에서 매 서브 블록(320)을 의미한다. 예를 들어, 전체 프레임(300)은 각각 같은 길이와 높이로 16(4x4) 블록으로 나누어지고, 블록(310)은 각각 같은 길이와 높이로 매 블록(310) 내의 4(2x2) 서브 블록으로 나누어진다. 그러나 본 발명은 이에 한정되지 않는다. 통상적으로, 프레임(300)에서 블록(310)의 수는 m*n이 될 수 없고, 서브 블록(320)의 수는 p*q가 될 수 없다. 여기서, m,n,p 각각은 양의 정수이다. 직사각형 블록과 서브 블록은 그러므로 직사각형 프레임에 관해서는 쉽게 결정된다. 이러한 예가 사각형 블록을 사용함에도 불구하고, 본 발명은 이에 한정되지 않는다. 예를 들어, 육각 모양의 테셀레이션(tessellated) 형상을 갖는 블록이 사용될 수 있다. 갭(gap)이 프로세싱 중 원하지 않는 증가를 일으킬 수 있는 모양을 오버래핑하는지 중요한 데이터를 포함하는지의 여부를 예측하는 것이 불가능할 수도 있기 때문에 테셀레이션(tessellated) 형태가 선호된다.

최종 비디오 핑거프린트는 매 프레임(300)마다 모든 블록 레벨 특징의 연속이고, 결국 비디오 시퀀스에서 모든 프레임에 해당한다. 서브 블록(320)과 블록(310)에서 픽셀을 의미하는 비디오 핑거프린트는 본 발명의 실시 예에 따라 계산적으로 매우 효율적이고 간단하다. 첫 번째 순서 통계에만 의존적이다.

도 4는 본 발명의 실시 예에 따른 핑거프린팅 매칭 모듈의 높은 레벨 블록도를 도시한다. 도 4를 참조하면, 411 단계에서 미리 계산된 비디오 핑거프린트의 데이터베이스는 준비된다. 413 단계에서 후보 비디오 시퀀스가 선택되고, 415 단계에서 대응하는 비디오 핑거프린트와 쿼리 비디오가 결정된다. 쿼리 클립이 후보 비디오 시퀀스에서 비디오 클립의 변경된 버전인지 결정되어야 한다. 따라서, 417 단계에서 윈도우 크기가 후보 비디오에서의 쿼리 비디오 클립 길이와 완벽하게 일치되는지 결정되어야 하는 슬라이딩 윈도우 접근이 사용된다. 그리고 쿼리와 후보 비디오 클립 매치의 여부가 검증되어야 한다. 417 단계에서 슬라이딩 윈도우 기술은 후술에서 도 5를 참조하여 보다 상세하게 설명된다. 매칭은 후보 클립과 비디오 시그니처를 사용하는 쿼리 클립 사이의 거리를 계산함에 따라 결정된다. 최종 거리는 세 단계를 거쳐 획득된다. 419 단계에서 블록 거리가 계산되고, 421 단계에서 블록 거리에 기반한 프레임 거리가 계산되고, 423 단계에서 프레임 거리에 기반한 비디오 거리가 계산된다. 425 단계에서 비디오 거리가 정규화되고, 정규화된 비디오 거리는 427 단계에서 미리 결정된 임계치와 비교된다. 만일 정규화된 비디오 거리가 미리 결정된 임계치 보다 더 적다면 429 단계에서 쿼리 비디오 후보 비디오 시퀀스에 매칭되는 것으로 결정된다.

도 5는 본 발명의 실시 예에 따른 슬라이딩 윈도우 비디오 핑거프린트 매칭 기술의 예를 도시한다. 도 5를 참조하면, 후보 비디오 핑거프린트(500)는 슬라이드 된 쿼리 비디오 핑거프린트(540)와 비교된다. 후보 클립(510,520,530)은 각각 쿼리 비디오 핑거프린트(540)와 같은 길이를 갖는다. 쿼리 비디오 핑거프린트(540)는 후보 비디오 핑거프린트의 후보 클립(510)에 비교되고, 다음 후보 클립(520)에 비교된 후, 그 다음 후보 클립(530)에 비교 된다. 각 후보 클립(510,520,530)은 후보 쿼리 비디오 핑거프린트와 같은 길이를 갖고, 이전 후보 클립보다 나중 시작점을 갖는 후보 비디오 핑거프린트(500)의 부분이다. 본 발명의 실시 예에 따른 후보 클립(510,520,530)은 이에 한정되지 않는다. 예를 들어, 슬라이딩 윈도우는 오버랩하지 않는 후보 클립(510,520,530)일 수 있고, 후보 비디오 핑거프린트(500)의 대략적으로 대표 샘플을 제공한다. 일반적으로, 하나의 후보 클립의 시작점과 다음 클립 사이의 증가가 적을 수록, 더욱더 높은 정확도가 획득된다. 그러나, 증가된 처리 비용이 요구된다. 그러므로 더욱 큰 시간 증가가, 예제가 더욱 가까운 비교에 매치될 가능성이 높은 것으로 결정하기 위해 첫 번째 패스에 오버랩하지 않는 슬라이딩 윈도우와 함께 사용된다.

419 단계에서 블록 거리를 계산하기 위해, 후보 클립 블록과 쿼리 클립 블록 사이의 구조적 유사성을 계산하는 일반적인 메트릭(metric) SSIM(Structural Similarity Index)가 요구된다. 블록 X와 블록 Y 사이의 상기 SSIM은 수학식1에 의한 공분산 계수와 평균 계수의 곱으로 수학적으로 쓸 수 있다.

여기서 μ_x, σ_x는 X의 블록 평균과 블록 분산, 그리고 유사하게 μ_y, σ_y는 Y의 블록 평균과 블록 분산을 나타낸다. 여기서, C1 과 C2는 상수로, 계산에 의한 약간의 영향, 또는 0 에러에 의해 나누어지는 것을 방지하기 위해 작을 수 있다. 또한 SSIM(X,Y)는 0 < SSIM(X,Y) < 1 이고, σxy는 X와 Y 사이의 공분산이다.

공분산 계산이 블록의 모든 픽셀에서 필요로함에 따라 각각의 블록에서 어떠한 특성 추출 모듈에 의해 X와 Y의 사이의 공분산이 정확히 계산되지 못하는 이유 때문에 SSIM은 비디오 핑거프린팅에 사용될 수 없다. 이러한 특성은 원래의 블록과 쿼리 블록 모두에서 독립적으로 계산되고, 공분산 계산은 불가능하다. SSIM의 이러한 제한을 극복하고 비디오 핑거프린팅에 유사한 지각 메트릭을 적용하기 위해, PDM(Perceptual Distance Metric)은 후술과 같이 정의된다.

첫 째로, 매 블록은 앞서 설명한 것과 같이 서브 블록의 그룹에 의해 근사화되고, σ_x’ σ_y’` 과 σ_xy’는 서브 블록 평균 통계를 사용하여 계산된다. 블록 X의 서브 블록 평균을 {μ_x ^i`}_i=1.. _Nx 라고 표현한다. 여기서, N_x는 블록 X에서 서브 블록의 수이다. 유사하게, 블록 Y의 서브 블록을 {μ_y ^i`}_i=1.. _Ny 이라 표현한다. σ_xy’의 첫 근사는 서브 블록 평균을 사용하여 결정된다. 분산 계산이 상기 공분산 계산과 일치하기 위해, σ_x’과 σ_y’는 직접 이미지의 픽셀 값을 대신하여 서브 블록 평균 값을 사용하여 계산된다. σ_x’와 σ_y’ 그리고 σ_xy’는 수학식2, 수학식3, 그리고 수학식4에 따라서 결정된다.

블록 거리 측정은 X와 Y 값이 비슷할 때 작은 값을 갖고, X와 Y 값이 다를 때 큰 값을 갖는다. 그러므로, 블록 거리(block PDM(Perceptual Distance Metric))는 수학식 5와 같이 정의된다.

비디오 핑거프린트에 사용될 수 없는 SSIM에 기반한 블록 거리 메트릭(metric)을 효과적으로 근사화함에 따라 이러한 선택은 매 블록의 특징에 따른 서브 블록 평균 선택의 원인이 된다. 유사점과 같이, 이러한 것은 서브 블록 평균을 사용하는 특정 값에 블록의 코스(coarse) 레벨 양자화로 보일 수 있다.

421 단계에서, 블록 레벨 거리 {PDM(Xi,Yi)}_i=1..N의 순서 통계에 따라 프레임 레벨 거리는 계산될 수 있다. 여기서 N은 프레임에서 블록의 수를 의미한다. 이러한 접근은 프레임에서 블록의 수에 제한에 대해서, 계산상 그리고 용량 상 효율적이다. 선택 알고리즘은 블록 레벨 거리로부터 프레임 레벨 거리를 계산한다. 순서 통계는 국소적인 블록 레벨 조작에 특히 강력하다. 예를 들어, 중간 값을 기준으로하는 메트릭은 첨부된 캡션과 같은 로그 조작에 강력하다. 그렇지만, 50 퍼센트 이상의 블록들이 심각한 조작에 의해 영향을 받을 때, 중간은 좋은 선택이 되지 않을 수 있다. 본 발명의 실시 예에 따른 순서 통계의 순위는 심하게 변경된 블록은 무시되어서 선택된다. 예를 들어, 16 블록이 사용될 때, 랭크(rank)는 7로 설정된다. (약 백분위로 40 퍼센트 정도)

423 단계에서, 비디오 레벨 거리는 모든 블록 레벨 거리의 평균으로 계산된다. 비디오 클립에서 프레임의 수는 전형적으로 크고, 평균이 전반적인 매칭 계산 복잡도를 감소시키는 것과 같은 통계를 사용할 수 있다. 또한, 대부분의 실제 조작은 프레임을 임시적이 아닌 공간적으로 영향을 미친다. 그러므로, 프레임 레벨 거리의 평균 측정을 임시로 계산하는 것은 비디오 클립 거리를 계산하기에 일반적으로 충분하다.

425 단계에서 비디오 레벨 거리는 정규화된다. PDM은 지각 유사성 메트릭이다. 쿼리 클립을 감안하여, PDM은 데이터베이스에서 후보 비디오 클립 시그니처와 쿼리 클립 시그니처 사이의 근접성에 이해를 제공한다. 임계치와 비교하여 일치 여부를 결정해야 한다. 본 발명의 실시 예에 따라, PDM의 절대 값이 고정 임계치를 결정하기에 유용하지 않음에 따라 임계치는 쿼리 클립에 적용될 필요가 있다. 그러므로, 본 발명의 실시 예에 따라, 매 쿼리 클립은 데이터 베이스에서의 쿼리 클립과 다르게 표준이 되는 비디오의 작은 집합과 비교된다. 임계치와 비교함으로써 매칭이 되는지 결정되어야 한다. 본 발명의 실시 예에서 임계치 고정 임계치를 결정하기 위해 유용하지 않은 PDM의 절대 값에 따라 임계치는 쿼리 클립에 적용될 필요가 있다. 그러므로 본 발명의 실시 예에 따라, 모든 쿼리 클립은 데이터베이스에서 쿼리 클립과 다른 표준 비디오의 집합과 비교되고, 이러한 표준 비디오 거리 값은 후보 클립에 대하여 계산된 거리를 정규화하기 위해 사용된다. 표준 비디오에 대한 비디오 클립 ‘q’의 표준 비디오 거리 {cⁱ}는 d(q,cⁱ)_i=1…M로 표시된다. 여기서, M은 표준 비디오의 수이다. d(p,q)로 표현되는 쿼리 클립 'q'와 후보 클립 'p' 사이의 거리는 수학식 6에 의해 dⁿ(p,q)를 얻기 위해 정규화된다.

상술한 바와 같이 정규화된 거리는 본 발명의 정확도를 향상시키지만, 본 발명은 이에 한정되지 않는다. 예를 들어, 거리의 정규화는 본 발명의 실시 예에서 선택적으로 포함되거나 제외될 수 있다.

이 단계는 전형적으로 1에 가까운 비디오 거리 값을 생성하고, 만일 값이 0에 가까우면 매칭시키고, 만일 값이 1에 가까우면 매칭시키지 않는다. 주의할 것은, 정규화 단계의 결과에 따라 매우 적은 추가 계산이 수행될 수 있다.

본 발명의 다른 실시 예에 따라, PDM, 그라디언트 기반, 또는 다른 방법은 쿼리와 원본 비디오의 낮은 해상도 버전에 적용된다. 낮은 해상도 버전은 로우패스(lowpass) 필터링과 원본의 다운 샘플링(down sampling)에 의해 얻어질 수 있다. 이러한 것은 강한 노이즈를 제공하고 계산의 필요를 줄인다. 저해상도 버전이 서로 비디오 시퀀스를 구별하기에 충분하기 때문에 성능은 유지 혹은 향상될 것이다.

본 발명의 또 다른 실시 예에 따라, 쿼리와 후보 프레임 이미지는 오버래핑되지 않은 블록으로 분할된다. 각 블록에 있어서, 수평축과 수직축의 그라디언트는 계산된다. 즉, x축과 y축은 Gx와 Gy로 표시된다. 그러므로, 블록의 그라디언트 크기는 G = abs(Gx) + abs(Gy)이고, 그라디언트 비율은 GR = Gx/G 또는 GR= Gy/G에 기반하여 계산되고, 또는 가중 조합은 G = w1*Gx/G + w2*Gy/G으로 표시된다. 여기서, w1과 w2는 w1 + w2 =1 에 의해 결정될 수 있다. 이러한 그라디언트 비율은 비디오 핑거프린트의 기능을 수행할 수 있다.

본 발명의 또 다른 실시 예에 따라, CGO(Centroid of Gradient Operator) 특성은 PDM 체계에서 포함될 수 있다. CGO에서 각 픽셀(x,y)의 그라디언트 계산 후, 즉, 블록 B에서 Gx와 Gy에 대해 그라디언트 크기는 수학식7과 같다.

그리고, 이미지의 오리엔테이션은 수학식8과 같다.

상술한 계산은 각 픽셀 레벨에서 계산된다.

그 후, 블록 B에 대한 그라디언트 도메인에서 그라디언트 연산자의 평균과 분산은 수학식9와 같다.

PDM에 의한 B 와 A 2 블록과, μ_G,B, μ_G,A, σ² _G,B, σ² _G, _A 를 위한 그라디언트 연산자의 평균과 분산의 계산 후 그라디언트 오퍼레이터 요소는 수학식 10에 의해 계산될 수 있다.

S_μ(B,A) 와 S_σ(B,A) 같은 요소들은, 융합될 수 있다. 예를 들면, 두 요소를 생성하기 위해 같이 곱해질 수 있고, PDM을 보강하고, 비디오 핑거프린팅 시스템의 전반적인 성능을 향상시키기 위해 블록 평균, 블록 분산, 공분산 요소(다양한 요소를 생성하기 위한)와 함께 곱해질 수 있다.

본 발명의 또 다른 실시 예에 따르면, 프레임 레벨 거리를 계산하기 위한 순서 통계의 조합이 사용된다. 예를 들어, 16 블록 케이스에서 랭크 7이 사용되는 대신, 6,7,8 랭크의 평균이 사용될 수 있다. 일반적으로, 프레임 거리 측정을 계산하기 위한 다수의 순서 통계의 조합이 사용될 수 있다.

본 발명의 또 다른 실시 예에 따라, PDM 기반 기술은 블록의 차이로 연장된다. 다수의 블록의 서브 블록 평균 사이의 차이점은 특성 벡터로 사용될 수 있다. 이것은 비디오 프린트에서 블록 간 관계를 캡쳐한다.

본 발명의 또 다른 실시 예에 따라, 분산을 사용하는 것 대신, 첫 번째 순서 모멘트가 사용된다. 이러한 접근은 다수를 제거하고, 따라서 계산의 복잡도를 상당히 감소시킨다.

본 발명의 더욱 또 다른 실시 예에 따라, 블록 레벨 거리는 수학식 11에 따라 결정될 수 있다. X는 후보 클립의 프레임의 블록이고, Y는 쿼리 비디오 시퀀스의 프레임의 블록이고, D는 최대 픽셀 강도, μ_x와 μ_y는 X와 Y의 평균, σ_x ²와 σ_y ²는 X와 Y의 블록 분산, σ_xy’는 X와 Y 사이의 공분산 σ_xy’의 근사치를 나타낸다.

예를 들어, 만일 8비트 데이터가 사용되면, D=256이다. 수학식 5에서, PDM (X,Y) 메트릭 범위가 0부터 1인것에 반해, 수학식9는 동일한 목적을 달성하지만, PDM(X,Y)의 범위가 0 부터 2D³까지이다. X와 Y를 나타내는 메트릭 지시자의 작은 값은 유사하지만, 큰 값은 유사하지 않다. 본 발명의 실시 예는 분할을 제거하고, 따라서 계산의 복잡도를 감소시킨다.

수정, 추가 또는 생략이 발명의 범위를 벗어나지 않고 본 명세서에 기술 된 시스템, 장치, 및 방법에 의해 이루어질 수 있다. 예를 들어, 시스템과 장치의 구성이 통합 또는 분리 될 수 있다. 또한, 시스템과 장치의 동작은 더 많은 혹은 더 적은, 혹은 다른 구성에 의해 이루어질 수 있다. 방법은 더 많은, 더 적은 또는 다른 단계를 포함할 수 있다. 또한, 각 단계는 적절한 순서에 의해 이루어 질 수 있다.

본 발명은 일 실시 예와 함께 설명되긴 하였으나, 당해 기술분야에서 통상의 지식을 가진 자에게 다양한 변경 및 수정이 제안될 수 있다. 본 발명은 동봉된 청구항의 범위 내에 속하는 그러한 변경과 수정을 포괄하는 것을 의도한다.

Claims

비디오 핑거프린팅(finger printing)을 위한 방법에 있어서,
다수의 프레임을 포함하는 비디오 시퀀스(sequence)의 각 프레임(frame)에 대하여,
상기 프레임의 일부분을 제거하고, 상기 프레임의 잔여 부분을 블록으로 나누고, 각 블록을 서브 블록으로 나누고, 블록 내의 각 서브 블록에서 픽셀의 평균인 블록 레벨 특성을 계산하고, 상기 프레임에서 모든 블록 레벨 특성을 연결하는 과정과,
상기 비디오 시퀀스에서 모든 프레임의 특성을 연결하는 과정을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
제거된 상기 일부분은, 프레임의 적어도 한 쪽의 마진(margin)을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
제거된 상기 일부분은, 적어도 프레임의 하나의 코너(corner)를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 블록과 서브 블록은 테셀레이션(tessellated) 형태를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 테셀레이션 형태는 직사각 형태를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 테셀레이션 형태는 육각 형태를 포함하는 것을 특징으로 하는 방법.
비디오 핑거프린팅(video fingerprinting) 장치에 있어서,
적어도 하나의 프로세서(processor)를 포함하고, 다수의 프레임(frame)을 포함하는 비디오 시퀀스(sequence)의 각 프레임의 일부분을 제거하고, 프레임의 잔여 부분을 블록으로 나누고, 각 블록을 서브 블록으로 나누고, 블록 내에 각 서브 블록의 픽셀의 평균인 블록 레벨 특성을 계산하고, 프레임에서 모든 블록 레벨 특성을 연결하고, 비디오 핑거프린트로 비디오 시퀀스의 모든 프레임의 특성을 연결하는 특성 추출 모듈(module)을 포함하는 것을 특징으로 하는 장치.
다수의 미리 계산된 비디오 핑거프린트(video fingerprint)의 비디오 핑거프린트와 쿼리(query) 비디오의 쿼리 비디오 핑거프린트를 매칭(matching)시키는 방법에 있어서,
다수의 미리 계산된 비디오 핑거프린트로부터 후보 비디오 핑거프린트를 선택하는 과정과,
후보 비디오 핑거프린트의 후보 클립(clip)을 결정하는 과정과,
쿼리 비디오 핑거프린트와 후보 클립의 거리를 계산하는 과정과,
상기 거리가 미리 결정된 임계치 보다 좁을 경우, 쿼리 비디오 시퀀스를 후보 비디오 핑거프린트에 매칭시키기로 결정하는 과정과,
상기 거리가 미리 결정된 임계치 보다 좁지 않을 경우, 슬라이딩 윈도우(sliding window)의 평균에 따른 비교를 위한 후보 비디오 핑거프린트의 새로운 후보 클립을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
미리 결정된 비디오 특성의 비디오 핑거프린트(video fingerprint)와 쿼리(query) 비디오 시퀀스(sequence)의 쿼리 비디오 핑거프린트를 매칭시키는 장치에 있어서,
상기 장치는 적어도 하나의 프로세서(processor)를 포함하고,
다수의 미리 계산된 비디오 핑거프린트로부터 후보 비디오 핑거프린트를 결정하고, 후보 비디오 핑거프린트의 후보 클립을 결정하고, 후보 클립과 쿼리 비디오 핑거프린트 사이의 거리를 계산하고, 상기 거리가 미리 결정된 임계치보다 가까울 때는 쿼리 비디오 시퀀스를 후보 비디오 핑거프린트에 매칭시키고, 상기 거리가 미리 결정된 임계치보다 가깝지 않을 때는 슬라이딩 윈도우의 평균에 따른 비교를 위한 후보 비디오 핑거프린트의 새로운 후보 클립을 결정하는 핑거프린트 매칭 모듈(module)을 포함하는 것을 특징으로 하는 장치.
제8항 또는 제9항에 있어서,
상기 슬라이딩 윈도우는, 쿼리 비디오 시퀀스의 길이와 같은 길이인 것을 특징으로 하는 방법 또는 장치.
제8항 또는 제9항에 있어서,
상기 거리의 계산은,
쿼리 비디오 시퀀스의 프레임의 블록과, 후보 클립의 프레임의 블록 사이의 블록 레벨 거리를 계산하고, 쿼리 비디오 시퀀스의 프레임과 후보 클립의 프레임 사이의 프레임 레벨 거리를 계산하고, 후보 클립의 모든 프레임과 쿼리 비디오 시퀀스의 모든 프레임 사이의 전반적인 비디오 거리를 계산하는 방법 또는 장치.
제11항에 있어서,
상기 블록 레벨 거리의 계산은 하기 수식에 따른 PDM(Perceptual Distance Metric)을 포함하는 것을 특징으로 하는 방법 또는 장치,

여기서, 상기 X는 후보 클립의 프레임의 블록이고, 상기 Y는 쿼리 비디오의 프레임의 블록이고, 상기 C1과 C2는 상수이고, 상기 μ_x와 μ_y는 X와 Y의 블록 평균이고, 상기 σ_x와 σ_y는 X와 Y의 블록 분산이고, 상기 σ_x’와 σ_y’는 σ_x와 σ_y 의 근사화이고, 상기 σ_xy’는 X 와 Y 사이의 공분산 σ_xy의 근사화를 나타냄.
제12항에 있어서,
상기 프레임 레벨 거리를 계산하는 것은, 블록 레벨 거리 {PDM(Xi, Yi)}_i=1.. _N 의 k번째 작은 값 순서 통계에 의한 계산을 포함하고, 여기서 N은 프레임에서 블록의 수를 의미하는 것을 특징으로 하는 방법 및 장치.
제13항에 있어서,
상기 비디오 레벨 거리는 모든 블록 레벨 거리의 평균에 따라 계산되는 것을 특징으로 하는 장치 및 방법.
제13항에 있어서,
상기 순서 통계는 다수의 랭크(rank)의 평균을 포함하는 것을 특징으로 하는 방법.
제12항에 있어서,
쿼리 비디오 시퀀스와 후보 클립은 쿼리와 원본 비디오에 대응하는 저해상도 버전인 것을 특징으로 하는 방법.
제16항에 있어서,
상기 쿼리와 원본 비디오에 대응하는 저해상도 버전은 원본 버전의 다운샘플링(downsampling)과 로우패스(lowpass) 필터링에 의해 획득되는 것을 특징으로 하는 방법.
제11항에 있어서,
블록 레벨 거리를 계산하는 것은 하기 수학식에 따르는 PDM을 포함하는 것을 특징으로 하는 방법,
PDM(X,Y) = 2D³ - |μ_x- μ_y| |σ_xy’- 0.5 * (σ_x ² + σ_y ²)|
여기서 상기 X는 후보 클립의 프레임의 블록이고, 상기 Y는 쿼리 비디오 시퀀스의 프레임의 블록이고, 상기 D는 최대 픽셀 강도, 상기 μ_x와 μ_y는 X와 Y의 평균, 상기 σ_x ² 와 σ_y ²는 X와 Y의 블록 분산, 상기 σ_xy’는 X와 Y 사이의 공분산 σ_xy의 근사치를 나타낸다.
제8항 또는 제9항에 있어서,
임계치와 거리를 비교하기 전 선택적으로 거리를 정규화시키는 것을 더 포함하는 장치 및 방법.
제19항에 있어서,
상기 정규화는, 미리 결정된 다수의 비디오 핑거프린트에서 쿼리 비디오와 다른 표준 비디오의 비디오 핑거프린트 집합과 쿼리 비디오 핑거프린트를 비교하는 것을 포함하는 것을 특징으로 하는 방법 및 장치.
제20항에 있어서,
상기 비교는 하기 수식에 따른 표준 비디오 거리를 계산하는 것을 특징으로 하는 방법 및 장치,

여기서 상기 q는 쿼리 비디오 시퀀스, 상기 P는 표준 비디오, 상기 M은 표준 비디오의 수, 상기 d(p,q)는 p와 q사이의 거리, 상기 d(q, cⁱ)_i=1..M 는 표준 비디오{cⁱ}까지 q의 표준 비디오 거리, 상기 dⁿ(p, q)는 정규화된 거리.
비디오 핑거프린팅(video fingerprinting)의 방법에 있어서,
다수의 프레임을 포함하는 비디오 시퀀스(sequence)의 각 프레임(frame)에 대해서,
상기 프레임의 일부분을 제거하는 과정과,
오버래핑되지 않은(non-overlapping) 블록으로 프레임의 잔여 일부분을 나누는 과정과,
각 블록에 있어서,
수평축의 그라디언트(gradient) Gx와 수직축의 그라디언트 Gy를 계산하는 과정과,
블록의 그라디언트 크기 G를 G = abs(Gx) + abs(Gy)로 계산하는 과정과,
그라디언트 비율 GR을 GR = Gx/G, GR = Gy/G, 또는 GR = w1*Gx/G + w2*Gy/G으로 계산하는 과정과
GR을 비디오 시퀀스의 비디오 핑거프린트로 사용하는 과정을 포함하고,
여기서 상기 w1와 w2는 w1+w2=1과 같은 블록 오리엔테이션(orientation)에 따라 결정된 가중 계수를 의미한다.
비디오(video) 프로세싱(processing) 시스템에서 비디오 핑거프린팅(fingerprinting)의 방법에 있어서,
입력 비디오 클립(clip)으로부터 신호를 수신하는 과정과,
입력 비디오 클립으로부터 콤팩트(compact) 비디오 핑거프린트를 추출하는 과정과,
알려지지 않은 비디오 클립으로부터 미리 계산된 다수의 비디오 핑거프린트를 포함하는 비디오 데이터 베이스를 엑세스(accessing)하는 과정과, 미리 계산된 다수의 비디오 핑거프린트와 추출된 비디오 핑거프린트를 비교하는 과정과, 입력 비디오 클립 핑거프린트가 현재 비디오 데이터 베이스에 존재하는지 여부를 결정하는 과정과, 비디오 클립 중 입력 비디오 클립과 가장 유사한 비디오 클립을 식별하는 과정을 포함하는 것을 특징으로 하는 방법.