KR20100105578A

KR20100105578A - 비디오 지문의 시간 세그먼트 기반 추출 및 강건한 일치

Info

Publication number: KR20100105578A
Application number: KR1020107012195A
Authority: KR
Inventors: 제인 웬 창; 아포스톨 이바노브 나트세브; 존 알. 스미스
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2007-12-17
Filing date: 2008-11-24
Publication date: 2010-09-29
Also published as: JP2011507081A; EP2240871A4; WO2009076823A1; KR101171536B1; CN101896906B; CN101896906A; US20090154806A1; JP5404644B2; EP2240871A1; US9177209B2

Abstract

시간 이벤트 기반 비디오 지문 분석을 위한 컴퓨터 구현 방법, 장치 및 컴퓨터 프로그램 제품 코드에 관한 것이다. 일 실시예에서는, 비디오 콘텐츠의 이벤트들이 검출된다. 비디오 콘텐츠는 복수의 비디오 프레임을 포함한다. 이벤트는 비디오 콘텐츠의 관심 대상인 이산점들을 나타낸다. 시간 이벤트 기반 세그먼트들의 세트는 이벤트를 이용하여 생성된다. 각 시간 이벤트 기반 세그먼트는 이벤트들의 세트를 커버하는 비디오 콘텐츠의 세그먼트이다. 시계열 신호는, 각 시간 이벤트 기반 세그먼트에 연관된 프레임들의 세트의 콘텐츠 기반 특징들의 시간 추적을 이용하여 각 시간 이벤트 기반 세그먼트로부터 도출된다. 시간 세그먼트 기반 지문은 각 시간 이벤트 기반 세그먼트에 대한 시계열 신호에 기초하여 추출되어 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트가 형성된다.

Description

비디오 지문의 시간 세그먼트 기반 추출 및 강건한 일치{TEMPORAL SEGMENT BASED EXTRACTION AND ROBUST MATCHING OF VIDEO FINGERPRINTS}

본 발명은 일반적으로 데이터 처리 시스템에 관한 것이며 특히 비디오 처리 방법 및 장치에 관한 것이다. 보다 구체적으로, 본 발명은 근접 복제(near-duplicate) 비디오 식별 및 비디오 불법복제 검출을 위한 세그먼트 기반 시간 비디오 지문들의 추출과 강건 일치(robust matching)를 위한 컴퓨터 구현 방법, 장치, 및 컴퓨터 사용 가능 프로그램 코드에 관한 것이다.

온라인 디지털 콘텐츠가 확산되고, 더욱 더 많은 사람들이 온라인 매체에 계속해서 액세스함에 따라, 저작권 보호를 받는 콘텐츠를 식별할 필요성이 증가하고 있다. 예를 들어, 저작권 보호를 받는 오디오 및 비디오 콘텐츠의 소유자들은 소셜 네트워크(social network)와 콘텐츠 공유 사이트 상에서 자신들의 저작권 보호 콘텐츠의 무단 복사물을 식별하여 제거하는 데 관심이 있다. 소셜 네트워크 및 콘텐츠 공유 사이트는 사용자가 음악, 사진 및 비디오와 같은 콘텐츠를 웹사이트의 다른 사용자가 보도록 게시할 수 있게 한다. 소셜 네트워크 및 콘텐츠 공유 사이트로는, YouTube®, Facebook®, MySpace®가 있지만, 이러한 예로 한정되지는 않는다. 이러한 소셜 네트워크 및 콘텐츠 공유 사이트의 사용자들은 불법복제된 영화, 이미지 및/또는 텔레비전(TV) 쇼를 자주 활용한다.

저작권 보호를 받는 오디오 및 비디오 콘텐츠의 소유자는 저작권 소유자가 저작권 보호 콘텐츠의 각 발생에 대하여 적절히 보상받는 것을 보장하기 위해 자신들의 콘텐츠가 인가된 출연을 식별하는 것에도 관심을 갖는다. 예를 들어, 소유자는 특정 노래가 라디오에서 재생될 때마다 적절한 보상 지불을 보장받는 것을 원할 수 있다.

반면에, 광고주들은, 예를 들어, 광고 콘텐츠가 적절한 횟수로 방송되는 것을 확실히 하도록, 텔레비전, 라디오 및/또는 인터넷 상에서의 자신들의 광고의 출연(appearance)을 감시하는 데 관심이 있다. 이러한 적용예들에서는 알려지지 않은 매체, 온라인 비디오, 라디오 및/또는 텔레비전의 저장소(repository)로부터 오디오 및/또는 비디오와 같이 알려져 있는 저작권 보호 디지털 매체의 복사나 근접 복제를 식별하는 것을 공통으로 필요로 한다.

저작권 보호를 받는 콘텐츠를 식별하고 보호하기 위한 현재 이용 가능한 해결책으로는 워터마킹(watermarking) 및 지문 분석(fingerprinting)이 있다. 워터마킹은 가시적 또는 비가시적 워터마크를 비디오 콘텐츠 내에 삽입하며, 이는 콘텐츠의 정당한 소유자를 식별한다. 워터마킹 기술은, 원래의 콘텐츠의 워터마킹된 일부에 기초하여 생성되는 임의의 파생 콘텐츠뿐만 아니라 비디오의 임의의 정확한 복사물에도 워터마크가 자동 전달되도록 설계된다. 이러한 임의의 복사물이나 파생물은, 인가 여부에-상관없이, 복사된 비디오 콘텐츠 또는 파생 비디오 콘텐츠에 내장된 워터마크의 존재를 스캐닝함으로써 식별될 수 있다.

그러나, 비디오 콘텐츠 자체를 파괴하지 않고선 제거되기 어렵게 워터마크를 설계하더라도, 워터마크는 파괴되어 제거될 수 있다. 워터마크가 성공적으로 제거되면, 비디오 콘텐츠는 영구적으로 잠금 해제되고, 더 이상 워터마크를 통해 미인가 복제나 파생을 감시할 수 없으며 그리고/또는 검출할 수 없다.

워터마크의 문제로 인해, 최근에는 콘텐츠 기반 지문 분석 및 콘텐츠의 일치라 칭하는 다른 방안이 주목받고 있으며 그 이유는 콘텐츠 기반 지문 분석이 비디오 콘텐츠의 어떠한 워터마크의 존재에도 의존하지 않기 때문이다. 이러한 방안을 이용하면, 콘텐츠의 모든 피스(piece)가, 의사 워터마크로서 고려되고, 그 콘텐츠의 특유의 시청각적 양태를 특징화하는 하나 이상의 특유의 지문으로 요약된다. 콘텐츠의 두 개의 피스가 서로의 복사물 또는 파생물인지를 식별하기 위해, 그 콘텐츠의 두 개의 피스에 대한 콘텐츠 기반 지문들을 비교한다. 콘텐츠 기반 지문들이 충분히 유사하면, 그 콘텐츠의 두 개의 피스는 복사물, 근접 복제물 또는 파생물이라 선언한다.

콘텐츠 기반 비디오 지문 분석은 비디오에서의 오디오 트랙 또는 음성을 특유하게 특징화하는 오디오 기반 지문 분석법을 포함한다. 콘텐츠 기반 지문 분석은 비디오로부터의 키 프레임들의 추출 및 이러한 키 프레임들의 가시적 특성들을 이용하여 가시적 키 프레임 기반 지문들을 생성하는 것에도 기초한다. 이어서, 이러한 프레임 기반 지문들을 수집하여 각 비디오를 설명한다. 프레임 기반 가시적 특징들은 그 성질상 전체적이거나 국부적일 수 있다. 다시 말하면, 프레임 기반 가시적 특징들은 전체 프레임으로부터 또는 하나의 프레임의 하나 이상의 영역으로부터 추출될 수 있다.

콘텐츠 기반 지문 분석은 통상적으로 많은 공통 편집 동작과 이미지/비디오 처리 변환에 대하여 변하지 않는 유사한 지문들을 필요로 한다. 공통 편집 동작으로는, 자르기(cut), 스플라이싱(splicing), 및/또는 재순서화가 있지만, 이러한 예로 한정되지는 않는다. 이미지/비디오 처리 변환으로는, 크로핑(cropping), 스케일링(scaling), 종횡비 변경, 비디오 리캡처링(re-capturing)이나 재압축, 전체 조명 변경, 색 공간 변환, 색상 축소, 데이터 손상(corruption) 및 잡음 추가가 있지만, 이러한 예로 한정되지는 않는다.

현재 이용 가능한 콘텐츠 기반 지문 분석법은, 강건한 프레임 기반 지문 분석 기술 외에도 주로 지문들의 성공적인 일치가 복잡한 프레임 정렬을 필요로 한다는 사실로 인해, 비디오 복사물에서 관찰되는 적절한 비디오 변환의 범위에 있어서 다양한 성공을 거두는 효과를 발휘한다. 프레임 기반 지문 분석법은 대부분의 변화에 대하여 시불변성을 가져야 한다.

콘텐츠 기반 지문 분석은, 프레임 정렬 문제 및 없어지거나 부정확하게 샘플링된 프레임이 존재하는 경우, 부정확해지고 신뢰할 수 없게 된다. 프레임들의 가시적 외양을 충분히 변경하는 임의의 이미지 처리 변환도 프레임 기반 일치 방안을 무산시킬 수 있다. 다시 말하면, 현재의 콘텐츠 기반 지문 분석은 통상적으로 비디오 샘플이 편집 동작을 거친 복사 및 파생 비디오 콘텐츠를 검출할 수 없다.

예시적인 실시예들은 시간 이벤트 기반 비디오 지문 분석을 위한 컴퓨터 구현 방법, 장치, 및 컴퓨터 프로그램 제품 코드를 제공한다. 일 실시예에서는, 비디오 콘텐츠의 이벤트들이 검출된다. 비디오 콘텐츠는 복수의 비디오 프레임을 포함한다. 이벤트는 비디오 콘텐츠의 관심 대상인 이산점들을 나타낸다. 시간 이벤트 기반 세그먼트들의 세트는 이벤트를 이용하여 생성된다. 각 시간 이벤트 기반 세그먼트는 이벤트들의 세트를 커버하는 비디오 콘텐츠의 세그먼트이다. 시계열 신호는, 각 시간 이벤트 기반 세그먼트에 연관된 프레임들의 세트의 콘텐츠 기반 특징들의 시간 추적을 이용하여 각 시간 이벤트 기반 세그먼트로부터 도출된다. 시간 세그먼트 기반 지문은 각 시간 이벤트 기반 세그먼트에 대한 시계열 신호에 기초하여 추출되어 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트가 형성된다.

본 발명은 근접 복제(near-duplicate) 비디오 식별 및 비디오 불법복제 검출을 위한 세그먼트 기반 시간 비디오 지문들의 추출과 강건 일치(robust matching)를 위한 컴퓨터 구현 방법, 장치, 및 컴퓨터 사용 가능 프로그램 코드를 제공한다.

본 발명을 특징짓는 신규한 특징들은 청구범위에 설명되어 있다. 그러나, 본 발명 자체는, 본 발명의 사용, 추가 목적 및 이점의 바람직한 모드와 함께, 첨부 도면과 더불어 예시적인 일 실시예의 이하의 상세한 설명을 참조함으로써 가장 잘 이해될 것이다.
도 1은 예시적인 실시예들이 구현될 수 있는 데이터 처리 시스템의 네트워크의 도이다.
도 2는 본 발명의 예시적인 일 실시예에 따른 데이터 처리 시스템의 도이다.
도 3은 예시적인 일 실시예에 따라 테스트 비디오에 대한 세그먼트 기반 시간 지문의 생성 및 지문들의 참조 데이터베이스에 대한 일치를 도시하는 블록도이다.
도 4는 예시적인 일 실시예에 따라 저작권 보호 콘텐츠에 대한 시간 세그먼트 기반 지문들의 참조 데이터베이스의 생성을 도시하는 블록도이다.
도 5는 예시적인 일 실시예에 따라 세그먼트 기반 시간 지문 생성기를 도시하는 블록도이다.
도 6은 예시적인 일 실시예에 따라 지문 추출 프로세스를 도시하는 그래프이다.
도 7은 예시적인 일 실시예에 따라 지문 일치 엔진을 도시하는 블록도이다.
도 8은 예시적인 일 실시예에 따라 일치 프로세스를 도시하는 블록도이다.
도 9는 예시적인 일 실시예에 따라 세그먼트 기반 시간 지문을 추출하기 위한 프로세스를 도시하는 흐름도이다.
도 10은 예시적인 일 실시예에 따라 시간 세그먼트 기반 지문을 이용하여 테스트 세그먼트가 참조 비디오와 일치하는지를 결정하기 위한 프로세스를 도시하는 흐름도이다.

도면을 참조하여 특히 도 1과 도 2를 참조해 보면, 예시적인 실시예들이 구현될 수 있는 예시적인 데이터 처리 환경이 도시되어 있다. 도 1과 도 2는 예시적일 뿐이며 서로 다른 실시예들이 구현될 수 있는 환경에 대한 임의의 제한을 주장하거나 암시하려는 것이 아님을 인식하기 바란다. 도시된 환경에 많은 수정을 행해도 된다.

도 1은 예시적인 실시예들이 구현될 수 있는 데이터 처리 시스템들의 네트워크를 도시한 것이다. 네트워크 데이터 처리 시스템(100)은 예시적인 실시예들이 구현될 수 있는 컴퓨터들의 네트워크이다. 네트워크 데이터 처리 시스템(100)은 네트워크 데이터 처리 시스템(100) 내에서 함께 접속된 다양한 장치들과 컴퓨터들 사이의 통신 링크를 제공하는 데 사용되는 매체인 네트워크(102)를 포함한다. 네트워크(102)는 와이어, 무선 통신 링크 또는 광섬유 케이블과 같은 접속부를 포함할 수 있다.

도시한 예에서, 서버(104)와 서버(106)는 저장 장치(108)와 함께 네트워크(102)에 접속된다. 또한, 클라이언트들(110, 112, 114)도 네트워크(102)에 접속된다. 클라이언트들(110, 112, 114)은 예를 들어 퍼스널 컴퓨터 또는 네트워크 컴퓨터일 수 있다. 도시한 예에서, 서버(104)는 부트 파일, 운영 체제 이미지 및 애플리케이션과 같은 데이터를 클라이언트들(110, 112, 114)에게 제공한다. 클라이언트들(110, 112, 114)은 이 예에서 서버(104)에 대한 클라이언트들이다. 네트워크 데이터 처리 시스템(100)은 서버, 클라이언트 및 도시하지 않은 기타 장치를 추가로 포함해도 된다.

도시한 예에서, 네트워크 데이터 처리 시스템(100)은, 프로토콜들의 전송 제어 프로토콜/인터넷 프로토콜(TCP/IP) 군을 이용하여 서로 통신하는 네트워크들과 게이트웨이들의 전 세계적 집합을 나타내는 네트워크(102)를 갖춘 인터넷이다. 인터넷의 중심에는 데이터와 메시지를 라우팅하는 수천 개의 상업용, 관용, 교육용 및 기타 컴퓨터 시스템들로 구성되는 주요 노드들 또는 호스트 컴퓨터들 사이의 고속 데이터 통신 라인들의 백본(backbone)이 존재한다. 물론, 네트워크 데이터 처리 시스템(100)은, 예를 들어, 인트라넷, LAN 또는 WAN과 같은 서로 다른 다수의 유형의 네트워크로서 구현되어도 된다. 도 1은 일례로서 도시된 것이며 서로 다른 예시적인 실시예들의 아키텍처를 제한하려는 것이 아니다.

이제 도 2를 참조해 보면, 본 발명의 예시적인 일 실시예에 따른 데이터 처리 시스템이 도시되어 있다. 이 예시적인 도에서, 데이터 처리 시스템(200)은 프로세서 유닛(204), 메모리(206), 영구 저장 장치(208), 통신 유닛(210), 입력/출력(I/O) 유닛(212) 및 디스플레이(214) 사이에 통신을 제공하는 통신 패브릭(202)을 포함한다.

프로세서 유닛(204)은 메모리(206) 내로 로딩될 수 있는 소프트웨어에 대한 명령어를 실행하도록 기능한다. 프로세서 유닛(204)은 특정 구현예에 따라 하나 이상의 프로세서의 세트이어도 되고 또는 멀티프로세서 코어이어도 된다. 또한, 프로세서 유닛(204)은 메인 프로세서가 이차 프로세서들과 함께 단일 칩 상에 존재하는 하나 이상의 이종 프로세서 시스템을 이용하여 구현되어도 된다. 다른 예시적인 예로서, 프로세서 유닛(204)은 동일한 유형의 다수의 프로세서를 포함하는 대칭형 멀티프로세서 시스템이어도 된다.

이러한 예들에서, 메모리(206)는 예를 들어 랜덤 액세스 메모리 또는 다른 임의의 적절한 휘발성 또는 비휘발성 저장 장치일 수 있다. 영구 저장 장치(208)는 특정 구현예에 따라 다양한 형태를 취할 수 있다. 예를 들어, 영구 저장 장치(208)는 하나 이상의 컴포넌트 또는 장치를 포함할 수 있다. 예를 들어, 영구 저장 장치(208)는 하드 드라이브, 플래시 메모리, 재기입 가능 광 디스크, 재기입 가능 자기 테이프, 또는 이들의 소정의 조합일 수 있다. 또한, 영구 저장 장치(208)에 의해 사용되는 매체는 탈착 가능형일 수 있다. 예를 들어, 영구 저장 장치(208)를 위해 탈착 가능 하드 드라이브를 사용할 수 있다.

통신 유닛(210)은, 이러한 예들에서, 다른 데이터 처리 시스템이나 장치와의 통신을 제공한다. 이러한 예들에서, 통신 유닛(210)은 네트워크 인터페이스 카드이다. 통신 유닛(210)은 물리적 통신 링크와 무선 통신 링크 중 어느 하나 또는 둘 다를 이용하여 통신을 제공할 수 있다.

입력/출력 유닛(212)은 데이터 처리 시스템(200)에 접속될 수 있는 다른 장치들과의 데이터 입력 및 출력을 가능하게 한다. 예를 들어, 입력/출력 유닛(212)은 키보드와 마우스에 의한 사용자 입력을 위한 접속부를 제공할 수 있다. 또한, 입력/출력 유닛(212)은 프린터에 출력을 전송할 수 있다. 디스플레이(214)는 사용자에게 정보를 표시하는 메커니즘을 제공한다.

운영 체제와 애플리케이션이나 프로그램을 위한 명령어들은 영구 저장 장치(208) 상에 위치한다. 이러한 명령어들은 프로세서 유닛(204)에 의해 실행되도록 메모리(206) 내로 로딩될 수 있다. 서로 다른 실시예들의 프로세스들은 메모리(206)와 같은 메모리에 위치할 수 있는 컴퓨터 구현 명령어를 이용하는 프로세서 유닛(204)에 의해 수행될 수 있다. 이러한 명령어들은, 프로세서 유닛(204)의 프로세서에 의해 판독되고 실행될 수 있는 프로그램 코드, 컴퓨터 사용 가능 프로그램 코드, 또는 컴퓨터 판독 가능 프로그램 코드라 칭한다. 서로 다른 실시예들의 프로그램 코드는, 메모리(206)나 영구 저장 장치(208)와 같이 서로 다른 물리적 또는 유형(tangible)의 컴퓨터 판독 가능 매체 상에 구현될 수 있다.

프로그램 코드(216)는, 선택적으로 탈착 가능하며 프로세서 유닛(204)에 의해 실행되도록 데이터 처리 시스템(200) 내에 로딩되거나 전달되는 컴퓨터 판독 가능 매체(218) 상에 기능적 형태로 존재한다. 프로그램 코드(216)와 컴퓨터 판독 가능 매체(218)는 이러한 예들에서 컴퓨터 프로그램 제품(220)을 형성한다. 일례로, 컴퓨터 판독 가능 매체(218)는, 예를 들어, 영구 저장 장치(208)의 일부인 하드 드라이브와 같은 저장 장치 상으로 전달되도록 영구 저장 장치(208)의 일부인 드라이브 또는 기타 장치 내에 삽입되거나 배치되는 광 디스크나 자기 디스크와 같은 유형의 형태로 될 수 있다. 유형의 형태에 있어서, 컴퓨터 판독 가능 매체(218)는 데이터 처리 시스템(200)에 접속되는 하드 드라이브, 썸(thumb) 드라이브, 또는 플래시 메모리와 같은 영구 저장 장치의 형태를 취해도 된다. 컴퓨터 판독 가능 매체(218)의 유형의 형태도 컴퓨터 기록 가능 저장 매체라 칭한다. 일부 경우에, 컴퓨터 판독 가능 매체(218)는 탈착 가능형이 아닐 수 있다.

다른 방안으로, 프로그램 코드(216)는 통신 유닛(210)에 대한 통신 링크를 통해 그리고/또는 입력/출력 유닛(212)에 대한 접속부를 통해 컴퓨터 판독 가능 매체(218)로부터 데이터 처리 시스템(200)으로 전달될 수 있다. 통신 링크 및/또는 접속부는 예시적 예들에서 물리적이거나 무선형이어도 된다. 또한, 컴퓨터 판독 가능 매체는 프로그램 코드를 포함하는 통신 링크 또는 무선 전송과 같은 비유형(non-tangible) 매체의 형태를 취해도 된다.

데이터 처리 시스템(200)을 위해 도시된 서로 다른 컴포넌트들은 서로 다른 실시예들이 구현될 수 있는 방식에 구조적 제한을 가하려는 것이 아니다. 서로 다른 예시적인 실시예들은 데이터 처리 시스템(200)을 위해 도시된 그러한 컴포넌트들에 더하여 또는 대신에 컴포넌트들을 포함하는 데이터 처리 시스템에서 구현될 수 있다. 도 2에 도시한 다른 컴포넌트들은 예시적인 실시예들에 따라 가변될 수 있다.

일례로서, 데이터 처리 시스템(200)의 저장 장치는 데이터를 저장할 수 있는 임의의 하드웨어 장치이다. 메모리(206), 영구 저장 장치(208) 및 컴퓨터 판독 가능 매체(218)는 유형의 형태로 된 저장 장치들의 예이다.

다른 예로, 버스 시스템은 통신 패브릭(202)을 구현하는 데 사용될 수 있으며, 시스템 버스나 입력/출력 버스와 같은 하나 이상의 버스로 구성될 수 있다. 물론, 버스 시스템은 버스 시스템에 접속된 서로 다른 컴포넌트들이나 장치들 사이에 데이터를 전달하는 임의의 적절한 유형의 아키텍처를 이용하여 구현될 수 있다. 또한, 통신 유닛은 모뎀이나 네트워크 아답터와 같이 데이터를 송수신하는 데 사용되는 하나 이상의 장치를 포함할 수 있다. 또한, 메모리는, 예를 들어, 통신 패브릭(202)에 존재할 수 있는 인터페이스와 메모리 컨트롤러 허브에서 발견되는 것과 같은 메모리(206)나 캐시일 수 있다.

인터넷 상에서 공유되는 콘텐츠가 급증함에 따라, 비디오 불법복제(video piracy)의 검출을 개선할 필요성 및 저작권 보호를 받는 자료의 복사물이나 파생물인 비디오 콘텐츠의 식별을 개선할 필요성도 커지고 있다. 현재로는, 워터마크를 비디오 콘텐츠 내에 삽입하여 복사물과 파생물의 식별을 용이하게 할 수 있다. 비디오 콘텐츠 자체를 파괴하지 않고선 제거되기 어렵게 워터마크를 설계하더라도, 워터마크는 파괴되어 비디오 콘텐츠로부터 제거될 수 있다. 워터마크가 성공적으로 제거되면, 비디오 콘텐츠는 영구적으로 잠금 해제되고, 더 이상 워터마크를 통해 미인가 복제나 파생을 감시할 수 없으며 그리고/또는 검출할 수 없다.

다른 해결책으로는, 가시적 콘텐츠 기반 지문 분석(fingerprinting)을 이용하여 저작권 보호를 받는 콘텐츠를 식별한다. 그러나, 현재의 가시적 콘텐츠 기반 지문 분석은, 프레임 정렬 문제 및 없어지거나 부정확하게 샘플링된 프레임이 존재하는 경우, 부정확해지고 신뢰할 수 없게 된다. 또한, 프레임들의 가시적 외양을 충분히 변경하는 임의의 이미지 처리 변환도 종래 기술의 가시적 콘텐츠 기반 지문 분석 및 프레임 기반 일치 방안을 무산시킬 수 있다.

또한, 예시적인 실시예들은, 오디오 콘텐츠 기반 지문 분석이 예를 들어 서로 다른 사운드 트랙들이 있는 영화와 같이 가시적으로는 동일하지만 오디오 트랙들이 수정된 비디오 복제물을 인식할 수 없기 때문에 종래 기술의 오디오 콘텐츠 기반 지문 분석이 불충분할 수 있다고 인식한다. 종래의 방법과 구조의 전술한 문제점 및 기타 예시적인 문제점, 단점 및 약점을 고려할 때, 예시적인 실시예들은 강건한 비디오 불법복제 검출을 위해 시간 세그먼트 기반 비디오 지문을 추출하고 테스트 비디오 시간 세그먼트 기반 지문들과 참조 시간 세그먼트 기반 비디오 지문들과의 일치를 제공하는 방법 및 장치를 제공한다.

일 실시예에서, 프로세스는 비디오 콘텐츠의 이벤트들을 검출한다. 비디오 콘텐츠는 복수의 비디오 프레임을 포함한다. 비디오 프레임들에는 선택 사항으로 대응하는 오디오 트랙이 동반될 수 있다. 비디오 콘텐츠는 비디오 콘텐츠가 알려져 있는 저작권 보호 비디오의 복사물이나 파생물인지를 결정하도록 테스트되고 있는 테스트 비디오일 수 있다. 비디오 콘텐츠는 저작권 보호를 받는 알려져 있는 비디오 콘텐츠이어도 된다.

이벤트는 비디오 콘텐츠에서의 관심 대상인 이산점(discrete point)들을 나타낸다. 이벤트는 오디오의 상당한 상태 변화, 가시적 콘텐츠의 변화, 또는 비디오의 시맨틱(semantic) 콘텐츠의 변화일 수 있다. 예를 들어, 이벤트는 비디오에서의 사람이나 사물의 출연, 장면 변화, 또는 스피커 변경일 수 있다.

시간 이벤트 기반 세그먼트들의 세트는 비디오의 이벤트들의 자동 검출에 기초하여 생성된다. 이 세트는 하나 이상의 시간 이벤트 기반 세그먼트들의 세트를 포함할 수 있다. 각 시간 이벤트 기반 세그먼트는 하나 이상의 이벤트들의 세트를 걸친다(span).

시계열 신호는 각 시간 이벤트 기반 세그먼트 내의 프레임들의 순서화된 시퀀스에 연관된 콘텐츠 기반 특징들의 시간 추적에 기초하여 각 세그먼트로부터 도출된다. 콘텐츠 기반 특징은 오디오 특징이거나 가시적 특징이다. 콘텐츠 기반 특징들은 완전히 가시적 특징으로, 완전히 오디오 특징으로, 또는 오디오 특징과 가시적 특징의 조합으로 구성될 수 있다. 각 시간 이벤트 기반 세그먼트에 대하여 시계열 신호를 요약하고 근사화하는 세그먼트 지문을 추출하여, 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트를 형성한다.

시간 세그먼트 기반 지문들의 세트는, 제1 비디오 클립의 일부분이 제2 비디오 클립과 원래의 동일한 콘텐츠의 복사물이나 파생물인지를 결정하는 데 사용된다. 프로세스는 제1 비디오 클립에 대한 시간 세그먼트 기반 지문들을 제2 비디오 클립에 대하여 생성된 시간 세그먼트 기반 지문들과 비교한다. 일치하는 이벤트 기반 세그먼트들은 일치하는 세그먼트를 형성하도록 제1 비디오 클립에 연관된 시간 세그먼트 기반 지문과 제2 비디오 클립에 연관된 시간 세그먼트 기반 지문 사이의 유사성 측정에 기초하여 식별된다.

제1 비디오 클립과 제2 비디오 클립 사이에 일치하는 모든 세그먼트들을 수집하여 일치하는 세그먼트들의 세트를 형성하게 된다. 일치하는 세그먼트들의 세트는 이벤트 기반 세그먼트들의 하나의 일치 쌍 또는 세그먼트들의 두 개 이상의 일치 쌍을 포함할 수 있다. 양호한 선형 맞춤(linear fit)을 제공하는 일치하는 세그먼트들의 서브세트는 일치하는 세그먼트들의 세트로부터 선택된다.

제1 비디오 클립과 제2 비디오 클립에 대한 전체 비디오 일치 점수는 양호한 선형 맞춤을 제공하는 일치하는 세그먼트들의 서브세트 내에서 선택된 일치하는 세그먼트들의 비중첩(non-overlapping) 기간에 기초하여 식별된다. 전체 비디오 일치 점수를 이용하여 제1 비디오 클립이 제2 비디오 클립의 근접 복제인지를 결정한다.

도 3은 예시적인 일 실시예에 따라 테스트 비디오에 대한 세그먼트 기반 시간 지문들의 생성 및 지문들의 참조 데이터베이스에 대한 일치를 도시하는 블록도이다. 컴퓨터(300)는 도 1의 서버(106)나 클라이언트(110) 및 도 2의 데이터 처리 시스템(200)을 포함하는 임의의 일반적인 컴퓨팅 장치에서 구현되지만, 이러한 예로 한정되지는 않는다.

시간 세그먼트 기반 지문 생성기(302)는 비디오 콘텐츠용 시간 세그먼트 기반 지문들을 생성하기 위한 소프트웨어 컴포넌트이다. 비디오 콘텐츠는 테스트 비디오(304) 또는 저작권 보호를 받는 알려져 있는 콘텐츠일 수 있다. 시간 세그먼트 기반 지문 생성기(302)는 콘텐츠 기반 특징들을 테스트 비디오(304)의 특유의 시간 서명들과 결합하여 시간 세그먼트 기반 지문들을 생성한다.

이 예에서, 테스트 비디오(304)는 테스트 비디오(304)가 저작권 보호를 받는 콘텐츠의 복사물인지 또는 저작권 보호를 받는 콘텐츠로부터 파생된 것인지를 결정하도록 저작권 보호를 받는 알려져 있는 콘텐츠에 대하여 테스트되고 있는 비디오 콘텐츠이다. 테스트 비디오(304)는 복수의 비디오 프레임을 포함한다. 또한, 비디오 프레임들에는 선택 사항으로 오디오 트랙이 동반될 수 있다. 다시 말하면, 테스트 비디오(304)는 비디오만일 수 있고 또는 오디오와 비디오의 조합일 수 있다.

테스트 비디오 소스(306)는, 테스트 비디오(304)가 저작권 보호를 받는 콘텐츠의 복사물인지 또는 파생물인지를 결정하도록 저작권 보호를 받는 알려져 있는 콘텐츠에 대하여 테스트되거나 비교되고 있는 비디오 콘텐츠의 소스이다. 테스트 비디오 소스(306)는 비디오 콘텐츠의 온라인 소스 또는 오프라인 소스일 수 있다. 예를 들어, 테스트 비디오 소스(306)는 텔레비전 프로그램, 상업 방송, 웹 사이트 상의 오디오 및/또는 비디오 콘텐츠, 또는 다른 임의의 소스를 포함할 수 있지만, 이러한 예로 한정되지는 않는다. 웹 사이트의 예로는 YouTube®, Facebook®, MySpace®가 있지만, 이러한 예로 한정되지는 않는다.

시간 세그먼트 기반 지문 생성기(302)는, 테스트 비디오(304)의 이벤트를 검출하고, 이벤트 경계에 정렬된 세그먼트를 형성하고, 각 세그먼트에 대한 콘텐츠 기반 설명어의 시간 트레이스를 추출하고, 테스트 비디오(304)에 대한 테스트 비디오 시간 세그먼트 기반 지문(312)을 생성한다. 이 실시예에서, 테스트 비디오 시간 세그먼트 기반 지문들(312)은 각 비디오 세그먼트의 가시적 특성들 및/또는 오디오 특성들의 시간 트레이스들을 요약하는 번호들이 순서화된 시퀀스로서 형성된다. 변함없는 이벤트 경계들에 세그먼트들을 정렬함으로써, 비디오 콘텐츠의 편집이나 변경으로 인해 발생할 수 있는 임의의 프레임 정렬 문제점들을 완화할 수 있다. 시간 세그먼트 기반 지문 생성기(302)는 저작권 보호를 받는 비디오 콘텐츠를 위한 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)뿐만 아니라 테스트 비디오(304)를 위한 테스트 비디오 시간 세그먼트 기반 지문들도 생성한다. 이 예에서, 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)은 데이터 저장 장치(310)에 영구적으로 저장되는 한편, 테스트 비디오 시간 세그먼트 기반 지문들(312)은 지속적인 방식이 아니라 온더플라이(on the fly) 방식으로 생성되고 일치 및 비디오 복사 식별 목적으로만 사용된다. 그러나, 테스트 비디오 시간 세그먼트 기반 지문들은, 테스트 비디오 시간 세그먼트 기반 지문들(312)을 온라인으로 생성하기 보다는, 오프라인 일치 프로세스에서 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)에 대한 일치를 위해 생성되어 데이터 저장 장치(310)에 저장되어도 된다.

데이터 저장 장치(310)는 데이터를 저장하는 장치이다. 데이터 저장 장치(310)는 하드 드라이브, 플래시 메모리, 메인 메모리, ROM, RAM, NVRAM, 또는 다른 임의의 유형의 데이터 저장 장치로서 구현되어도 된다. 데이터 저장 장치(310)는 단일 데이터 저장 장치 내에 또는 복수의 데이터 저장 장치 내에 구현되어도 된다. 이 예에서, 데이터 저장 장치(310)는 컴퓨터(300)에 연결된 로컬 데이터 저장 장치이다. 그러나, 다른 예에서, 데이터 저장 장치(310)는 컴퓨터(300)에 대하여 원격으로 위치해도 되며, 또는 하나 이상의 로컬 데이터 저장 장치 및 하나 이상의 원격 데이터 저장 장치로서 구현되어도 된다.

데이터 저장 장치(310)는 저작권 보호 콘텐츠를 위해 생성된 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 저장한다. 저작권 보호 콘텐츠는 알려져 있는 저작권 보호 콘텐츠인 임의의 오디오 및/또는 비디오일 수 있다. 저작권 보호 콘텐츠는 저작권 보호를 받는 알려져 있는 하나 이상의 비디오 클립을 갖는 라이브러리 또는 데이터베이스에 저장될 수 있다. 데이터 저장 장치(310)는 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)도 저장한다.

시간 세그먼트 기반 지문 생성기(302)는 저작권 보호를 받는 알려져 있는 비디오 콘텐츠를 위한 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 생성한다. 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)은 하나 이상의 시간 세그먼트 기반 지문을 포함한다. 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)은 시간 세그먼트 기반 지문 생성기(302)에 의해 온라인 또는 오프라인으로 생성된다. 다시 말하면, 네트워크 접속이 존재하는 경우 또는 네트워크 접속이 없는 경우에 컴퓨터(300)를 이용하여 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 생성할 수 있다. 이어서, 시간 세그먼트 기반 지문 생성기(302)는 테스트 비디오(304)를 위한 테스트 비디오 시간 세그먼트 기반 지문들(312)을 생성한다. 이어서, 지문 일치 엔진(320)은 시간 세그먼트 기반 지문들(312)을 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)과 비교한다.

지문 일치 엔진(320)은 시간 세그먼트 기반 지문 일치 프로세스를 수행하기 위한 소프트웨어 컴포넌트이다. 지문 일치 엔진(320)은 테스트 비디오 시간 세그먼트 기반 지문들(312)을 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)과 비교한다. 결과(318)는 테스트 비디오(304)가 저작권 보호를 받는 콘텐츠의 복사물이나 파생물인지를 나타낸다. 저작권 보호를 받는 콘텐츠의 복사물이나 파생물은 저작권 보호를 콘텐츠의 근접 복제물이라 칭할 수 있다. 일 실시예에서는, 콘텐츠 기반 비디오 불법복제의 검출이나 방지를 위해 근접 복제물의 검출을 이용한다.

따라서, 시간 세그먼트 기반 지문 생성기(302)는 테스트 비디오(304)에 연관된 복수의 프레임 내의 각 프레임에 대하여 프레임 기반 콘텐츠 기반 특징들을 추출한다. 테스트 비디오는 비디오 프레임들에 대응하는 오디오 콘텐츠를 포함할 수 있다. 콘텐츠 기반 특징들은 가시적 특징들 및/또는 오디오 특징들일 수 있다. 시간 세그먼트 기반 지문 생성기(302)는 콘텐츠 기반 특징들의 상당한 변화에 기초하여 테스트 비디오(304)에 연관된 비디오 콘텐츠의 이벤트들을 검출한다. 이어서, 시간 세그먼트 기반 지문 생성기(302)는 하나 이상의 이벤트에 걸쳐 중첩되는 세그먼트들을 생성하여 시간 이벤트 기반 세그먼트들의 세트를 형성한다.

이어서, 시간 세그먼트 기반 지문 생성기(302)는 각 시간 이벤트 기반 세그먼트에 연관된 콘텐츠 기반 특징들의 시간 추적에 기초하여 각 시간 이벤트 기반 세그먼트로부터 시계열 신호를 도출한다. 시간 세그먼트 기반 지문 생성기(302)는 각 세그먼트에 대한 시계열 신호에 기초하여 세그먼트 기반 지문들을 추출하여 테스트 비디오 시간 세그먼트 기반 비디오 지문들(312)을 형성한다.

지문 일치 엔진(320)은 테스트 비디오(304)로부터 테스트 세그먼트를 수신한다. 지문 일치 엔진(320)은 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)의 하나 이상의 시간 세그먼트 기반 지문들을 테스트 비디오 시간 세그먼트 기반 지문들(312)과 비교한다. 지문 일치 엔진(320)은 유사성 측정에 기초하여 일치하는 세그먼트들을 식별한다. 지문 일치 엔진(320)은 최상의 선형 맞춤을 제공하는 일치하는 참조 세그먼트들의 서브세트를 찾는다.

이 문맥에서 선형 맞춤은 일치하는 세그먼트들의 시간적 배열과 상대적 시간 거리에 대하여 부합되는 일치하는 세그먼트들의 세트들을 참조한다. 다시 말하면, 하나의 비디오로부터의 시간 X에서의 세그먼트가 제2 비디오로부터의 시간 Y에서의 세그먼트와 일치하고 이어서 Y = aX + b가 되도록, 한 쌍의 비디오 내의 일치하는 세그먼트들의 시간적 위치 사이에 선형 관계가 존재해야 하며, 여기서 a와 b는 실수인 상수들이다. 쌍으로 된 일치하는 세그먼트들의 세트는, 일치하는 세그먼트들의 각 쌍이 동일한 선형 관계에 의해 관련되면 선형 맞춤을 제공하고, 여기서 상수 a와 b는 모든 일치하는 세그먼트들의 쌍들에 대하여 같거나 거의 같다. 일치하는 세그먼트들의 선형 맞춤의 질은 선형 관계의 매개변수들인 a와 b 뿐만 아니라 동일한 선형 관계에 맞는 일치하는 세그먼트들의 쌍의 개수에도 기초한다.

지문 일치 엔진(320)은 최상의 선형 맞춤에 기초하여 비디오 일치 점수를 생성한다. 이 예에서, 비디오 일치 점수가 임계 점수를 초과하면, 지문 일치 엔진(320)은 테스트 세그먼트를 참조 비디오로부터 복사되었거나 파생된 가능성이 있는 것으로서 식별하는 결과(318)를 생성한다. 비디오 일치 점수가 임계 점수보다 작으면, 지문 일치 엔진(320)은 테스트 세그먼트를 참조 비디오와 일치하지 않는 것으로서 결과(318)를 생성한다.

일 실시예에서, 저작권 보호 콘텐츠를 갖는 콘텐츠 소유자는 저작권 보호 비디오에 대한 시간 세그먼트 기반 지문들을 추출하여 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 생성한다. 이러한 지문들은 넓은 범위의 왜곡(distortion)에 대하여 강건하도록 설계된 미세 시간 콘텐츠 기반 지문들이다. 이어서, 시간 세그먼트 기반 지문들을 이용하여 비디오 불법복제를 검출할 수 있고 무단 사용으로부터 저작권 보호 콘텐츠를 보호할 수 있다.

다른 예에서, 비디오 공유 사이트는 시간 세그먼트 기반 지문 생성기(302)를 활용하여 비디오 공유 사이트에 게시된 비디오에 대한 시간 세그먼트 기반 지문들을 생성할 수 있다. 비디오 공유 사이트는 지문 일치 엔진(320)을 사용하여 비디오 공유 사이트의 사용자들에 의한 저작권 보호 비디오 추출물의 불법복제 및 무단 사용을 검출할 수 있다. 이 예에서, 테스트 비디오(304)는 비디오 공유 사이트의 사용자들에 의해 그 비디오 공유 사이트에 게시된 비디오이다. 테스트 비디오 시간 세그먼트 기반 지문들(312)은 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)의 참조 데이터베이스에 대하여 일치된다. 또한, 이러한 일치는 넓은 범위의 왜곡에 대하여 강건하도록 설계된 미세 시간 콘텐츠 기반 프로세스이다. 이러한 일치는 공유되는 비디오가 설명어 데이터베이스에 있는 저작권 보호 비디오들 중 하나의 불법 복사물인지를 검출한다.

도 4는 예시적인 일 실시예에 따라 저작권 보호 콘텐츠에 대한 시간 세그먼트 기반 지문들의 참조 데이터베이스의 생성을 도시하는 블록도이다. 시간 세그먼트 기반 지문 생성기(302)는, 도 3에서 시간 세그먼트 기반 지문 생성기(302)가 테스트 비디오(304)에 대한 테스트 비디오 시간 세그먼트 기반 지문들(312)을 생성한 것과 동일한 방식으로, 저작권 보호 콘텐츠(404)에 대한 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 생성한다.

데이터 저장 장치(310)는 저작권 보호 콘텐츠(404)를 저장한다. 저작권 보호 콘텐츠(404)는 저작권 보호를 받는 알려져 있는 콘텐츠인 임의의 오디오 및/또는 비디오 콘텐츠를 이용하여 구현될 수 있다. 이 예에서, 저작권 보호 콘텐츠(404)는 저작권 보호를 받는 알려져 있는 하나 이상의 비디오 클립을 갖는 라이브러리 또는 데이터베이스이다. 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)은 저작권 보호 콘텐츠(404)와 같이 저작권 보호를 받는 알려져 있는 비디오 콘텐츠에 대한 시간 세그먼트 기반 지문들을 포함한다.

시간 세그먼트 기반 지문 생성기(302)는 저작권 보호 콘텐츠(404)에 대한 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 온라인 또는 오프라인으로 생성한다. 다시 말하면, 네트워크 접속이 존재하는 경우 또는 네트워크 접속이 없는 경우에 시간 세그먼트 기반 지문 생성기(302)를 이용하여 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)을 생성할 수 있다. 이어서, 시간 세그먼트 기반 지문 생성기(302)는 도 3에서와 같이 테스트 비디오(304)에 대한 테스트 비디오 시간 세그먼트 기반 지문들(312)을 생성한다. 이어서, 지문 일치 엔진(320)은 도 3에서와 같이 시간 세그먼트 기반 지문들(312)을 저작권 보호를 받는 콘텐츠 시간 세그먼트 기반 지문들(316)과 비교한다.

도 5는 예시적인 일 실시예에 따른 세그먼트 기반 시간 지문 생성기를 도시하는 블록도이다. 시간 세그먼트 기반 지문 생성기(302)는 테스트 비디오나 저작권 보호를 받는 알려져 있는 콘텐츠에 연관된 비디오 프레임들(501)을 수신한다. 프레임 기반 특징부(502)는 각 프레임에 대한 콘텐츠 기반 특징들(503)을 추출하는 시간 세그먼트 기반 지문 생성기(302)에 연관된 소프트웨어 컴포넌트이다. 콘텐츠 기반 특징들(503)은 가시적 특징들만으로, 오디오 특징들만으로, 또는 가시적 특징과 오디오 특징의 조합으로 된 것일 수 있다.

이벤트 검출부(504)는 콘텐츠 기반 특징부(503)에서의 상당한 변화에 기초하여 이벤트들을 검출하기 위한 소프트웨어 컴포넌트이다. 이벤트 검출부(504)는 기간 제약(duration constraint)에 기초하여 다수의 이벤트들에 걸쳐 중첩되는 세그먼트들을 생성한다. 이 세그먼트들은 이벤트 경계(505)에 의해 규정된다. 다시 말하면, 이벤트 검출부(504)는 비디오 클립의 오디오-가시적 콘텐츠에서의 상당한 상태 변화에 기초하여 비디오 프레임들(501)의 이벤트들을 검출하고 추출한다. 예를 들어, 이벤트들은 비디오 샷 또는 장면 전이, 스피커 변경을 표시할 수 있고, 간단하게 전체 프레임이나 오디오 강도 변화에 기초할 수 있다. 다시 말하면, 이벤트 검출부(504)는 비디오 샷 검출, 장면 변화, 스피커 변화, 오디오 변화 및 프레임 강도 변화를 이용하여 이벤트들을 검출할 수 있다. 또한, 이벤트 검출부(504)는 오디오 특징, 가시적 특징 및 멀티 모달(multi-modal) 특징을 이용하여 이벤트들을 검출할 수 있다.

이어서, 시간 세그먼트 기반 지문 생성기(302)는, 그 이벤트들을 이용하여, 다수의 이벤트를 걸칠 수 있고 해체(disjoint)되거나 중첩될 수 있고 전체 비디오 또는 비디오의 서브세트만을 커버할 수 있는 시간 이벤트 기반 세그먼트들을 형성한다. 시간 이벤트 기반 세그먼트들은 하나 이상의 다른 시간 이벤트 기반 세그먼트들과 중첩될 수도 있다. 일치 시, 시간 이벤트 기반 세그먼트들의 서브세트는 복수의 프레임의 프레임들의 서브세트를 걸치는 선형 맞춤을 제공한다. 일치하는 시간 이벤트 기반 세그먼트들은 갭(gap)에 의해 분리될 수 있다.

세그먼트 추출부(506)는 각 세그먼트에 대한 특징들의 시계열을 생성하여 세그먼트 시계열(507)을 형성한다. 세그먼트 추출부(506)는 각 시간 이벤트 기반 세그먼트를 각 시간 이벤트 기반 세그먼트의 프레임들로부터 추출된 콘텐츠 기반 특징들의 시간 트레이스와 연관짓는다. 예를 들어, 하나의 가시적 콘텐츠 기반 특징은 프레임 화소들의 적색, 녹색, 청색 값들의 합에 대응하는 전체 프레임 강도이다. 시계열 신호는, 전체 프레임 강도의 시간 추적, 프레임 영역 기반 강도 시퀀스들의 추적, 그리드 기반 강도 시퀀스들의 추적, 및/또는 인접하는 프레임 차들의 추적에 기초할 수 있다.

따라서, 프레임 기반 설명어들의 시계열은 각 세그먼트에 대하여 구성되어 세그먼트 시계열(507)을 형성하게 된다. 설명어들은 전체 프레임 강도만큼 간단할 수 있고, 또는 색, 텍스처, 가장자리 및 형상 특성들에 기초하여 보다 복잡한 특징들일 수 있다.

이어서, 세그먼트 기반 특징들(508)은 각 시간 세그먼트에 대하여 세그먼트 기반 시간 지문들을 추출하여 시간 세그먼트 기반 지문들(509)을 형성한다. 세그먼트 기반 특징들(508)은, 이러한 동작을, 각 세그먼트에 연관된 설명어들의 시계열로부터 고정 차원(fixed-dimensionality) 시간 세그먼트 기반 지문들을 추출함으로써 행한다. 고정 차원 지문들은, 균일 샘플링, 벡터 양자화, 구분 선형 근사화(piecewise linear approximation), 이산 코사인 변환(DCT), 이산 웨이브렛 변환(DWT) 및 이산 푸리에 변환(DFT)을 포함하는, 가변 길이 시계열을 고정 차원 특징 벡터로 저감하기 위한 다양한 방법들에 의해 추출될 수 있지만, 이러한 예로 한정되지는 않는다.

이제 도 6을 참조해 보면, 예시적인 일 실시예에 따른 지문 추출 프로세스를 예시하는 그래프가 도시되어 있다. 그래프(600)는 도 3에서의 시간 세그먼트 기반 지문 생성기(302)와 같은 시간 세그먼트 기반 지문 생성기에 의해 구현된 지문 추출 프로세스의 그래프이다.

비디오(601)는 테스트 비디오 또는 저작권 보호를 받는 알려져 있는 콘텐츠일 수 있다. 프레임 기반 특징부(602)는 도 5에서의 프레임 기반 특징부(502)와 같이 비디오(601)로부터 특징들을 추출하기 위한 소프트웨어이다. 프레임 기반 특징부(602)는 비디오(601)를 프레임들로 처리하고, 적색/녹색/청색 값들의 합은 비디오의 각 프레임에 대하여 추출되어, 시계열 신호가 발생한다. 이벤트 검출부(604)는 임계값 및 시계열 신호의 미분의 부호 변환점(zero crossing)에 기초하여 시계열 신호에서 이벤트들을 검출한다. 세그먼트 추출부(606)는 이벤트에 걸쳐 중첩되는 세그먼트들을 이 세그먼트들에 대한 최소 기간 제약과 최대 기간 제약에 기초하여 생성한다. 이 예에서, 세그먼트 기반 특징부(608)는 시간 상으로 균등하게 이격된 64개의 지점에서 각 세그먼트에 대한 신호를 서브샘플링하여, 세그먼트들과 이에 대응하는 64개의 차원 벡터의 세트인, 비디오에 대한 지문을 얻게 된다. 그러나, 세그먼트 기반 특징부(608)는 시간 상으로 임의의 개수의 지점에서 각 세그먼트에 대한 신호를 서브샘플링할 수 있고 또는 고정 차원 벡터를 생성할 수 있다.

적색/녹색/청색 합을 프레임 기반 특징으로서 이용함으로써, 비디오 주위의 검은 띠, 종횡비의 차, 비디오 위에 겹쳐지는 태그 라인이나 고정된 텍스트, 비디오의 순(net) 밝아짐이나 어두워짐, 이득이 매우 급격히 변경되지 않는 경우의 AGC, 색 공간 변환, 해상도의 차 및 DC 오프셋을 포함하는 많은 차들에 대한 시불변성(invariance) 또는 강건성을 얻게 되지만, 이러한 예로 한정되지는 않는다.

변화에 기초하는 이벤트 검출을 이용함으로써, 공간 차와 시간 차 둘 다에 대한 시불변성을 얻게 된다. 테스트 비디오가 편집될 수 있고 다른 시간 척도로 될 수 있을지라도, 이벤트 검출부(604)는 테스트 신호가 시간 상으로 유사한 점들에서 변경되는 것을 찾는다.

또한, 다수의 이벤트들에 걸쳐 중첩되는 세그먼트들을 사용함으로써, 공간 차와 시간 차 둘 다에 대한 시불변성을 얻게 된다. 테스트 비디오가 성능 저하될 수 있고 다른 시간 척도로 될 수 있을지라도, 세그먼트 추출부(606)는 변화들의 유사한 짧은 시퀀스들에 다수의 이벤트들에 걸쳐 중첩되는 세그먼트들을 찾는다.

도 7은 예시적인 일 실시예에 따른 지문 일치 엔진의 블록도이다. 지문 일치 엔진(314)은 테스트 세그먼트들(704)에 대한 시간 세그먼트 기반 지문들을 수신한다. 지문 탐색 및 비교부(705)는 테스트 비디오가 식별된 참조 세그먼트들의 복사물 또는 파생물인지를 결정하는 것과 비교하는 데 활용하도록 테스트 비디오와 일치하는 참조 세그먼트들을 식별하기 위한 소프트웨어 컴포넌트이다.

각 테스트 세그먼트에 대하여, 지문 탐색 및 비교부(705)는 일치하는 참조 세그먼트들을 찾는다. 참조 세그먼트들(706)은 저작권 보호를 받는 알려져 있는 비디오 콘텐츠의 세그먼트들이다. 참조 세그먼트들(706)의 각 참조 세그먼트에 대하여, 지문 탐색 및 비교부(705)는 모든 일치하는 세그먼트들(708)을 수집한다. 다시 말하면, 테스트 세그먼트들(704)은 설명어 데이터베이스의 참조 세그먼트들(706)과 비교되고, 정확하거나 가장 근사한 이웃 탐색을 이용하여 가장 가깝게 일치하는 참조 세그먼트들을 찾아 일치하는 세그먼트들(708)을 형성하게 된다.

선형 맞춤 분석부(710)는 최상의 선형 맞춤을 제공하는 일치하는 세그먼트들의 서브세트를 찾아 필터링된 일치하는 세그먼트들(712)을 형성한다. 다시 말하면, 선형 맞춤 분석부(710)는 각 참조 비디오에 대한 테스트 세그먼트들의 선형 맞춤에 대하여 테스트 세그먼트들(704)을 분석한다. 각 참조 비디오에 대하여, 선형 맞춤 분석부(710)는 일치하는 참조 세그먼트들과 테스트 세그먼트들의 서브세트를 가장 긴 기간 선형 맞춤을 이용하여 필터링하여 필터링된 일치하는 세그먼트들(712)을 형성한다.

선형 맞춤 분석부(710)를 이용함으로써 공간 차와 시간 차에 대한 시불변성을 얻게 된다. 테스트 비디오가 편집될 수 있을지라도, 선형 맞춤은 세그먼트들이 시간적으로 반드시 근접할 필요는 없지만 정렬되는 것을 필요로 한다.

각 테스트 비디오에 대하여, 일치 비디오 점수 작성부(714)는 최상의 선형 맞춤에 의해 참조 비디오에 기초하여 전체 일치 점수를 계산하여 일치 점수(716)를 형성한다. 일치 비디오 점수 작성부(714)는 필터링된 일치하는 세그먼트들(712)을 이용하여 설명어 데이터베이스에 대한 최고 일치 점수(716)를 계산한다. 최고 일치 점수(716)를 이용하여 테스트 비디오가 저작권 보호 비디오인지를 검출한다.

이제 도 8을 참조해 보면, 예시적인 일 실시예에 따라 일치 프로세스를 예시하는 블록도가 도시되어 있다. 일치 프로세스의 비교(800)가 도시되어 있다. 도 3의 지문 일치 엔진(314)과 같은 지문 일치 엔진은 추출된 시간 세그먼트 기반 지문들에 영향을 끼쳐 비디오 클립들(802, 804)을 비교 및 일치시킨다. 비디오 클립(802)은 도 3에서의 저작권 보호 콘텐츠(314)와 같은 저작권 보호 콘텐츠의 저장소로부터 알려져 있는 참조 비디오이다. 비디오 클립(804)은 도 3에서의 테스트 비디오(304)와 같은 알려져 있지 않은 테스트 비디오이다.

유사한 지문들을 이용하여, 알려져 있지 않은 테스트 비디오(804)와 알려져 있는 참조 비디오(802) 사이에 일치하는 세그먼트들을 식별할 수 있다. 이어서, 각 후보 참조 비디오로부터 일치하는 세그먼트들의 집합 및 결합 기간을 이용하여 테스트 비디오(804)와 후보 참조 비디오(802) 사이의 전체적 일치 품질에 점수를 부여할 수 있다. 충분히 높은 점수를 받는 임의의 후보 참조 비디오는 알려져 있지 않은 테스트 비디오의 근접 복제물로 선언될 수 있으며, 이어서 테스트 비디오(804)는 저작권 보호 콘텐츠의 파생물로서 플래그 표시된다.

도 9는 예시적인 일 실시예에 따라 세그먼트 기반 시간 지문들을 추출하기 위한 프로세스를 도시하는 흐름도이다. 도 9의 프로세스는 도 3에서의 시간 세그먼트 기반 지문 생성기(302)와 같이 시간 세그먼트 기반 지문들을 생성하기 위한 소프트웨어에 의해 구현된다.

프로세스는 비디오 콘텐츠의 각 프레임에 대하여 콘텐츠 기반 특징들을 추출함으로써 시작된다(단계 902). 비디오 콘텐츠는 테스트 비디오 또는 저작권 보호를 받는 알려져 있는 비디오 콘텐츠일 수 있다. 비디오 콘텐츠는 비디오 프레임들만으로, 오디오만으로, 또는 오디오 프레임과 비디오 프레임의 조합으로 된 것일 수 있다. 콘텐츠 기반 특징들은 가시적 특징, 오디오 특징, 또는 가시적 특징과 오디오 특징의 조합이다.

프로세스는 콘텐츠 기반 특징들의 상당한 변화에 기초하여 비디오 콘텐츠의 이벤트들을 검출한다(단계 904). 이어서, 프로세스는 기간 제약에 기초하여 하나 이상의 이벤트에 걸쳐 중첩되는 세그먼트들을 생성하여 시간 이벤트 기반 세그먼트들의 세트를 형성한다(단계 906). 시간 이벤트 기반 세그먼트들의 세트는 두 개 이상의 이벤트 기반 세그먼트들의 세트이다.

프로세스는 각 시간 이벤트 기반 특징에 연관된 콘텐츠 기반 특징들의 시간 추적에 기초하여 시간 이벤트 기반 세그먼트들의 세트의 각 시간 이벤트 기반 세그먼트로부터 시계열 신호를 도출한다(단계 908). 이어서, 프로세스는, 각 세그먼트에 대하여 세그먼트 기반 시간 지문들을 추출하여, 이후에 프로세스가 종료되면서 비디오 콘텐츠에 대한 시간 세그먼트 기반 비디오 지문들을 형성한다(단계 910). 다시 말하면, 도 9의 프로세스는 주어진 비디오 클립에 대하여 하나 이상의 시간 세그먼트 기반 지문들을 생성한다. 도 9의 프로세스는 임의의 횟수로 수행되어 테스트 비디오 클립 및/또는 저작권 보호를 받는 알려져 있는 콘텐츠에 대한 복수의 시간 세그먼트 기반 지문을 생성할 수 있다.

도 10은 예시적인 일 실시예에 따라 시간 세그먼트 기반 지문들을 이용하여 테스트 세그먼트가 참조 비디오와 일치하는지를 결정하기 위한 프로세스를 도시하는 흐름도이다. 도 10의 프로세스는 도 3에서의 지문 일치 엔진(320)과 같이 시간 세그먼트 기반 지문들을 일치시키기 위한 소프트웨어에 의해 구현된다.

프로세스는 테스트 비디오 콘텐츠로부터 테스트 세그먼트를 선택함으로써 시작된다(단계 1002). 프로세스는 참조 비디오의 시간 세그먼트 기반 지문들을 테스트 세그먼트의 시간 세그먼트 기반 지문들과 비교한다(단계 1004). 프로세스는 유사성 측정에 기초하여 일치하는 세그먼트들을 식별한다(단계 1006). 프로세스는 최상의 선형 맞춤을 제공하는 일치하는 참조 세그먼트들의 서브세트를 찾는다(단계 1008).

이어서, 프로세스는 최상의 선형 맞춤에 기초하여 비디오 일치 점수를 생성한다(단계 1010). 프로세스는 테스트 비디오의 일치 점수가 임계값을 초과하는지를 결정한다(단계 1012). 일치 점수가 임계값을 초과하면, 프로세스는 테스트 세그먼트를 잠재적으로 참조 비디오로부터 파생된 가능성이 있는 것으로서 식별하고(단계 1014) 이어서 프로세스가 종료된다.

예시적인 실시예들은 시간 이벤트 기반 비디오 지문 분석을 위한 컴퓨터 구현 방법, 장치, 및 컴퓨터 프로그램 제품 코드를 제공한다. 일 실시예에서는, 비디오 콘텐츠의 이벤트들이 검출된다. 비디오 콘텐츠는 복수의 비디오 프레임을 포함한다. 이벤트는 비디오 콘텐츠의 관심 대상인 이산점들을 나타낸다. 시간 이벤트 기반 세그먼트들의 세트는 이벤트를 이용하여 생성된다. 각 시간 이벤트 기반 세그먼트는 하나 이상의 이벤트를 커버하는 비디오 콘텐츠의 세그먼트이다. 시계열 신호는, 각 시간 이벤트 기반 세그먼트에 연관된 프레임들의 콘텐츠 기반 특징들의 시간 추적에 기초하여 각 세그먼트로부터 도출된다. 세그먼트 지문은 각 시간 이벤트 기반 세그먼트에 대한 시계열 신호에 기초하여 도출되어, 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트를 형성하게 된다.

테스트 비디오 클립에 대한 시간 세그먼트 기반 지문들은 각 참조 비디오에 대한 시간 세그먼트 기반 지문들에 비교된다. 모든 일치하는 쌍들이 발견된다. 양호한 선형 맞춤을 제공하는 일치하는 쌍들의 서브세트를 이용하여 후보 참조 비디오에 대한 일치에 점수를 부여한다.

시간 세그먼트 기반 지문들은 콘텐츠 기반 비디오 불법복제 검출이나 비디오 불법복제 방지를 위해 사용될 수 있다. 이 프로세스에 의해 생성된 시간 세그먼트 기반 지문들은 또한 콘텐츠 기반 탐색, 개념 검출, 콘텐츠 요약화, 필터링, 라우팅, 또는 타겟 광고를 위해 사용될 수 있다. 세그먼트 기반 시간 지문 분석은 자르기, 삽입 및 스플라이싱과 같은 편집 동작에 보다 강건하다. 다시 말하면, 세그먼트 기반 시간 지문 분석은, 비디오 콘텐츠가 저작권 보호 비디오 콘텐츠에 대한 편집 동작과 변경을 겪었더라도, 복사물과 파생물을 정확하고도 신뢰성 있게 검출할 수 있다.

따라서, 실시예들은 콘텐츠 기반 특징들을 비디오의 특유의 시간 서명들과 결합함으로써 편집과 이미지 처리 변환에 대한 강건성을 개선한다. 강건성은, 비디오에서 중요 이벤트들을 검출하고, 이벤트 경계들에 정렬된 세그먼트들을 형성하고, 각 세그먼트에 대하여 콘텐츠 기반 설명어들의 시간 트레이스들을 추출함으로써 증가된다. 변함없는 이벤트 경계들에 세그먼트들을 정렬함으로써, 전술한 프레임 정렬 문제점을 완화할 수 있다. 세그먼트들이 가변 개수의 이벤트에 걸쳐질 수 있게 하고 서로 중첩될 수 있게 함으로써, 편집 동작에 대한 강건성을 증가시키는 리던던시(redundancy)의 레벨을 제공하게 된다. 시간 트레이스 서명들을 지문들 내에 통합함으로써, 지문들에 대한 의존성을 저감하고, 이에 따라 이미지 처리 변환에 대한 강건성을 증가시킬 수 있다.

본 발명은 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예, 또는 하드웨어와 소프트웨어를 포함하는 실시예의 형태를 취할 수 있다. 바람직한 일 실시예에서, 본 발명은 펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함하는 소프트웨어로 구현되지만, 이러한 예로 한정되지는 않는다.

또한, 본 발명은 컴퓨터 또는 임의의 명령어 실행 시스템이 사용하기 위한 또는 컴퓨터 또는 임의의 명령어 실행 시스템과 관련되어 사용하기 위한 프로그램 코드를 제공하는 컴퓨터 사용 가능 매체 또는 컴퓨터 판독 가능 매체로부터 액세스 가능한 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 이러한 설명을 위해, 컴퓨터 사용 가능 매체 또는 컴퓨터 판독 가능 매체는, 명령어 실행 시스템, 기기, 또는 장치가 사용하기 위한 또는 명령어 실행 시스템, 기기, 또는 장치와 관련되어 사용하기 위한 프로그램을 포함하고, 저장하고, 통신하고, 전파하고, 또는 전송하는 임의의 유형의 장치일 수 있다.

매체는 전자적, 자기적, 광학, 전자기, 적외선, 또는 반도체 시스템 (또는 기기나 장치) 또는 전파 매체일 수 있다. 컴퓨터 판독 가능 매체의 예로는, 반도체 또는 고체 메모리, 자기 테이프, 탈착 가능 컴퓨터 디스켓, RAM, ROM, 강성 자기 디스크 및 광 디스크가 있다. 광 디스크의 현재 예로는 CD-ROM, CD-R/W, DVD가 있다.

프로그램 코드를 저장하고 그리고/또는 실행하는 데 적합한 데이터 처리 시스템은 시스템 버스를 통해 메모리 소자들에 직접적으로 또는 간접적으로 연결된 적어도 하나의 프로세서를 포함한다. 메모리 소자들은 프로그램 코드의 실제 실행 동안 채용되는 로컬 메모리, 대용량 저장 장치, 및 실행 동안 대용량 저장 장치로부터 코드가 검색되어야 하는 횟수를 저감시키기 위해 적어도 일부 프로그램 코드의 일시적 저장을 제공하는 캐시 메모리를 포함할 수 있다.

입력/출력 또는 I/O 장치(키보드, 디스플레이, 포인팅 장치 등을 포함하지만 이러한 예로 한정되지는 않음)는 시스템에 직접적으로 또는 중재 I/O 컨트롤러를 통해 연결될 수 있다.

또한, 네트워크 아답터를 시스템에 연결하여 데이터 처리 시스템이 중재 역할의 사설 네트워크나 공중 네트워크를 통해 다른 데이터 처리 시스템이나 원격 프린터 또는 저장 장치에 연결되게 할 수 있다. 모뎀, 케이블 모뎀 및 이더넷 카드는 네트워크 아답터의 현재 이용 가능한 유형들의 일부 예일 뿐이다.

본 발명의 설명은 예시 및 설명을 위해 제시되었으며, 본 발명을 개시된 형태로 철저하게 또는 제한적으로 제시하려는 것은 아니다. 당업자에게는 많은 수정 및 변경이 자명할 것이다. 본 발명의 원리, 실제 적용예를 가장 잘 설명하고 고려한 특정 용도에 적합한 다양한 수정으로 다양한 실시예들에 대한 본 발명을 당업자가 이해할 수 있도록 실시예들을 선택하고 설명하였다.

Claims

시간 이벤트 기반 비디오 지문 분석(temporal, event-based video fingerprinting)을 위한 컴퓨터 구현 방법으로서,
비디오 콘텐츠의 이벤트들을 검출하는 단계 - 상기 비디오 콘텐츠는 복수의 비디오 프레임을 포함하고, 이벤트는 상기 비디오 콘텐츠에서의 관심 대상인 이산점(discrete point)들을 나타냄 - 와,
상기 이벤트들을 이용하여 시간 이벤트 기반 세그먼트들의 세트를 생성하는 단계 - 각 시간 이벤트 기반 세그먼트는 이벤트들의 세트를 커버하는 상기 비디오 콘텐츠의 세그먼트임 - 와,
상기 각 시간 이벤트 기반 세그먼트에 연관된 프레임들의 세트의 콘텐츠 기반 특징들의 시간 추적을 이용하여 상기 시간 이벤트 기반 세그먼트들의 세트의 각 시간 이벤트 기반 세그먼트로부터 시계열 신호를 도출하는 단계와,
상기 각 시간 이벤트 기반 세그먼트에 대한 상기 시계열 신호에 기초하여 세그먼트 지문을 추출하여 상기 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트를 형성하는 단계
를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 시간 세그먼트 기반 지문들의 세트는 제1 비디오 클립의 일부분이 제2 비디오 클립과 동일한 원래의 콘텐츠로부터 도출되는 것인지를 결정하는 데 사용되고,
상기 컴퓨터 구현 방법은,
상기 제1 비디오 클립에 대한 시간 세그먼트 기반 지문들을 상기 제2 비디오 클립에 대하여 생성된 시간 세그먼트 기반 지문들과 비교하는 단계와,
상기 제1 비디오 클립에 연관된 시간 세그먼트 기반 지문과 상기 제2 비디오 클립에 연관된 시간 세그먼트 기반 지문 사이의 유사성 측정에 기초하여 일치하는 이벤트 기반 세그먼트들을 식별하여 일치하는 세그먼트를 형성하는 단계와,
상기 제1 비디오 클립과 상기 제2 비디오 클립 사이의 모든 일치하는 세그먼트들을 수집하여 일치하는 세그먼트들의 세트를 형성하는 단계와,
일치하는 세그먼트들의 서브세트를 선택하는 단계 - 상기 일치하는 세그먼트들의 서브세트는 상기 제2 비디오 클립에 연관된 일치하는 세그먼트들에 대하여 양호한 선형 맞춤(linear fit)을 제공하는 상기 제1 비디오 클립에 연관된 일치하는 세그먼트들을 포함함 - 와,
선택된 상기 일치하는 세그먼트들에 기초하여 상기 제1 비디오 클립과 상기 제2 비디오 클립에 대한 전체 비디오 일치 점수를 식별하는 단계와,
상기 전체 비디오 일치 점수를 이용하여 상기 제1 비디오 클립이 상기 제2 비디오 클립의 근접 복제물(near-duplicate)인지를 결정하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제2항에 있어서,
상기 전체 비디오 일치 점수를 임계 점수와 비교하는 단계와,
상기 임계 점수를 초과하는 상기 전체 비디오 일치 점수에 응답하여, 상기 제1 비디오 클립을 상기 제2 비디오 클립의 근접 복제물로서 식별하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 시간 세그먼트 기반 지문들은 콘텐츠 기반 탐색, 개념 검출, 콘텐츠 카테고리화, 요약화, 필터링, 라우팅 또는 타겟 광고 중 적어도 하나에 대하여 사용되는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 콘텐츠 기반 특징들은 오디오 특징과 시각적 특징 중 적어도 하나를 포함하고,
각 이벤트는 비디오 샷 검출, 장면 변화, 스피커 변화, 오디오 변화, 프레임 강도 변화, 또는, 색, 텍스처, 형상, 가장자리 또는 움직임의 저 레벨 콘텐츠 기반 설명어들에 기초한 변화 중 적어도 하나에 기초하여 검출되는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 시간 이벤트 기반 세그먼트들은 상기 복수의 프레임의 프레임들의 세트를 걸치고(span),
상기 프레임들의 세트는 상기 비디오 콘텐츠의 서브세트만을 커버하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 비디오 콘텐츠에 연관된 제1 시간 이벤트 기반 세그먼트는 상기 비디오 콘텐츠에 연관된 제2 시간 이벤트 기반 세그먼트와 중첩되는, 컴퓨터 구현 방법.
시간 이벤트 기반 비디오 지문 분석을 위한 컴퓨터 프로그램 제품으로서,
컴퓨터 판독 가능 매체와,
비디오 콘텐츠의 이벤트들을 검출하도록 상기 컴퓨터 판독 가능 매체 상에 저장된 프로그램 코드 - 상기 비디오 콘텐츠는 복수의 비디오 프레임을 포함하고, 이벤트는 상기 비디오 콘텐츠에서의 관심 대상인 이산점들을 나타냄 - 와,
상기 이벤트를 이용하여 시간 이벤트 기반 세그먼트들의 세트를 생성하도록 상기 컴퓨터 판독 가능 매체에 저장된 프로그램 코드 - 각 시간 이벤트 기반 세그먼트는 이벤트들의 세트를 커버하는 상기 비디오 콘텐츠의 세그먼트임 - 와,
각 시간 이벤트 기반 세그먼트에 연관된 프레임들의 세트의 콘텐츠 기반 특징들의 시간 추적을 이용하여 상기 시간 이벤트 기반 세그먼트들의 세트의 각 시간 이벤트 기반 세그먼트로부터 시계열 신호를 도출하도록 상기 컴퓨터 판독 가능 매체에 저장된 프로그램 코드와,
각 시간 이벤트 기반 세그먼트에 대한 상기 시계열 신호에 기초하여 세그먼트 지문을 추출하여 상기 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트를 형성하도록 상기 컴퓨터 판독 가능 매체에 저장된 프로그램 코드
를 포함하는, 컴퓨터 프로그램 제품.
비디오 불법복제(video piracy)를 자동 검출하는 장치로서,
버스 시스템과 ,
상기 버스 시스템에 연결된 통신 시스템과,
상기 버스 시스템에 연결되고, 컴퓨터 사용 가능 프로그램 코드를 포함하는 메모리와,
상기 버스 시스템에 연결된 처리 유닛을 포함하고,
상기 처리 유닛은,
상기 컴퓨터 사용 가능 프로그램 코드를 실행하여, 비디오 콘텐츠의 이벤트를 검출하고 - 상기 비디오 콘텐츠는 복수의 비디오 프레임을 포함하고, 이벤트는 상기 비디오 콘텐츠에서의 관심 대상인 이산점들을 나타냄 - , 상기 이벤트들을 이용하여 시간 이벤트 기반 세그먼트들의 세트를 생성하고 - 각 시간 이벤트 기반 세그먼트는 이벤트들의 세트를 커버하는 상기 비디오 콘텐츠의 세그먼트임 - , 상기 각 시간 이벤트 기반 세그먼트에 연관된 프레임들의 세트의 콘텐츠 기반 특징들의 시간 추적을 이용하여 상기 시간 이벤트 기반 세그먼트들의 세트의 각 시간 이벤트 기반 세그먼트로부터 시계열 신호를 도출하고, 각 시간 이벤트 기반 세그먼트에 대한 상기 시계열 신호에 기초하여 세그먼트 지문을 도출하여 상기 비디오 콘텐츠에 연관된 시간 세그먼트 기반 지문들의 세트를 형성하고,
콘텐츠 기반 비디오 불법복제의 검출을 위해 근접 복제물의 검출을 이용하는, 비디오 불법복제의 자동 검출 장치.
비디오 불법복제를 자동 검출하는 컴퓨터 구현 방법으로서,
제1 비디오 클립에 대한 시간 세그먼트 기반 지문들을 제2 비디오 클립에 대하여 생성된 시간 세그먼트 기반 지문들과 비교하는 단계와,
상기 제1 비디오 클립에 연관된 시간 세그먼트 기반 지문과 상기 제2 비디오 클립에 연관된 시간 세그먼트 기반 지문 사이의 유사성 측정에 기초하여 일치하는 이벤트 기반 세그먼트들을 식별하여 일치하는 세그먼트를 형성하는 단계와,
상기 제1 비디오 클립과 상기 제2 비디오 클립 사이의 모든 일치하는 세그먼트들을 수집하여 일치하는 세그먼트들의 세트를 형성하는 단계와,
일치하는 세그먼트들의 서브세트를 선택하는 단계 - 상기 일치하는 세그먼트들의 서브세트는 상기 제2 비디오 클립에 연관된 일치하는 세그먼트들에 대하여 양호한 선형 맞춤을 제공하는 상기 제1 비디오 클립에 연관된 일치하는 세그먼트들을 포함함 - 와,
상기 일치하는 세그먼트들의 서브세트 내의 선택된 상기 일치하는 세그먼트들에 기초하여 상기 제1 비디오 클립과 상기 제2 비디오 클립에 대한 전체 비디오 일치 점수를 식별하는 단계와,
상기 전체 비디오 일치 점수를 이용하여 상기 제1 비디오 클립이 상기 제2 비디오 클립의 근접 복제물인지를 결정하는 단계
를 포함하는, 컴퓨터 구현 방법.