KR20230072684A

KR20230072684A - 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템

Info

Publication number: KR20230072684A
Application number: KR1020210159181A
Authority: KR
Inventors: 낭종호; 강민영; 정민수
Original assignee: 서강대학교산학협력단
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-25

Abstract

본 발명은 비전 트랜스포머를 이용한 비디오에 대한 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 시스템에 관한 것이다. 상기 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임씩 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계; (c) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; (d) 비전 트랜스포머 모델을 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비한다.

Description

비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템{Method of extracting fingerprint for video segment and a strong video copy detection system}

본 발명은 강건한 비디오 복사 검출 시스템에 관한 것으로서, 더욱 구체적으로는 비전 트랜스포머를 기반으로 하여 프레임 특징 벡터를 추출하고, 이를 이용하여 비디오의 내용에 기반한 세그먼트(segment) 단위의 핑거프린트를 추출하는 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템에 관한 것이다.

최근, Youtube, Instagram, TikTok 등과 같은 멀티미디어 컨텐츠 플랫폼이 활성화되어 감에 따라, 멀티미디어 컨텐츠에 대한 수요와 공급이 증가하고 있다. 최근 조사에 따르면 전체 인터넷 트래픽의 80%가 비디오 관련 트래픽이 될 것이라 예측하고 있다. 이와 같이, 비디오 컨텐츠의 시장이 커짐에 따라 타인이 창작한 컨텐츠를 무단으로 복제하거나 유포하여 저작권을 침해하는 문제가 발생하고 있다. 이러한 문제들을 해결하기 위하여, MPEG-7 Video Signature를 사용하여 복사 비디오를 검출하는 방법이 제안되었지만, 컨텐츠들에 대한 다양한 변형이 등장함에 따라 실제 복사 비디오 검출에 실패하는 경우가 증가하고 있다.

도 1은 일반적인 비디오 복사 검출 시스템을 도시한 구성도이다.

도 1을 참조하면, 일반적인 비디오 복사 검출 시스템은 오프라인 프로세스(100)인 참조 이미지에 대한 핑거 프린트 DB 구축 과정과 온라인 프로세스(102)인 질의 이미지에 대한 비디오 복사 검출 과정으로 이루어진다. 오프라인 프로세스는 비디오 데이터베이스에 있는 모든 참조 비디오에 대하여 프레임 또는 세그먼트 단위로 핑거프린트를 추출하고, 추출된 핑거프린트를 비디오 시간 순서에 맞게 정렬하여 핑거프린트 데이터베이스를 구축한다. 온라인 프로세스는 질의 비디오가 입력되면, 동일한 방법으로 질의 비디오의 핑거프린트를 추출하고, 추출된 핑거프린트를 핑거프린트 데이터베이스의 모든 핑거프린트와 비교하여 유사도를 측정한다. 핑거프린트의 유사도는 프레임의 시각적 정보를 추상화한 공간적 특징과 프레임의 시간 정보를 이용한 시간적 특징을 이용하여 측정된다. 복사 구간 검출기는 비디오에서 핑거프린트의 유사도가 연속적으로 높은 구간을 검출한다.

초기의 비디오 복사 검출 연구는 Hog 또는 SIFT와 같은 Handcraft 기반의 특징 추출 방법을 이용하여 추출된 저수준의 특징 정보를 이용하여 복사 검출 문제를 해결하였다. 이후, CNN(Convolutional Neural Network)와 RNN(Recurrent Neural Network) 등이 등장하면서 딥러닝이 발전함에 따라, 이러한 방식들을 이용하여 고수준의 특징 정보를 추출하여 복사 검출을 하게 되었다. 최근 복사 비디오 검출 방법으로 ResNet50의 FC 레이어에서 추출한 특징벡터들에 각각 Average Pooling, Max Pooling, R-MAC Pooling을 이용한 방법, CNN Local 특징벡터에 Bag of Word 기법을 적용하여 핑거프린트를 생성한 방법등이 제안되었다.

한편, 비전 트랜스포머(Vision Transformer)는 자연어 처리 분야의 혁신을 일으킨 트랜스포머를 컴퓨터 비전에 적용하여 최초로 self-attention 개념을 도입한 모델이다. 비전 트랜스포머는 CNN을 완전히 배제하고 Self-attention만을 가지고 이미지 분류 벤치 마크 데이터셋에 대하여 가장 우수한 성능을 달성하였다.

도 2는 비전 트랜스포머 모델에 대한 기본 구조도이다. 도 2를 참조하면, 비전 트랜스포머는 입력 이미지를 패치 단위로 나누어 시퀀스의 형태로 트랜스포머 인코더의 입력으로 사용한다. 이때, 이미지 패치를 대신하여 CNN의 Convolution Map을 입력 시퀀스로 사용할 수 있는데, 이를 Hybrid 구조라고 표현한다. 시퀀스의 각 요소 별로 임베딩을 위한 선형 변환을 수행하여 모델의 전체 차원을 통일한다. 이 과정을 '패치 임베딩'이라고 한다. 여기서 패치 임베딩된 행렬의 맨 왼쪽 끝에‘class token’이라는 입력 이미지의 표현을 나타내는 토큰을 추가해준다. 또한, 포지션 임베딩을 통해 패치 임베딩의 위치 정보를 유지할 수 있도록 한다. 트랜스포머 인코더는 다중 헤드로 구성된 self-attention과 MLP 블록으로 구성된다.

따라서, 본 발명에서는 전술한 비전 트랜스포머를 기반으로 하여 비디오 세그먼트 단위의 핑거프린트를 추출하는 방안을 제안하고자 한다.

한국등록특허공보 제10-1171536호 한국등록특허공보 제10-2263230호

전술한 문제점을 해결하기 위한 본 발명은 전술한 비전 트랜스포머를 기반으로 하여 비디오 세그먼트 단위의 핑거프린트를 추출하는 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 전술한 세그먼트 단위의 핑거프린트 추출방법을 이용한 강건한 비디오 복사 검출 시스템을 제공하는 것을 목적으로 한다.

전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음들을 만드는 단계; (c) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; (d) 비전 트랜스포머 모델을 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성한다.

전술한 제1 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (b) 단계는 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것이 바람직하다.

전술한 제1 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (e) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것이 바람직하다.

본 발명의 제2 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및 (c) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린터들을 생성한다.

전술한 제2 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (c) 단계는 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합하고 특징 벡터들의 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것이 바람직하다.

전술한 제2 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (d) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것이 바람직하다.

본 발명의 제3 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제1 세그먼트 핑거프린트들을 생성하는 단계; (c) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제2 세그먼트 핑거프린트들을 생성하는 단계; 및 (d) 상기 제1 세그먼트 핑거프린트들과 제2 세그먼트 핑거프린트들을 융합하여, 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,

상기 (b) 단계는, (b1) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계; (b2) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; 및 (b3) 제1 비전 트랜스포머를 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,

상기 (c) 단계는, (c1) 제2 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및 (c2) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성한다.

전술한 제3 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (b1) 단계는 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것을 특징으로 하며,

상기 (c2) 단계는 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합하고 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것이 바람직하다.

전술한 제3 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 제1 비전 트랜스포머 모델은 훈련용 비디오들에 대하여 (a) 단계 및 (b) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것을 특징으로 하며, 상기 제2 비전 트랜스포머 모델은 훈련용 비디오들에 대하여 (a) 단계 및 (c) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것이 바람직하다.

본 발명에 따른 비디오 부분 복사 검출 시스템은, 비전 트랜스포머 모델을 이용하여 비디오에 대한 세그먼트 핑거프린트를 추출하고, 이를 사용하여 질의 비디오의 복사본과 복사된 프레임이 나타난 시간 지점을 검출하게 된다. 이와 같이, 본 발명에 따른 방법은 비전 트랜스포머로부터 세그먼트의 프레임들에 대한 공간 정보를 보존한 특징 벡터를 추출하고, 세그먼트 프레임들의 시간 정보를 보존하기 위하여 프레임들을 시간 순으로 스티칭하여 융합하게 된다. 이러한 본 발명에 따른 방법은 세그먼트 단위로 복사를 검출함으로써, 다양한 비디오 편집 기법들로 인하여 변형 영상의 수준이 높아지더라도, 내용 기반의 세그먼트 핑거프린트를 이용하여 복사에 대한 검출 성능이 월등하게 향상된다.

도 1은 일반적인 비디오 복사 검출 시스템을 도시한 구성도이다.
도 2는 비전 트랜스포머 모델에 대한 기본 구조도이다.
도 3은 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 4는 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다.
도 5는 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다.
도 7은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다.
도 9는 본 발명에 따른 강건한 비디오 부분 복사 검출 시스템을 도시한 구조도이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 부분 복사 검출 시스템의 구성 및 동작에 대하여 구체적으로 설명한다.

본 발명에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법의 제1 실시예에 대하여 구체적으로 설명한다.

도 3은 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 4는 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다. 본 발명의 제1 실시예에 따른 핑거프린트 생성 방법은 프레임 스티칭을 사용한 세그먼트 핑거프린트 생성 방법으로서, 비전 트랜스포머를 통해 세그먼트 이미지의 공간 정보를 보존하고, 프레임 스티칭(stitching)을 통해 세그먼트에 대한 시간 정보를 보존하게 된다.

도 3 및 도 4를 참조하면, 본 실시예에 따른 핑거프린트 생성 방법은 먼저 데이터셋의 모든 비디오에 대해서 1초당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링한다. 샘플링된 모든 프레임들은 시간 순서대로 k개씩 묶어주고, 그 프레임 묶음들을 각각 스티칭(stitching)하여 세그먼트 이미지를 생성한다. 이때, 프레임들을 k개씩 융합한 뒤 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 프레임 묶음을 보완하고 스티칭하여 마지막 세그먼트 이미지를 생성한다. 다음, 전술한 과정에 의해 생성된 세그먼트 이미지들을 비전 트랜스포머에 넣어 각 세그먼트에 대한 특징벡터를 추출하여 세그먼트 핑거프린트를 생성한다.

비전 트랜스포머는 패치 단위로 정보를 추출하여 각 패치들의 위치 정보를 반영하기 때문에 프레임을 k개씩 묶더라도 각 프레임의 정보를 고르게 가져와 전체 세그먼트 이미지에 대한 공간 정보를 보존할 수 있다. 학습을 통한 프레임 스티칭을 사용한 세그먼트 핑거프린트를 생성하기 위해 MoCo V2를 적용하여 비전 트랜스포머를 학습한다. 학습 데이터셋으로 SVD 데이터셋을 사용하였는데, 도 3에서와 같이 k개씩 프레임을 융합하여 세그먼트 이미지를 생성하여 학습 데이터로 학습을 수행함으로써 비디오 부분 복사 검출에 더 적합한 비전 트랜스포머 기반 세그먼트 핑거프린트 생성을 가능하게 한다.

이하, 본 발명에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법의 제2 실시예에 대하여 구체적으로 설명한다. 도 5는 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다. 본 발명의 제2 실시예에 따른 핑거프린트 생성 방법은, 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법이다. 본 실시예에 따른 방법은 제1 실시예에 마찬가지로, 비전 트랜스포머를 통해 세그먼트를 구성하는 각 프레임들의 공간 정보를 보존하고, 세그먼트의 프레임 특징 벡터들에 대한 최대값 풀링을 통해 시간 정보를 보존한다.

도 5 및 도 6을 참조하면, 본 실시예에 따른 핑거프린트 생성 방법은 먼저 데이터 셋의 모든 비디오에 대하여 1초당 1개씩 프레임 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링한다. 다음, 샘플링된 모든 프레임들을 비전 트랜스포머에 넣어 각 프레임에 대한 특징벡터를 추출한다. 다음, 각 프레임에 대한 특징벡터들을 최대값 풀링으로 k개씩 융합하여 세그먼트 핑거프린트를 생성한다. 이때, 프레임에 대한 특징벡터들을 k개씩 융합한 뒤 특징벡터의 나머지가 발생하면 마지막 프레임 특징 벡터들로 패딩하여 마지막 세그먼트 핑거프린트를 생성한다.

이하, 본 발명에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법의 제3 실시예에 대하여 구체적으로 설명한다. 도 7은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다. 본 발명의 제3 실시예에 따른 핑거프린트 생성 방법은, 프레임 스티칭 및 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법으로서, 제1 및 제2 실시예에 따른 방법을 결합한 형태의 세그먼트 핑거프린트 생성 방법이다.

도 7 및 도 8을 참조하면, 본 실시예에 따른 핑거프린트 생성 방법은, 먼저, 데이터셋의 모든 비디오에 대해서 1초당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링한다.

다음, 샘플링된 모든 프레임들은 시간 순서대로 k개씩 묶어주고, 그 프레임 묶음은 스티칭(stitching)을 통해 세그먼트 이미지를 생성한다. 이때, 프레임들을 k개씩 융합한 뒤 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 프레임 묶음을 보완하여 마지막 세그먼트 이미지를 생성한다. 다음, 전술한 과정에 의해 생성된 세그먼트 이미지를 비전 트랜스포머에 넣어 세그먼트에 대한 특징벡터를 추출하여 제1 세그먼트 핑거프린트를 생성한다.

다음, 샘플링된 모든 프레임들을 비전 트랜스포머에 넣어 각 프레임에 대한 특징벡터를 추출한 후, 각 프레임에 대한 특징벡터들을 최대값 풀링으로 k개씩 융합하여 제2 세그먼트 핑거프린트를 생성한다. 이때, 프레임에 대한 특징벡터들을 k개씩 융합한 뒤 나머지가 발생하면 마지막 프레임 특징 벡터들로 패딩하여 제2 세그먼트 핑거프린트를 보완한다.

다음, 제1 세그먼트 핑거프린트와 제2 세그먼트 핑거프린트를 결합하여 세그먼트 핑거프린트를 완성한다.

전술한 바와 같이, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 먼저 프레임 스티칭을 통해 세그먼트 프레임의 시간 정보를 융합하고, 비전 트랜스포머를 통해 전체 세그먼트의 공간 정보를 융합한다. 또한, 세그먼트를 구성하는 각 프레임의 공간 정보를 비전 트랜스포머를 통해 융합하고 세그먼트의 시간 정보를 최대값 풀링을 통해 융합한다. 이 융합된 정보들을 모두 결합하여 세그먼트 핑거프린트를 생성하게 된다. 즉, 본 실시예에 따른 핑거프린트 생성 방법은 세그먼트의 전역적인 특징 정보와 세그먼트의 각 프레임들의 지역적인 특징 정보를 융합하여 생성한다. 따라서, 세그먼트에 대한 특징 정보를 Coarse-to-fine한 전략으로 고르게 반영하기 때문에, 변형에 더 강인한 세그먼트 핑거프린트를 생성할 수 있다.

이하, 전술한 방법들을 이용한 본 발명에 따른 강건한 비디오 부분 복사 검출 시스템에 대하여 설명한다.

도 9는 본 발명에 따른 강건한 비디오 부분 복사 검출 시스템을 도시한 구조도이다. 도 9를 참조하면, 본 발명에 따른 비디오 부분 복사 검출 시스템(3)은 오프라인 프로세스를 진행하는 참조 비디오에 대한 핑거프린트 데이터베이스 생성 장치(30)와 온라인 프로세스를 진행하는 질의 비디오에 대한 비디오 복사 검출 장치(32)로 이루어진다.

상기 핑거프린트 데이터베이스 생성 장치는, 참조 비디오들로부터 프레임을 추출하는 프레임 추출기, 추출된 프레임에 대한 특징벡터를 추출하는 비전 트랜스포머, 비전 트랜스포머 특징 벡터로부터 프레임 단위 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출기, 프레임 단위 특징 벡터를 이용하여 세그먼트 단위의 핑거프린트를 추출하는 세그먼트 특징 벡터 추출기, 및 참조 비디오들에 대한 세그먼트 핑거프린트들을 저장 및 관리하는 핑거프린트 데이터베이스를 구비한다.

상기 비디오 복사 검출 장치는 입력된 질의 비디오에 대하여 프레임을 추출하는 프레임 추출기, 추출된 프레임에 대한 비전 트랜스포머 특징벡터를 추출하는 비전 트랜스포머, 비전 트랜스포머 특징 벡터로부터 프레임 단위의 특징 벡터를 추출하는 프레임 특징 벡터 추출기, 프레임 특징 벡터를 이용하여 질의 비디오에 대한 세그먼트 단위의 핑거프린트를 추출하는 세그먼트 특징 벡터 추출기, 및 질의 비디오에 대한 세그먼트 핑거프린트와 핑거프린트 데이터베이스에 저장된 핑거프린트들과 비교하여 가장 유사한 세그먼트를 검색하는 검색 모듈을 구비한다. 따라서, 상기 검색 모듈은 질의 비디오에 대한 세그먼트 핑거프린트와 핑거프린트 데이터베이스에 저장된 핑거프린트들과 비교하여, 질의 비디오의 복사본과 복사된 프레임이 나타난 시간 지점을 검출하여 출력한다.

비디오 부분 복사 검출은 모든 핑거프린트의 유사도를 이용하기 때문에 단일 프레임의 특징 벡터를 핑거프린트로 사용하는 검출 시스템에서는 변형이 일어난 프레임을 검출하지 못하는 경우가 발생한다. 하지만, 본 발명의 방법을 이용하여 세그먼트 단위의 정보를 이용하게 되면, 일부 프레임의 특징 벡터가 변형되더라도 다른 프레임의 정보를 이용하여 정상적인 복사 검출을 할 수 있다. 또한, 비전 트랜스포머의 고수준의 시각 정보와 학습을 통해 변형에 강인한 특징을 추출할 수 있다.

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

3 : 비디오 부분 복사 검출 시스템
30 : 핑거프린트 데이터베이스 생성 장치
32 : 비디오 복사 검출 장치

Claims

(a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계;
(b) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계;
(c) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계;
(d) 비전 트랜스포머 모델을 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;
를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제1항에 있어서, 상기 (b) 단계는
샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제1항에 있어서, 상기 비디오에 대한 세그먼트 핑거프린트 생성 방법은,
(e) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
(a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계;
(b) 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및
(c) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;
를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린터들을 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제4항에 있어서, 상기 (c) 단계는
프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합한 후 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제4항에 있어서, 상기 비디오에 대한 세그먼트 핑거프린트 생성 방법은,
(d) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
(a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계;
(b) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제1 세그먼트 핑거프린트들을 생성하는 단계;
(c) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제2 세그먼트 핑거프린트들을 생성하는 단계; 및
(d) 상기 제1 세그먼트 핑거프린트들과 제2 세그먼트 핑거프린트들을 융합하여, 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,
상기 (b) 단계는,
(b1) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계;
(b2) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; 및
(b3) 제1 비전 트랜스포머를 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,
상기 (c) 단계는,
(c1) 제2 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및
(c2) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제7항에 있어서, 상기 (b1) 단계는
샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제7항에 있어서, 상기 (c2) 단계는
프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합한 후 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
제7항에 있어서, 상기 제1 비전 트랜스포머 모델은,
훈련용 비디오들에 대하여 (a) 단계 및 (b) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것을 특징으로 하며,
상기 제2 비전 트랜스포머 모델은,
훈련용 비디오들에 대하여 (a) 단계 및 (c) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.