KR20230072684A - 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템 - Google Patents

비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템 Download PDF

Info

Publication number
KR20230072684A
KR20230072684A KR1020210159181A KR20210159181A KR20230072684A KR 20230072684 A KR20230072684 A KR 20230072684A KR 1020210159181 A KR1020210159181 A KR 1020210159181A KR 20210159181 A KR20210159181 A KR 20210159181A KR 20230072684 A KR20230072684 A KR 20230072684A
Authority
KR
South Korea
Prior art keywords
video
segment
frame
generating
fingerprints
Prior art date
Application number
KR1020210159181A
Other languages
English (en)
Inventor
낭종호
강민영
정민수
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020210159181A priority Critical patent/KR20230072684A/ko
Publication of KR20230072684A publication Critical patent/KR20230072684A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 비전 트랜스포머를 이용한 비디오에 대한 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 시스템에 관한 것이다. 상기 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임씩 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계; (c) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; (d) 비전 트랜스포머 모델을 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비한다.

Description

비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템{Method of extracting fingerprint for video segment and a strong video copy detection system}
본 발명은 강건한 비디오 복사 검출 시스템에 관한 것으로서, 더욱 구체적으로는 비전 트랜스포머를 기반으로 하여 프레임 특징 벡터를 추출하고, 이를 이용하여 비디오의 내용에 기반한 세그먼트(segment) 단위의 핑거프린트를 추출하는 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템에 관한 것이다.
최근, Youtube, Instagram, TikTok 등과 같은 멀티미디어 컨텐츠 플랫폼이 활성화되어 감에 따라, 멀티미디어 컨텐츠에 대한 수요와 공급이 증가하고 있다. 최근 조사에 따르면 전체 인터넷 트래픽의 80%가 비디오 관련 트래픽이 될 것이라 예측하고 있다. 이와 같이, 비디오 컨텐츠의 시장이 커짐에 따라 타인이 창작한 컨텐츠를 무단으로 복제하거나 유포하여 저작권을 침해하는 문제가 발생하고 있다. 이러한 문제들을 해결하기 위하여, MPEG-7 Video Signature를 사용하여 복사 비디오를 검출하는 방법이 제안되었지만, 컨텐츠들에 대한 다양한 변형이 등장함에 따라 실제 복사 비디오 검출에 실패하는 경우가 증가하고 있다.
도 1은 일반적인 비디오 복사 검출 시스템을 도시한 구성도이다.
도 1을 참조하면, 일반적인 비디오 복사 검출 시스템은 오프라인 프로세스(100)인 참조 이미지에 대한 핑거 프린트 DB 구축 과정과 온라인 프로세스(102)인 질의 이미지에 대한 비디오 복사 검출 과정으로 이루어진다. 오프라인 프로세스는 비디오 데이터베이스에 있는 모든 참조 비디오에 대하여 프레임 또는 세그먼트 단위로 핑거프린트를 추출하고, 추출된 핑거프린트를 비디오 시간 순서에 맞게 정렬하여 핑거프린트 데이터베이스를 구축한다. 온라인 프로세스는 질의 비디오가 입력되면, 동일한 방법으로 질의 비디오의 핑거프린트를 추출하고, 추출된 핑거프린트를 핑거프린트 데이터베이스의 모든 핑거프린트와 비교하여 유사도를 측정한다. 핑거프린트의 유사도는 프레임의 시각적 정보를 추상화한 공간적 특징과 프레임의 시간 정보를 이용한 시간적 특징을 이용하여 측정된다. 복사 구간 검출기는 비디오에서 핑거프린트의 유사도가 연속적으로 높은 구간을 검출한다.
초기의 비디오 복사 검출 연구는 Hog 또는 SIFT와 같은 Handcraft 기반의 특징 추출 방법을 이용하여 추출된 저수준의 특징 정보를 이용하여 복사 검출 문제를 해결하였다. 이후, CNN(Convolutional Neural Network)와 RNN(Recurrent Neural Network) 등이 등장하면서 딥러닝이 발전함에 따라, 이러한 방식들을 이용하여 고수준의 특징 정보를 추출하여 복사 검출을 하게 되었다. 최근 복사 비디오 검출 방법으로 ResNet50의 FC 레이어에서 추출한 특징벡터들에 각각 Average Pooling, Max Pooling, R-MAC Pooling을 이용한 방법, CNN Local 특징벡터에 Bag of Word 기법을 적용하여 핑거프린트를 생성한 방법등이 제안되었다.
한편, 비전 트랜스포머(Vision Transformer)는 자연어 처리 분야의 혁신을 일으킨 트랜스포머를 컴퓨터 비전에 적용하여 최초로 self-attention 개념을 도입한 모델이다. 비전 트랜스포머는 CNN을 완전히 배제하고 Self-attention만을 가지고 이미지 분류 벤치 마크 데이터셋에 대하여 가장 우수한 성능을 달성하였다.
도 2는 비전 트랜스포머 모델에 대한 기본 구조도이다. 도 2를 참조하면, 비전 트랜스포머는 입력 이미지를 패치 단위로 나누어 시퀀스의 형태로 트랜스포머 인코더의 입력으로 사용한다. 이때, 이미지 패치를 대신하여 CNN의 Convolution Map을 입력 시퀀스로 사용할 수 있는데, 이를 Hybrid 구조라고 표현한다. 시퀀스의 각 요소 별로 임베딩을 위한 선형 변환을 수행하여 모델의 전체 차원을 통일한다. 이 과정을 '패치 임베딩'이라고 한다. 여기서 패치 임베딩된 행렬의 맨 왼쪽 끝에‘class token’이라는 입력 이미지의 표현을 나타내는 토큰을 추가해준다. 또한, 포지션 임베딩을 통해 패치 임베딩의 위치 정보를 유지할 수 있도록 한다. 트랜스포머 인코더는 다중 헤드로 구성된 self-attention과 MLP 블록으로 구성된다.
따라서, 본 발명에서는 전술한 비전 트랜스포머를 기반으로 하여 비디오 세그먼트 단위의 핑거프린트를 추출하는 방안을 제안하고자 한다.
한국등록특허공보 제10-1171536호 한국등록특허공보 제10-2263230호
전술한 문제점을 해결하기 위한 본 발명은 전술한 비전 트랜스포머를 기반으로 하여 비디오 세그먼트 단위의 핑거프린트를 추출하는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 전술한 세그먼트 단위의 핑거프린트 추출방법을 이용한 강건한 비디오 복사 검출 시스템을 제공하는 것을 목적으로 한다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음들을 만드는 단계; (c) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; (d) 비전 트랜스포머 모델을 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성한다.
전술한 제1 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (b) 단계는 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것이 바람직하다.
전술한 제1 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (e) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것이 바람직하다.
본 발명의 제2 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및 (c) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린터들을 생성한다.
전술한 제2 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (c) 단계는 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합하고 특징 벡터들의 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것이 바람직하다.
전술한 제2 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (d) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것이 바람직하다.
본 발명의 제3 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법은, (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계; (b) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제1 세그먼트 핑거프린트들을 생성하는 단계; (c) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제2 세그먼트 핑거프린트들을 생성하는 단계; 및 (d) 상기 제1 세그먼트 핑거프린트들과 제2 세그먼트 핑거프린트들을 융합하여, 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,
상기 (b) 단계는, (b1) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계; (b2) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; 및 (b3) 제1 비전 트랜스포머를 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,
상기 (c) 단계는, (c1) 제2 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및 (c2) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성한다.
전술한 제3 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (b1) 단계는 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것을 특징으로 하며,
상기 (c2) 단계는 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합하고 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것이 바람직하다.
전술한 제3 특징에 따른 비디오에 대한 세그먼트 핑거프린트 생성 방법에 있어서, 상기 제1 비전 트랜스포머 모델은 훈련용 비디오들에 대하여 (a) 단계 및 (b) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것을 특징으로 하며, 상기 제2 비전 트랜스포머 모델은 훈련용 비디오들에 대하여 (a) 단계 및 (c) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것이 바람직하다.
본 발명에 따른 비디오 부분 복사 검출 시스템은, 비전 트랜스포머 모델을 이용하여 비디오에 대한 세그먼트 핑거프린트를 추출하고, 이를 사용하여 질의 비디오의 복사본과 복사된 프레임이 나타난 시간 지점을 검출하게 된다. 이와 같이, 본 발명에 따른 방법은 비전 트랜스포머로부터 세그먼트의 프레임들에 대한 공간 정보를 보존한 특징 벡터를 추출하고, 세그먼트 프레임들의 시간 정보를 보존하기 위하여 프레임들을 시간 순으로 스티칭하여 융합하게 된다. 이러한 본 발명에 따른 방법은 세그먼트 단위로 복사를 검출함으로써, 다양한 비디오 편집 기법들로 인하여 변형 영상의 수준이 높아지더라도, 내용 기반의 세그먼트 핑거프린트를 이용하여 복사에 대한 검출 성능이 월등하게 향상된다.
도 1은 일반적인 비디오 복사 검출 시스템을 도시한 구성도이다.
도 2는 비전 트랜스포머 모델에 대한 기본 구조도이다.
도 3은 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 4는 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다.
도 5는 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다.
도 7은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다.
도 9는 본 발명에 따른 강건한 비디오 부분 복사 검출 시스템을 도시한 구조도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 부분 복사 검출 시스템의 구성 및 동작에 대하여 구체적으로 설명한다.
본 발명에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법의 제1 실시예에 대하여 구체적으로 설명한다.
도 3은 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 4는 본 발명의 제1 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다. 본 발명의 제1 실시예에 따른 핑거프린트 생성 방법은 프레임 스티칭을 사용한 세그먼트 핑거프린트 생성 방법으로서, 비전 트랜스포머를 통해 세그먼트 이미지의 공간 정보를 보존하고, 프레임 스티칭(stitching)을 통해 세그먼트에 대한 시간 정보를 보존하게 된다.
도 3 및 도 4를 참조하면, 본 실시예에 따른 핑거프린트 생성 방법은 먼저 데이터셋의 모든 비디오에 대해서 1초당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링한다. 샘플링된 모든 프레임들은 시간 순서대로 k개씩 묶어주고, 그 프레임 묶음들을 각각 스티칭(stitching)하여 세그먼트 이미지를 생성한다. 이때, 프레임들을 k개씩 융합한 뒤 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 프레임 묶음을 보완하고 스티칭하여 마지막 세그먼트 이미지를 생성한다. 다음, 전술한 과정에 의해 생성된 세그먼트 이미지들을 비전 트랜스포머에 넣어 각 세그먼트에 대한 특징벡터를 추출하여 세그먼트 핑거프린트를 생성한다.
비전 트랜스포머는 패치 단위로 정보를 추출하여 각 패치들의 위치 정보를 반영하기 때문에 프레임을 k개씩 묶더라도 각 프레임의 정보를 고르게 가져와 전체 세그먼트 이미지에 대한 공간 정보를 보존할 수 있다. 학습을 통한 프레임 스티칭을 사용한 세그먼트 핑거프린트를 생성하기 위해 MoCo V2를 적용하여 비전 트랜스포머를 학습한다. 학습 데이터셋으로 SVD 데이터셋을 사용하였는데, 도 3에서와 같이 k개씩 프레임을 융합하여 세그먼트 이미지를 생성하여 학습 데이터로 학습을 수행함으로써 비디오 부분 복사 검출에 더 적합한 비전 트랜스포머 기반 세그먼트 핑거프린트 생성을 가능하게 한다.
이하, 본 발명에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법의 제2 실시예에 대하여 구체적으로 설명한다. 도 5는 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 본 발명의 제2 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다. 본 발명의 제2 실시예에 따른 핑거프린트 생성 방법은, 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법이다. 본 실시예에 따른 방법은 제1 실시예에 마찬가지로, 비전 트랜스포머를 통해 세그먼트를 구성하는 각 프레임들의 공간 정보를 보존하고, 세그먼트의 프레임 특징 벡터들에 대한 최대값 풀링을 통해 시간 정보를 보존한다.
도 5 및 도 6을 참조하면, 본 실시예에 따른 핑거프린트 생성 방법은 먼저 데이터 셋의 모든 비디오에 대하여 1초당 1개씩 프레임 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링한다. 다음, 샘플링된 모든 프레임들을 비전 트랜스포머에 넣어 각 프레임에 대한 특징벡터를 추출한다. 다음, 각 프레임에 대한 특징벡터들을 최대값 풀링으로 k개씩 융합하여 세그먼트 핑거프린트를 생성한다. 이때, 프레임에 대한 특징벡터들을 k개씩 융합한 뒤 특징벡터의 나머지가 발생하면 마지막 프레임 특징 벡터들로 패딩하여 마지막 세그먼트 핑거프린트를 생성한다.
이하, 본 발명에 따른 비전 트랜스포머 기반의 세그먼트 핑거프린트 생성 방법의 제3 실시예에 대하여 구체적으로 설명한다. 도 7은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 본 발명의 제3 실시예에 따른 비디오 세그먼트 핑거프린트 생성 방법을 구현한 의사코드이다. 본 발명의 제3 실시예에 따른 핑거프린트 생성 방법은, 프레임 스티칭 및 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법으로서, 제1 및 제2 실시예에 따른 방법을 결합한 형태의 세그먼트 핑거프린트 생성 방법이다.
도 7 및 도 8을 참조하면, 본 실시예에 따른 핑거프린트 생성 방법은, 먼저, 데이터셋의 모든 비디오에 대해서 1초당 1개의 프레임을 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링한다.
다음, 샘플링된 모든 프레임들은 시간 순서대로 k개씩 묶어주고, 그 프레임 묶음은 스티칭(stitching)을 통해 세그먼트 이미지를 생성한다. 이때, 프레임들을 k개씩 융합한 뒤 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 프레임 묶음을 보완하여 마지막 세그먼트 이미지를 생성한다. 다음, 전술한 과정에 의해 생성된 세그먼트 이미지를 비전 트랜스포머에 넣어 세그먼트에 대한 특징벡터를 추출하여 제1 세그먼트 핑거프린트를 생성한다.
다음, 샘플링된 모든 프레임들을 비전 트랜스포머에 넣어 각 프레임에 대한 특징벡터를 추출한 후, 각 프레임에 대한 특징벡터들을 최대값 풀링으로 k개씩 융합하여 제2 세그먼트 핑거프린트를 생성한다. 이때, 프레임에 대한 특징벡터들을 k개씩 융합한 뒤 나머지가 발생하면 마지막 프레임 특징 벡터들로 패딩하여 제2 세그먼트 핑거프린트를 보완한다.
다음, 제1 세그먼트 핑거프린트와 제2 세그먼트 핑거프린트를 결합하여 세그먼트 핑거프린트를 완성한다.
전술한 바와 같이, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 먼저 프레임 스티칭을 통해 세그먼트 프레임의 시간 정보를 융합하고, 비전 트랜스포머를 통해 전체 세그먼트의 공간 정보를 융합한다. 또한, 세그먼트를 구성하는 각 프레임의 공간 정보를 비전 트랜스포머를 통해 융합하고 세그먼트의 시간 정보를 최대값 풀링을 통해 융합한다. 이 융합된 정보들을 모두 결합하여 세그먼트 핑거프린트를 생성하게 된다. 즉, 본 실시예에 따른 핑거프린트 생성 방법은 세그먼트의 전역적인 특징 정보와 세그먼트의 각 프레임들의 지역적인 특징 정보를 융합하여 생성한다. 따라서, 세그먼트에 대한 특징 정보를 Coarse-to-fine한 전략으로 고르게 반영하기 때문에, 변형에 더 강인한 세그먼트 핑거프린트를 생성할 수 있다.
이하, 전술한 방법들을 이용한 본 발명에 따른 강건한 비디오 부분 복사 검출 시스템에 대하여 설명한다.
도 9는 본 발명에 따른 강건한 비디오 부분 복사 검출 시스템을 도시한 구조도이다. 도 9를 참조하면, 본 발명에 따른 비디오 부분 복사 검출 시스템(3)은 오프라인 프로세스를 진행하는 참조 비디오에 대한 핑거프린트 데이터베이스 생성 장치(30)와 온라인 프로세스를 진행하는 질의 비디오에 대한 비디오 복사 검출 장치(32)로 이루어진다.
상기 핑거프린트 데이터베이스 생성 장치는, 참조 비디오들로부터 프레임을 추출하는 프레임 추출기, 추출된 프레임에 대한 특징벡터를 추출하는 비전 트랜스포머, 비전 트랜스포머 특징 벡터로부터 프레임 단위 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출기, 프레임 단위 특징 벡터를 이용하여 세그먼트 단위의 핑거프린트를 추출하는 세그먼트 특징 벡터 추출기, 및 참조 비디오들에 대한 세그먼트 핑거프린트들을 저장 및 관리하는 핑거프린트 데이터베이스를 구비한다.
상기 비디오 복사 검출 장치는 입력된 질의 비디오에 대하여 프레임을 추출하는 프레임 추출기, 추출된 프레임에 대한 비전 트랜스포머 특징벡터를 추출하는 비전 트랜스포머, 비전 트랜스포머 특징 벡터로부터 프레임 단위의 특징 벡터를 추출하는 프레임 특징 벡터 추출기, 프레임 특징 벡터를 이용하여 질의 비디오에 대한 세그먼트 단위의 핑거프린트를 추출하는 세그먼트 특징 벡터 추출기, 및 질의 비디오에 대한 세그먼트 핑거프린트와 핑거프린트 데이터베이스에 저장된 핑거프린트들과 비교하여 가장 유사한 세그먼트를 검색하는 검색 모듈을 구비한다. 따라서, 상기 검색 모듈은 질의 비디오에 대한 세그먼트 핑거프린트와 핑거프린트 데이터베이스에 저장된 핑거프린트들과 비교하여, 질의 비디오의 복사본과 복사된 프레임이 나타난 시간 지점을 검출하여 출력한다.
비디오 부분 복사 검출은 모든 핑거프린트의 유사도를 이용하기 때문에 단일 프레임의 특징 벡터를 핑거프린트로 사용하는 검출 시스템에서는 변형이 일어난 프레임을 검출하지 못하는 경우가 발생한다. 하지만, 본 발명의 방법을 이용하여 세그먼트 단위의 정보를 이용하게 되면, 일부 프레임의 특징 벡터가 변형되더라도 다른 프레임의 정보를 이용하여 정상적인 복사 검출을 할 수 있다. 또한, 비전 트랜스포머의 고수준의 시각 정보와 학습을 통해 변형에 강인한 특징을 추출할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
3 : 비디오 부분 복사 검출 시스템
30 : 핑거프린트 데이터베이스 생성 장치
32 : 비디오 복사 검출 장치

Claims (10)

  1. (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계;
    (b) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계;
    (c) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계;
    (d) 비전 트랜스포머 모델을 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;
    를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  2. 제1항에 있어서, 상기 (b) 단계는
    샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  3. 제1항에 있어서, 상기 비디오에 대한 세그먼트 핑거프린트 생성 방법은,
    (e) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  4. (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계;
    (b) 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및
    (c) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;
    를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린터들을 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  5. 제4항에 있어서, 상기 (c) 단계는
    프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합한 후 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  6. 제4항에 있어서, 상기 비디오에 대한 세그먼트 핑거프린트 생성 방법은,
    (d) 훈련용 비디오들에 대하여 (a) 단계, (b) 단계 및 (c) 단계를 수행하여 훈련용 비디오들에 대한 훈련용 세그먼트 이미지들을 생성하고, 상기 생성된 훈련용 세그먼트 이미지들을 학습 데이터로 하여 상기 비전 트랜스포머 모델을 비지도 학습하여 모델링하는 단계;를 더 구비하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  7. (a) 비디오에 대해서 사전 설정된 단위 시간당 1개의 프레임을 순차적으로 추출하여 비디오 데이터셋을 프레임 수준으로 샘플링하는 단계;
    (b) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제1 세그먼트 핑거프린트들을 생성하는 단계;
    (c) 상기 샘플링된 프레임들을 이용하여 상기 비디오에 대한 제2 세그먼트 핑거프린트들을 생성하는 단계; 및
    (d) 상기 제1 세그먼트 핑거프린트들과 제2 세그먼트 핑거프린트들을 융합하여, 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,
    상기 (b) 단계는,
    (b1) 샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만드는 단계;
    (b2) 프레임 묶음들을 스티칭(stitching)하여 상기 비디오에 대한 세그먼트 이미지들을 생성하는 단계; 및
    (b3) 제1 비전 트랜스포머를 이용하여, 상기 세그먼트 이미지들에 대한 특징 벡터를 추출하여 상기 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하고,
    상기 (c) 단계는,
    (c1) 제2 비전 트랜스포머를 이용하여, 샘플링된 프레임들에 대한 특징 벡터들을 추출하는 단계; 및
    (c2) 프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하는 단계;를 구비하여, 비디오에 대한 세그먼트 단위의 핑거프린트들을 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  8. 제7항에 있어서, 상기 (b1) 단계는
    샘플링된 프레임들을 시간 순서대로 사전 설정된 묶음 개수만큼씩 묶어 프레임 묶음을 만들고, 프레임 묶음의 나머지가 발생하는 경우, 마지막 프레임으로 패딩하여 마지막 프레임 묶음을 만드는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  9. 제7항에 있어서, 상기 (c2) 단계는
    프레임들에 대한 특징 벡터들을 최대값 풀링(MAX pooling)으로 사전 설정된 묶음 개수만큼씩 융합하여 비디오에 대한 세그먼트 핑거프린트들을 생성하고, 프레임들에 대한 특징 벡터들을 융합한 후 나머지가 발생하는 경우, 마지막 특징 벡터를 패딩하여 마지막 세그먼트 핑거프린트를 생성하는 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
  10. 제7항에 있어서, 상기 제1 비전 트랜스포머 모델은,
    훈련용 비디오들에 대하여 (a) 단계 및 (b) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것을 특징으로 하며,
    상기 제2 비전 트랜스포머 모델은,
    훈련용 비디오들에 대하여 (a) 단계 및 (c) 단계를 수행하여 생성된 훈련용 비디오들에 대한 세그먼트 이미지들을 이용하여 비지도 학습하여 모델링된 것을 특징으로 하는 비디오에 대한 세그먼트 핑거프린트 생성 방법.
KR1020210159181A 2021-11-18 2021-11-18 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템 KR20230072684A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210159181A KR20230072684A (ko) 2021-11-18 2021-11-18 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210159181A KR20230072684A (ko) 2021-11-18 2021-11-18 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템

Publications (1)

Publication Number Publication Date
KR20230072684A true KR20230072684A (ko) 2023-05-25

Family

ID=86542088

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210159181A KR20230072684A (ko) 2021-11-18 2021-11-18 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템

Country Status (1)

Country Link
KR (1) KR20230072684A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101171536B1 (ko) 2007-12-17 2012-08-07 인터내셔널 비지네스 머신즈 코포레이션 비디오 지문의 시간 세그먼트 기반 추출 및 강건한 일치
KR102263230B1 (ko) 2020-01-15 2021-06-09 서강대학교 산학협력단 프레임 특징 벡터 융합을 이용한 비디오 부분 복사 검출 시스템 및 비디오 부분 복사 검출 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101171536B1 (ko) 2007-12-17 2012-08-07 인터내셔널 비지네스 머신즈 코포레이션 비디오 지문의 시간 세그먼트 기반 추출 및 강건한 일치
KR102263230B1 (ko) 2020-01-15 2021-06-09 서강대학교 산학협력단 프레임 특징 벡터 융합을 이용한 비디오 부분 복사 검출 시스템 및 비디오 부분 복사 검출 방법

Similar Documents

Publication Publication Date Title
Cao et al. Few-shot video classification via temporal alignment
Jiang et al. Partial copy detection in videos: A benchmark and an evaluation of popular methods
Xie et al. Comparator networks
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
US20080159622A1 (en) Target object recognition in images and video
US11531838B2 (en) Large-scale automated image annotation system
EP3770840A1 (en) Method and system for determining product similarity in digital domains
CN104794223B (zh) 一种基于图像检索的字幕匹配方法和系统
Wang et al. Semantic-guided relation propagation network for few-shot action recognition
Zhang et al. Video copy detection based on deep CNN features and graph-based sequence matching
Liu et al. Football game video analysis method with deep learning
Ghosh et al. SmartTennisTV: Automatic indexing of tennis videos
CN112101154A (zh) 视频分类方法、装置、计算机设备和存储介质
Zhu et al. Autoshot: A short video dataset and state-of-the-art shot boundary detection
KR20230072684A (ko) 비디오 세그먼트 핑거프린트 생성 방법 및 이를 이용한 강건한 비디오 복사 검출 시스템
Kordopatis-Zilos et al. Finding near-duplicate videos in large-scale collections
KR102263230B1 (ko) 프레임 특징 벡터 융합을 이용한 비디오 부분 복사 검출 시스템 및 비디오 부분 복사 검출 방법
Moussaoui et al. A Review of Video Summarization
Knafo Fakeout: Leveraging out-of-domain self-supervision for multi-modal video deepfake detection
JP2009110525A (ja) 画像検索方法及び画像検索装置
Nandyal et al. An efficient umpire key frame segmentation in cricket video using hog and svm
Wu et al. Knowing where and what to write in automated live video comments: A unified multi-task approach
CN113704551A (zh) 一种视频检索方法、存储介质及设备
Khin et al. Key frame extraction techniques