KR20220032627A - 프레임 처리방법 및 장치 - Google Patents

프레임 처리방법 및 장치 Download PDF

Info

Publication number
KR20220032627A
KR20220032627A KR1020227005421A KR20227005421A KR20220032627A KR 20220032627 A KR20220032627 A KR 20220032627A KR 1020227005421 A KR1020227005421 A KR 1020227005421A KR 20227005421 A KR20227005421 A KR 20227005421A KR 20220032627 A KR20220032627 A KR 20220032627A
Authority
KR
South Korea
Prior art keywords
frame
feature
cnn
target
sample
Prior art date
Application number
KR1020227005421A
Other languages
English (en)
Inventor
멘계 엘브이
지 동
션유안 리
Original Assignee
텐센트 뮤직 엔터테인먼트 테크놀로지 (센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 뮤직 엔터테인먼트 테크놀로지 (센젠) 컴퍼니 리미티드 filed Critical 텐센트 뮤직 엔터테인먼트 테크놀로지 (센젠) 컴퍼니 리미티드
Publication of KR20220032627A publication Critical patent/KR20220032627A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

프레임 처리방법 및 장치에 있어서, 프레임 처리방법은, 목표 프레임의 CNN 특징과 목표 프레임의 국부 특징을 획득하는 단계(S101), 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 목표 프레임의 차원 축소 CNN 특징을 획득하는 단계(S102); 다수 개의 샘플 프레임에서 제1 프레임을 획득하는 것으로, 제1 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되는 단계(S103); 제1 프레임의 국부 특징을 획득하는 단계(S104); 제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도를 연산하는 단계(S105); 일치도가 제2 미리 설정된 조건에 부합되는 경우, 제1 프레임을 목표 프레임의 중복 프레임으로 하는 단계(S106)를 포함한다. 상기 방법과 장치를 채택하면 중복 프레임에 대한 검출 정확도를 향상시킬 수 있다.

Description

프레임 처리방법 및 장치
본 발명은 인터넷 기술분야에 관한 것으로, 특히 프레임 처리방법 및 장치에 관한 것이다.
정보기술의 발전에 따라, 멀티미디어 기술도 이에 발맞추어 생겨나면서, 사용자는 인터넷을 통해 각종 영상 사이트에 게재되는 영상물을 볼 수 있게 되었고, 동시에 사용자 또한 영상 사이트에 영상물을 업로드할 수도 있다.
본 발명을 실현하는 과정에서, 발명자는 현존하는 영상 사이트의 영상 저장소에 방대한 분량의 영상이 저장되어 있다는 것을 발견하게 되었다. 영상 저장소에 중복되는 영상이 저장되는 것을 방지하기 위하여, 통상적으로 중복 영상에 대한 검출을 진행하게 되는데, 중복 영상에 대한 검출 과정에서, 중복 프레임에 대한 검출이 특히 더 중요하게 되었다.
본 발명 실시예는 중복 프레임에 대한 검출을 실현할 수 있고, 정확도가 높은 프레임 처리방법 및 장치를 제공하고자 한다.
첫 번째 방면으로, 본 발명 실시예에서 제공하는 프레임 처리방법은,
목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함하는 단계;
상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득하는 단계;
다수 개의 샘플 프레임에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되는 단계;
상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은, 상기 제1 프레임의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함하는 단계;
상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 단계;
상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 단계;를 포함한다.
실현 가능한 일 설계방식에서, 목표 프레임의 합성곱 신경망 CNN 특징을 획득하는 상기 단계는,
검색 대기 영상을 획득하는 단계;
상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여, 목표 프레임을 획득하는 것으로, 상기 목표 프레임은, 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여 얻은 다수 개의 프레임 중 임의의 하나의 프레임인 단계;
상기 목표 프레임을 CNN 신경망에 입력하여 처리하여, 상기 목표 프레임의 CNN 특징을 획득하는 단계;를 포함한다.
실현 가능한 일 실현방식에서, 다수 개의 샘플 프레임에서 제1 프레임을 획득하는 상기 단계는,
샘플 영상의 CNN 특징 색인을 획득하는 것으로, 상기 샘플 영상은 상기 다수 개의 샘플 프레임을 포함하고, 상기 CNN 특징 색인은 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 군집 형성된 다수 개의 군집을 표시하는데 사용되며, 각각의 상기 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 단계;
상기 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 중 각 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 단계;
상기 목표 프레임의 차원 축소 CNN 특징과 상기 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 차원 축소 CNN 특징에 대응되는 샘플 프레임을 제1 프레임으로 하는 단계;를 포함한다.
실현 가능한 일 실현방식에서, 상기 목표 프레임의 국부 특징은 m개의 제1 키포인트 및 상기 m개의 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 상기 제1 키포인트는 하나의 상기 제1 특징 디스크립터에 대응되며, 상기 제1 프레임의 국부 특징은 n개의 제2 키포인트 및 상기 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하고, 하나의 상기 제2 키포인트는 하나의 상기 제2 특징 디스크립터에 대응되며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이며;
상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 상기 단계는,
각각의 상기 제1 특징 디스크립터에 대하여, 상기 n개의 제2 특징 디스크립터 중 각 제2 특징 디스크립터와 상기 제1 특징 디스크립터 간의 n개의 거리를 획득하는 단계;
큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하는 단계;
상기 정렬 라인 중 마지막에 정렬되는 k개의 거리를 획득하고, 상기 k는 2보다 크거나 같은 자연수인 단계;
상기 k개의 거리에 근거하여, 상기 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것을 확정하는 단계;
상기 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정하는 단계;를 포함한다.
실현 가능한 일 실현방식에서, 목표 프레임의 합성곱 신경망 CNN 특징과 국부 특징을 획득하는 상기 단계 이전에,
상기 다수 개의 샘플 프레임의 CNN 특징을 획득하는 단계;
주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징을 획득하는 단계;
상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 단계;
각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득하는 단계;
상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 영상의 CNN 특징 색인을 생성하는 단계;를 더 포함한다.
실현 가능한 일 실현방식에서, 상기 목표 프레임은 검색 대기 영상에 속하고, 상기 목표 프레임의 상기 검색 대기 영상 중에서의 방송 시점은 제1 방송 시점이며, 상기 제1 프레임은 샘플 프레임 중에서의 목표 영상에 속하고, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 상기 단계는,
상기 제1 프레임의 프레임 표시를 획득하는 단계;
상기 제1 프레임의 프레임 표시의 상기 목표 영상에 대응되는 제2 방송 시점을 조회하여, 상기 목표 영상 중 제2 방송 시점의 프레임을 상기 검색 대기 영상 중 제1 방송 시점의 프레임의 중복 프레임으로 하는 단계;를 포함한다.
실현 가능한 일 실현방식에서, 상기 방법은,
상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기의 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함하는 단계;를 더 포함한다.
두 번째 방면으로, 본 발명 실시예에서 제공하는 프레임 처리장치는,
목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함하는 제1 획득모듈;
상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득하는 차원 축소 처리모듈;
다수 개의 샘플 프레임 중에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되는 제2 획득모듈;
상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은 상기 제1 프레임 중의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함하는 제3 획득모듈;
상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 연산 모듈;
상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 제1 확정모듈;을 포함한다.
실현 가능한 일 실현방식에서, 상기 제1 획득모듈은 구체적으로, 검색 대기 영상을 획득하고; 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여, 목표 프레임을 획득하며, 상기 목표 프레임은, 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여 얻은 다수 개의 프레임 중 임의의 하나의 프레임이고; 상기 목표 프레임을 CNN 신경망에 입력하여 처리하여, 상기 목표 프레임의 CNN 특징을 획득하는데 사용된다.
실현 가능한 일 설계방식에서, 상기 제2 획득모듈은,
샘플 영상의 CNN 특징 색인을 획득하는 것으로, 상기 샘플 영상은 상기 다수 개의 샘플 프레임을 포함하고, 상기 CNN 특징 색인은, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 군집 형성된 다수 개의 군집을 표시하는데 사용되며, 각각의 상기 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 제1 획득유닛;
상기 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 중 각 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 제1 연산유닛;
상기 목표 프레임의 차원 축소 CNN 특징과 상기 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 차원 축소 CNN 특징에 대응되는 샘플 프레임을 제1 프레임으로 하는 제2 연산유닛;을 포함한다.
실현 가능한 일 실현방식에서, 상기 목표 프레임의 국부 특징은 m개의 제1 키포인트 및 상기 m개의 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 상기 제1 키포인트는 하나의 상기 제1 특징 디스크립터에 대응되며, 상기 제1 프레임의 국부 특징은 n개의 제2 키포인트 및 상기 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하고, 하나의 상기 제2 키포인트는 하나의 상기 제2 특징 디스크립터에 대응되며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이며; 상기 연산모듈은,
각각의 상기 제1 특징 디스크립터에 대하여, 상기 n개의 제2 특징 디스크립터 중 각 제2 특징 디스크립터와 상기 제1 특징 디스크립터 간의 n개의 거리를 획득하는 제2 획득유닛;
큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하는 정렬 유닛;
상기 정렬 라인 중 마지막에 정렬되는 k개의 거리를 획득하는 것으로, 상기 k는 2보다 크거나 같은 자연수인 제3 획득유닛;
상기 k개의 거리에 근거하여, 상기 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것을 확정하는 제1 확정유닛;
상기 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정하는 제2 확정유닛;을 포함한다.
실현 가능한 일 실현방식에서, 상기 장치는,
상기 다수 개의 샘플 프레임의 CNN 특징을 획득하는 제4 획득모듈;
주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징을 획득하는 차원 축소 모듈;
상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 군집 모듈;
각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득하는 양자화 압축 모듈;
상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 영상의 CNN 특징 색인을 생성하는 생성 모듈;을 더 포함한다.
실현 가능한 일 실현방식에서, 상기 목표 프레임은 검색 대기 영상에 속하고, 상기 목표 프레임의 상기 검색 대기 영상 중에서의 방송 시점은 제1 방송 시점이며, 상기 제1 프레임은 샘플 프레임 중에서의 목표 영상에 속하고, 상기 제1 확정모듈은,
상기 제1 프레임의 프레임 표시를 획득하는 제4 획득유닛;
상기 제1 프레임의 프레임 표시의 상기 목표 영상에 대응되는 제2 방송 시점을 조회하여, 상기 목표 영상 중 제2 방송 시점의 프레임을 상기 검색 대기 영상 중 제1 방송 시점의 프레임의 중복 프레임으로 하는 제3 확정유닛;을 포함한다.
실현 가능한 일 실현방식에서, 상기 장치는,
상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기의 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함하는 제2 확정모듈;을 더 포함한다.
세 번째 방면으로, 본 발명 실시예는 프레임 처리장치를 제공하는 것으로, 상기 프레임 처리장치는 프로세서와 메모리를 포함하고;
상기 프로세서와 메모리는 서로 연결되는 것으로, 여기에서, 상기 메모리는 프로그램 코드를 저장하고, 상기 프로세서는 첫 번째 방면에 따른 방법을 실행하기 위하여 상기 프로그램 코드를 호출한다.
네 번째 방면으로, 본 발명 실시예는 컴퓨터 저장매체를 제공하는 것으로, 그 특징은, 상기 컴퓨터 저장매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램은 프로그램 지령을 포함하며, 상기 프로그램 지령이 프로세서에 의해 실행될 때, 첫 번째 방면에 따른 방법을 실행한다.
본 발명 실시예에서, 목표 프레임의 차원 축소 CNN 특징과 샘플 프레임 간의 차원 축소 CNN 특징 간의 거리를 통해 1차 선별을 하고, 다시 추가적으로 목표 프레임의 국부 특징과 제1 프레임의 국부 특징 간의 일치도를 통해 2차 선별을 함으로써, 목표 프레임의 중복 프레임을 정확하게 검출해낼 수 있으며, 정확도가 높다.
본 발명 실시예 또는 종래기술의 기술방안을 설명하기 위하여, 이하 실시예 또는 종래기술 설명에서 사용해야 하는 도면에 대하여 간단히 소개하기로 한다.
도 1은 본 발명 실시예에서 제공하는 프레임 처리방법에 대한 흐름도이다.
도 2는 본 발명 실시예에서 제공하는 CNN 특징 색인의 생성 흐름 모식도이다.
도 3은 본 발명 실시예에서 제공하는 프레임 이중 특징을 추출하는 흐름도이다.
도 4는 본 발명 실시예에서 제공하는 중복 프레임을 검색하는 모식도이다.
도 5는 본 발명 실시예에서 제공하는 프레임 처리장치에 대한 구조 모식도이다.
도 6은 본 발명 실시예에서 제공하는 다른 하나의 프레임 처리장치에 대한 구조 모식도이다.
도 7은 본 발명 실시예에서 제공하는 또 다른 하나의 프레임 처리장치에 대한 구조 모식도이다.
이하 본 발명 실시예의 도면을 결부하여, 본 발명 실시예의 기술방안에 대하여 설명하고자 한다.
이하 도 1 내지 도 4를 결부하여, 본 발명 실시예에서 제공하는 프레임 처리방법에 대하여 자세히 소개하고자 한다.
도 1을 참조하면, 도 1은 본 발명 실시예에서 제공하는 프레임 처리방법에 대한 흐름 모식도이다. 도 1에서 도시하는 바와 같이, 본 발명 실시예의 상기 프레임 처리방법은 다음 단계(S101) 내지 단계(S106)를 포함한다.
S101: 목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함한다.
S102: 상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득한다.
일 실시예에서, 목표 프레임은 검색 대기 영상 중 임의의 하나의 프레임일 수 있거나, 또는, 목표 프레임은 비교를 필요로 하는 하나의 단독의 픽쳐 프레임일 수 있다. 목표 프레임이 검색 대기 영상 중의 프레임이라면, 검색 대상 영상을 등간격 영상 캡쳐하여, 다수 개의 프레임이 생성되고, 목표 프레임은 상기 다수 개의 프레임 중의 임의의 하나일 수 있다. 통상적으로 검색 대기 영상에 대한 캡쳐 간격은 비교를 필요로 하는 데이터베이스 중의 샘플 영상의 캡쳐 간격보다 작아야 하는 것으로, 즉, 검색 대기 영상에 대하여 비교적 높은 빈도, 예컨대 초당 5프레임으로 캡쳐함으로써, 저장소 내의 샘플 프레임과 일치할 수 있도록 확보한다. 보다 바람직하게는, 캡쳐의 시점은 랜덤 디더링 가능한 것으로, 모든 검색 대기 프레임과 저장소 내의 샘플 프레임과의 간격이 공교롭게도 모두 비교적 큰 극단적인 상황이 나타나는 것을 방지하도록 한다.
목표 프레임의 합성곱 신경망(Convolutional Neural Network, CNN) 특징과 목표 프레임의 국부 특징을 획득하는 단계에서, 목표 프레임의 국부 특징이란 즉, 목표 프레임에서 추출하는 키포인트의 특징 디스크립터이고, 목표 프레임에서 추출하는 키포인트란 즉, 목표 프레임 중 인접하는 픽셀 포인트와의 픽셀값이 비교적 큰 픽셀 포인트인 것으로, 예컨대, 목표 프레임의 그래픽 중의 모서리이다.
바람직하게는, 목표 프레임의 CNN 특징을 획득하는 방식은, 대규모 통용 이미지 데이터집합(imagenet, open-images, 또는 ml-images 데이터집합)에서 사전 훈련된 하나의 CNN 신경망을 선정하고, 목표 프레임을 상기 CNN 신경망에 입력하여, 마지막 하나의 또는 다수 개의 합성곱 레이어에서 출력한 특징맵을 풀링처리(pooling)하여, 목표 프레임의 원시 CNN 특징을 얻는 것일 수 있다. 상기 CNN 특징은 고정 길이를 갖는 하나의 부동 소수점 벡터인 것으로, 비교적 높은 차원(예컨대 2048 차원)을 갖는다. 목표 프레임의 CNN 특징을 획득한 후, 주성분 분석(Principal components analysis, PCA) 행렬을 이용하여 상기 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득한다.
바람직하게는, 목표 프레임의 국부 특징을 획득하는 방식은, SIFT, SURF, ORB, AKAZE, BRISK 등 국부 특징 추출기 중 임의의 하나를 선택하여 국부 특징을 추출하는 것일 수 있다. 테스트한 바에 따르면, BRISK가 상대적으로 정확도와 속도가 모두 높았다. 통상적으로, 기본값 파라미터를 사용하여 추출한 국부 특징은 대량의 키포인트 및 대응되는 특징 디스크립터를 포함하게 된다. 저장공간을 절약하기 위하여, 키포인트를 응답도(response)에 따라 정렬하여, 응답도가 가장 높은 수십 개의 키포인트 및 대응되는 특징 디스크립터만 남겨둘 수 있는 것으로, 여기에서 하나의 키포인트는 하나의 특징 디스크립터에 대응된다.
보다 바람직하게는, 일부 텍스처가 비교적 평활한 프레임에 대하여, 지나치게 적은 키포인트가 검출될 수도 있으므로, 충분한 키포인트가 검출될 때까지 한 번 또는 여러 번에 거쳐서 검출 임계치를 낮출 수 있다.
S103: 다수 개의 샘플 프레임에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합된다.
일 실시예에서, 데이터베이스에 이미 저장된 샘플 프레임 중에서 목표 프레임의 차원 축소 CNN 특징 간의 거리가 가장 가까운 K개의 샘플 프레임을 선택하고, 제1 프레임은 상기 K개의 샘플 프레임 중의 임의의 하나일 수 있다. 데이터베이스에 이미 저장된 샘플 프레임은 다수 개의 샘플 영상의 샘플 프레임인 것으로, 바람직하게는, 각각의 샘플 영상을 등간격 캡쳐하면, 다수 개의 샘플 프레임을 얻을 수 있고, 캡쳐하는 간격은 희망하는 시간 해상도에 따라 결정된다. 예컨대, 5s 및 그 이상의 세그먼트의 중복을 검출해야 하는 경우, 캡쳐 간격은 5s보다 작아야 한다.
상기 다수 개의 샘플 프레임에서 K개의 샘플 프레임을 선택하고, 상기 K개의 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리가 가장 가까운 것으로, 즉, 상기 K개의 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 K개의 거리는, 모든 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리 중 상위 K위치에 정렬되는 것으로, 여기에서, 상기 모든 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리는 거리에 따라 작은 것부터 큰 것 순으로 정렬된다.
여기에서, 거리가 가장 가까운 K개의 샘플 프레임을 선택하는 방식은, 우선 샘플 프레임의 CNN 특징 색인을 획득하고, 상기 샘플 프레임은 저장소 내의 모든 샘플 영상을 포함하는 것으로, 즉, 저장소 내 모든 샘플 영상의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 하나의 차원 축소 CNN 특징 색인을 생성할 수 있다. 상기 CNN 특징 색인은 하나의 구조체이고, 저장소 내 모든 샘플 영상의 샘플 프레임의 차원 축소 CNN 특징이 군집하여 형성되는 다수 개의 군집을 표시하는데 사용되며, 각각의 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함한다. 그 다음, 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 프레임 각각의 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 것으로, 바람직하게는, 목표 군집은 하나의 군집 또는 다수 개의 군집을 포함할 수 있는 것으로, 만약 다수 개의 군집을 포함한다면, 상기 다수 개의 군집의 군집 중심과 목표 프레임의 차원 축소 CNN 특징 간의 거리가 가장 앞에 정렬될 수 있다. 마지막으로, 목표 프레임의 차원 축소 CNN 특징과 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 K개의 샘플 프레임 중 임의의 하나의 프레임을 제1 프레임으로 하면, 즉, K개의 제1 프레임이 존재한다.
바람직하게는, CNN 특징 색인 내의 차원 축소 CNN 특징이 이미 차원 축소 및 양자화 압축 처리를 거쳤기 때문에, 연산된 거리는 일반적으로 근사한 것이므로, 데이터베이스에서 저장된 목표 군집에 포함되는 적어도 하나의 샘플 프레임의 원시 CNN 특징을 동적으로 판독하여 연산 정렬을 진행하여, 거리가 가장 가까운 K개의 샘플 프레임을 얻어서, K개의 제1 프레임으로 할 수 있다.
한층 더 바람직하게는, 상기 K개의 제1 프레임에 대하여 선별을 진행할 수도 있는 것으로, 예컨대, 거리가 일정 임계치를 초과하면, 직접 삭제할 수 있다.
상술한 실시예에서 언급된 CNN 특징 색인 생성방법은 도 2를 참조할 수 있고, 도면에서 도시하는 바와 같이, CNN 특징 색인 생성 흐름도는 도시하는 바와 같이 단계(S21-S25)를 포함하며;
S21: 상기 다수 개의 샘플 프레임의 CNN 특징을 획득한다.
일 실시예에서, 저장소 내 모든 샘플 영상에 포함되는 샘플 프레임에 근거하여 CNN 특징 색인을 생성하고, 저장소 내 영상을 등간격 캡쳐하여, 대응되는 샘플 프레임을 생성하며, 캡쳐하는 간격은 희망하는 시간 해상도에 의해 결정된다. 예컨대, 만약 5s 및 그 이상의 세그먼트 중복을 검출해야 하는 경우, 캡쳐 간격은 5s보다 작아야 한다.
분할된 다수 개의 샘플 프레임 중 각 샘플 프레임의 CNN 특징을 추출한다. 구체적으로 바람직하게는, 대규모 통용 이미지 데이터집합(imagenet, open-images, 또는 ml-images 데이터집합)에서 사전 훈련된 하나의 CNN 신경망을 선정한다. 추출된 각 샘플 프레임을 상기 CNN 신경망에 각각 입력하여, 마지막 하나의 또는 다수 개의 합성곱 레이어에서 출력된 특징맵을 풀링처리(pooling)하여, 프레임의 CNN 특징을 얻게 되고, 상기 CNN 특징은 고정 길이를 갖는 하나의 부동 소수점 벡터인 것으로, 비교적 높은 차원(예컨대 2048 차원)을 갖는다.
한층 더 바람직하게는, 또한 저장소 내 모든 샘플 영상의 샘플 프레임의 국부 특징을 각각 추출할 수 있고, SIFT, SURF, ORB, AKAZE, BRISK 등 국부 특징 추출기 중 하나를 선택하여 국부 특징을 추출할 수 있다. 테스트한 바에 따르면, BRISK가 상대적으로 정확도와 속도가 모두 높은 것으로, 통상적으로 기본값 파라미터를 사용하여 추출한 국부 특징은 대량의 키포인트 및 대응되는 특징 디스크립터를 포함하게 된다. 저장공간을 절약하기 위하여, 키포인트를 응답도(response)에 따라 정렬하여, 응답도가 가장 높은 수십 개의 키포인트 및 대응되는 특징 디스크립터만 남겨둘 수 있다. 보다 바람직하게는, 일부 텍스처가 비교적 평활한 프레임에 대하여, 검출된 키포인트가 지나치게 적을 수도 있으므로, 충분한 키포인트 및 대응되는 특징 디스크립터가 검출될 때까지 한 번 또는 여러 번에 거쳐서 검출 임계치를 낮출 수 있다.
모든 샘플 영상의 샘플 프레임의 CNN 특징과 국부 특징이 추출된 후, 샘플 영상의 영상 id, 프레임 id에 근거하여 데이터베이스를 구축하여, (영상 id, 프레임 id, 프레임 시점, CNN 특징, 국부 특징)정보 튜플을 데이터베이스에 업로드할 수 있다. 가령 영상 총길이가 10만 시간이고, 5초당 1프레임 캡쳐하며, CNN 특징이 2048 차원 단정도 부동 소수점수(점용공간 8 KB)이고, 국부 특징이 128개 BRISK 특징 디스크립터(점용공간 약 128 x 64 Byte = 8 KB)이면, 데이터베이스의 크기는 약 1.07 TB이며, 단일 컴퓨터 기기에 배치할 수 있다.
도 3에서 도시하는 바와 같이, 도 3은 본 발명 실시예에서 제공하는 CNN 특징과 국부 특징 추출 흐름도이고, 도면에서 도시하는 바와 같이, 저장소 내 프레임에 대하여 캡쳐를 진행하여, 샘플 프레임을 얻으며, CNN 신경망을 통해 연산하여 CNN 특징맵을 얻고, CNN 특징맵에 대하여 풀링 처리를 진행하게 되면, 샘플 프레임의 CNN 특징을 얻게 되며, 동시에, 샘플 프레임에 대하여 국부 특징 추출을 진행하여, 샘플 프레임의 국부 특징을 얻고, 응답도 정렬과 필터링 방식을 통해, 국부 특징에 대하여 선별을 진행하여, 선별된 샘플 프레임의 국부 특징을 얻는다. 샘플 프레임의 CNN 특징, 국부 특징을 데이터베이스에 업로드시켜 저장한다.
S22: 주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징을 획득한다.
일 실시예에서, 데이터베이스로부터 전부 또는 일부 샘플 프레임의 원시 CNN 특징을 판독하여 내부 메모리에 로딩한 후, 내부 메모리에 로딩된 원시 CNN 특징을 이용하여 PCA 행렬을 훈련시키는 것으로, 상기 PCA 행렬은 CNN 특징 차원을 낮추는 동시에, 기존 정보를 가능한 보류할 수 있다. 바람직하게는, PCA 행렬의 고유값(eigenvalue)에 대하여 제곱근을 구한 후 다시 역수를 구하면, 상기 PCA 행렬은 데이터 화이트닝 효과를 부수적으로 갖게 된다.
훈련으로 PCA 행렬을 얻게 된 후, 데이터베이스 중의 모든 샘플 프레임의 원시 CNN 특징을 한꺼번에 또는 여러 번 나눠서 내부 메모리에 로딩하고, 훈련으로 얻은 PCA 행렬을 이용하여 모든 샘플 프레임의 원시 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 모든 샘플 프레임의 차원 축소 CNN 특징을 획득한다.
S23: 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함한다.
일 실시예에서, 유클리드 거리 또는 코사인 거리에 의거하여, 모든 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, N개의 군집 및 대응되는 군집 중심을 얻고, 각각의 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함한다.
S24: 각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득한다.
일 실시예에서, 각각의 군집에 포함되는 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하고, 바람직하게는, 스칼라 양자화(scalar quantization) 또는 프로덕트 양자화(product quantization)를 이용하여, 각각의 군집에 포함되는 샘플 프레임의 차원 축소 CNN 특징을 한층 더 압축시킬 수 있다. 예컨대, 만약 스칼라 양자화를 사용하는 경우, 샘플 프레임의 차원 축소 CNN 특징의 각 차원을 4바이트의 부동 소수점수에서 1바이트의 정수로 압축시킬 수 있다.
S25: 상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 프레임의 CNN 특징 색인을 생성한다.
일 실시예에서, k-means 군집에 의해 형성된 N개의 군집, 상기 N개의 군집의 군집 중심, 각각의 군집에 대응되는 압축된 CNN 특징에 근거하여, 저장소 내 샘플 영상의 CNN 특징 색인을 생성할 수 있고, 상기 CNN 특징 색인은 하나의 구조체이며, 상기 CNN 특징 색인을 통해 상술한 N개의 군집, 상기 N개의 군집의 군집 중심 및 각각의 군집에 대응되는 압축된 CNN 특징을 얻을 수 있다.
가령 샘플 프레임의 총 길이가 10만 시간이고, 5초당 1프레임 캡쳐하면, PCA는 256으로 차원 축소되며, 스칼라 양자화를 사용하면, CNN 특징 색인의 최종 크기는 약 100,000 x 60 x 12 x 256 Byte = 17 GB인 것으로, 단일 기기의 내부 메모리에서 생성될 수 있다.
S104: 상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은 상기 제1 프레임의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함한다.
일 실시예에서, 모든 샘플 프레임에서 제1 프레임을 획득한 후, 추가적으로 국부 특징을 통해 검증을 진행해야 한다. 제1 프레임의 국부 특징을 획득하는 방식은, 상술한 단계(S21)에서 구축한 데이터베이스 중에서 제1 프레임의 국부 특징을 추출하는 것일 수 있다. 바람직하게는, 제1 프레임이 속하는 영상 id, 상기 제1 프레임 id에 근거하여, 데이터베이스 프레임에서 대응되는 국부 특징을 조회할 수 있다. 제1 프레임의 국부 특징은 상기 제1 프레임에서 추출한 제2 키포인트와 제2 키포인트에 대응되는 특징 디스크립터를 포함하고, 제1 프레임에서 추출한 키포인트는 제1 프레임 중 인접하는 픽셀 포인트의 픽셀값과 차이가 비교적 큰 픽셀 포인트일 수 있는 것으로, 예컨대, 제1 프레임 중의 모서리 부분일 수 있다.
바람직하게는, 만약 K개의 제1 프레임을 포함한다면, 상기 K개의 제1 프레임 중 각각의 제1 프레임의 국부 특징을 획득하는 것이 필요하다.
S105: 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산한다.
S106: 만약 상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 한다.
일 실시예에서, 만약 K개의 제1 프레임이 존재한다면, 상기 K개의 제1 프레임 중 각각의 제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도를 연산해야 하고, 만약 제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도가 제1 임계치보다 크다면, 상기 제1 프레임과 목표 프레임이 중복 프레임인 것으로 확정한다.
제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도를 연산하는 방식은, 예컨대 목표 프레임의 국부 특징이 m개의 제1 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 제1 키포인트가 하나의 제1 특징 디스크립터에 대응되는 것일 수 있으며, 예컨대, 제1 특징 디스크립터를 Ai(i = 1, 2,...m)으로 표시할 수 있고, 제1 프레임의 국부 특징이 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하며, 하나의 제2 키포인트가 하나의 제2 특징 디스크립터에 대응되는 것일 수 있고, 예컨대 제2 특징 디스크립터를 Bj(j = 1, 2,...n)으로 표시할 수 있으며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이다.
각각의 제1 특징 디스크립터 Ai에 대하여, n개의 제2 특징 디스크립터 Bj 중 각각의 제2 특징 디스크립터와 제1 특징 디스크립터 간의 n개의 거리를 획득한다. 큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하여, 상기 정렬 라인 프레임의 마지막에 배열되는 k개의 거리, 즉 거리가 가장 가까운 k개의 거리를 획득하고, 상기 k개의 거리에 근거하여, 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것임을 확정한다. 예컨대 k = 2인 경우, 즉, 각각의 Ai에 대하여 그와 거리가 가장 가까운 Bj1(거리는 Di,j,1)와 거리가 두 번째로 가까운 Bj2(거리는 Di,j,2)를 찾고, 만약 Di,j,1 < r * Di,j,2 (r의 값은 0.6-0.9일 수 있다)인 경우, 제1 특징 디스크립터 Ai가 제1 프레임과 일치되는 유효 디스크립터인 것으로 판단한다.
나아가, 목표 프레임 중 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정한다. 예컨대, 최종의 일치도는, 일치도=유효 디스크립터의 수량/max(m, n)일 수 있다.
만약 K개의 제1 프레임이 존재한다면, 검색 대기 목표 프레임과 다수 개의 샘플 프레임은 모두 다 중복 프레임일 가능성이 있는 것이므로, 목표 프레임과 상기 K개의 제1 프레임 중 각각의 제1 프레임 간의 일치도를 검증해야 함으로써, 목표 프레임과 제1 프레임이 중복 프레임인지 여부를 확정해야 한다.
목표 프레임과 제1 프레임이 중복 프레임인 것으로 확정된 후, 중복 프레임이 위치되는 방송 시점, 및 상기 중복 프레임이 샘플 프레임 중 어느 영상으로부터 오는지를 추가로 결정할 수 있다. 예컨대, 목표 프레임이 검색 대기 영상의 제1 방송 시점의 프레임인 경우, 상기 제1 프레임의 프레임 표시를 획득하여, 데이터베이스에서 상기 제1 프레임의 프레임 표시의 목표 영상에 대응되는 제2 방송 시점을 조회할 수 있고, 설명해야 할 것은, 만약 K개의 제1 프레임이 존재한다면, 상기 K개의 제1 프레임은 서로 다른 영상의 서로 다른 방송 시점에 대응될 수 있다.
한층 더 바람직하게는, 만약 상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함한다.
일 실시예에서, 목표 프레임은 검색 대기 영상 중의 임의의 하나의 프레임이고, 검색 대기 영상에 포함되는 모든 프레임을 모두 저장소 내 샘플 영상의 샘플 프레임에 비교하여, 중복 프레임인지 여부를 확정한다. 검색 대기 영상과 목표 영상의 모든 중복 프레임의 프레임 수량은 제2 임계치보다 크고, 상기 프레임 수량은 검색 대기 영상 중에서 중복 프레임으로 확정된 프레임 수량에 의해 결정될 수 있으며, 예컨대, 검색 대기 영상 중 100개의 프레임과 저장소 내의 샘플 프레임이 중복 프레임인 경우, 중복 프레임의 프레임 수량을 100으로 하고, 또한 중복 프레임 중 연속 분포 조건을 충족하는 중복 프레임이 검색 대기 영상의 제1 시간대와 목표 프레임의 제2 시간대에 각각 분포되면, 검색 대기 영상 중 제1 시간대의 영상과 목표 영상 중 제2 시간대의 영상을 중복 영상 세그먼트로 확정한다. 여기에서, 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것일 수 있는 것으로, 즉, 중복 프레임은 기본적으로 검색 대기 영상의 제1 시간대와 목표 영상의 제2 시간대에 연속하여 집중적으로 분포된다.
샘플 영상의 수량이 한층 더 증가하여, 예컨대, 백만 시간을 초과하게 되고, 내부 메모리의 크기 및 검색 속도가 요하는 요구사항의 제한을 받게 되어, 단일 기기에서 중복 프레임의 확정을 실현하는 것이 비교적 어렵게 되면, 다중 기기 분포형으로 확장하여 배치할 수 있다. 가령 P대의 컴퓨터를 배치할 수 있는 경우, 구체적인 방법은 다음과 같다. 저장소 내 샘플 영상의 샘플 프레임을 P대의 컴퓨터에 평균 할당하여, 각자 할당된 샘플 프레임의 CNN 특징과 국부 특징을 병행하여 추출하는 것으로, 각 컴퓨터는 얻게 된 CNN 특징과 국부 특징을 데이터베이스에 업로드한다. 상기 데이터베이스는 클라우드 저장과 같은 대용량 데이터를 지원 가능한 방안을 채택하여야 한다.
데이터베이스로부터 일부 CNN 특징을 판독하여 하나의 컴퓨터의 내부 메모리에 넣은 후, 판독된 상기 CNN 특징에 근거하여 PCA 행렬, k-means 군집 및 양자화 압축한 파라미터를 얻어서, 얻게 된 PCA 행렬, k-means 군집 파라미터 및 양자화 압축한 파라미터를 모든 컴퓨터 상에 공유한다.
P대의 컴퓨터 상에서 각자 총량/P개의 CNN 특징을 판독하는 것은 누락되지도 않고 중첩되지도 않는다. 공유된 파라미터와 각자 판독한 CNN 특징에 근거하여 군집을 진행하고, 각자 메모리에 CNN 특징 색인을 구축하며, 각각의 컴퓨터 상의 CNN 특징 색인은 상이하다. 중복 프레임 조회 시, 하나의 또는 다수 대의 컴퓨터 상에서 검색 대기 프레임의 CNN 특징과 국부 특징을 연산한 다음, 얻게 된 CNN 특징과 국부 특징을 모든 컴퓨터에 발송하고, 각 컴퓨터는 상기 검색 대기 프레임의 CNN 특징과 각자 컴퓨터의 CNN 특징 색인이 지시하는 각 군집 중 CNN 특징 간의 거리를 병행하여 연산하여, 각자 연산한 거리를 하나의 컴퓨터에 발송하며, 상기 컴퓨터는 거리에 근거하여 재정렬을 진행하여, 거리가 가장 가까운 K개의 결과를 취하여, K개의 제1 프레임을 확정하고, 나아가 국부 특징의 일치도를 통해 중복 프레임인지 여부를 확정한다.
본 발명 실시예에서, 목표 프레임의 차원 축소 CNN 특징과 샘플 프레임 간의 차원 축소 CNN 특징 간의 거리를 통해 1차 선별을 하고, 다시 추가적으로 목표 프레임의 국부 특징과 제1 프레임의 국부 특징 간의 일치도를 통해 2차 선별을 함으로써, 목표 프레임의 중복 프레임을 정확하게 검출하고, 정확도가 높다.
도 4를 참조하면, 도 4는 본 발명 실시예에서 제공하는 중복 프레임을 검색하는 흐름도인 것으로, 도면에서 도시하는 바와 같이, 우선 검색 대기 영상을 캡쳐하여 프레임을 얻고, CNN 신경망 연산, 풀링 및 차원 축소 처리과정을 통해 프레임의 CNN 특징을 얻는다. 저장소 내 영상 CNN 특징 색인에 근거하여, 최근접 탐색 및 필터링 동작을 진행하여 프레임의 CNN 특징과의 거리가 가장 가까운 샘플 프레임을 얻어서, 제1 프레임으로 하고, 제1 프레임이 중복 프레임인지 여부를 확정하기 위하여, 국부 특징을 통해 한층 더 검증해야 한다. 즉, 데이터베이스 내에서 제1 프레임의 국부 특징을 판독한다.
동시에, 프레임에 대하여 국부 특징 추출을 진행하여, 응답도 정렬과 필터링에 근거하여 프레임의 국부 특징을 얻는다. 프레임의 국부 특징과 저장소 내 제1 프레임의 국부 특징 간의 일치도를 연산하여, 일치도가 임계치보다 큰 경우, 제1 프레임 출처의 영상 id와 시점을 확정한다.
도 5를 참조하면, 도 5는 본 발명 실시예에서 제공하는 프레임 처리장치에 대한 구조 모식도이다. 도 5에서 도시하는 바와 같이, 본 발명 실시예의 상기 프레임 처리장치는 다음과 같은 모듈을 포함할 수 있되,
제1 획득모듈(11)은, 목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함하고;
차원 축소 처리모듈(12)은, 상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득하며;
일 실시예에서, 목표 프레임은 검색 대기 영상 중 임의의 하나의 프레임일 수 있거나, 또는, 목표 프레임은 비교를 필요로 하는 하나의 단독의 픽쳐 프레임일 수 있다. 목표 프레임이 검색 대기 영상 중의 프레임이라면, 검색 대상 영상을 등간격 영상 캡쳐하여, 다수 개의 프레임이 생성되고, 목표 프레임은 상기 다수 개의 프레임 중의 임의의 하나일 수 있다. 통상적으로 검색 대기 영상에 대한 캡쳐 간격은 비교를 필요로 하는 데이터베이스 중의 샘플 영상의 캡쳐 간격보다 작아야 하는 것으로, 즉, 검색 대기 영상에 대하여 비교적 높은 빈도, 예컨대 초당 5프레임으로 캡쳐함으로써, 저장소 내의 샘플 프레임과 일치할 수 있도록 확보한다. 보다 바람직하게는, 캡쳐의 시점은 랜덤 디더링 가능한 것으로, 모든 검색 대기 프레임과 저장소 내의 샘플 프레임과의 간격이 공교롭게도 모두 비교적 큰 극단적인 상황이 나타나는 것을 방지하도록 한다.
목표 프레임의 합성곱 신경망(Convolutional Neural Network, CNN) 특징과 목표 프레임의 국부 특징을 획득하는 단계에서, 목표 프레임의 국부 특징이란 즉, 목표 프레임에서 추출하는 키포인트의 특징 디스크립터이고, 목표 프레임에서 추출하는 키포인트란 즉, 목표 프레임 중 인접하는 픽셀 포인트와의 픽셀값이 비교적 큰 픽셀 포인트인 것으로, 예컨대, 목표 프레임의 그래픽 중의 모서리이다.
바람직하게는, 목표 프레임의 CNN 특징을 획득하는 방식은, 대규모 통용 이미지 데이터집합(imagenet, open-images, 또는 ml-images 데이터집합)에서 사전 훈련된 하나의 CNN 신경망을 선정하고, 목표 프레임을 상기 CNN 신경망에 입력하여, 마지막 하나의 또는 다수 개의 합성곱 레이어에서 출력한 특징맵을 풀링처리(pooling)하여, 목표 프레임의 원시 CNN 특징을 얻는 것일 수 있다. 상기 CNN 특징은 고정 길이를 갖는 하나의 부동 소수점 벡터인 것으로, 비교적 높은 차원(예컨대 2048 차원)을 갖는다. 바람직하게는, 목표 프레임의 원시 CNN 특징을 획득한 후, 주성분 분석(Principal components analysis, PCA) 행렬을 이용하여 상기 원시 CNN 특징에 대하여 차원 축소 처리를 진행할 수 있다.
바람직하게는, 목표 프레임의 국부 특징을 획득하는 방식은, SIFT, SURF, ORB, AKAZE, BRISK 등 국부 특징 추출기 중 임의의 하나를 선택하여 국부 특징을 추출하는 것일 수 있다. 테스트한 바에 따르면, BRISK가 상대적으로 정확도와 속도가 모두 높았다. 통상적으로, 기본값 파라미터를 사용하여 추출한 국부 특징은 대량의 키포인트 및 대응되는 특징 디스크립터를 포함하게 된다. 저장공간을 절약하기 위하여, 키포인트를 응답도(response)에 따라 정렬하여, 응답도가 가장 높은 수십 개의 키포인트 및 대응되는 특징 디스크립터만 남겨둘 수 있는 것으로, 여기에서 하나의 키포인트는 하나의 특징 디스크립터에 대응된다.
보다 바람직하게는, 일부 텍스처가 비교적 평활한 프레임에 대하여, 지나치게 적은 키포인트가 검출될 수도 있으므로, 충분한 키포인트가 검출될 때까지 한 번 또는 여러 번에 거쳐서 검출 임계치를 낮출 수 있다.
제2 획득모듈(13)은, 다수 개의 샘플 프레임 중에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되고;
바람직하게는, 제2 획득모듈은 제1 획득유닛, 제1 연산유닛 및 제2 연산유닛을 포함할 수 있으며,
제1 획득유닛은, 샘플 영상의 CNN 특징 색인을 획득하는 것으로, 상기 샘플 영상은 상기 다수 개의 샘플 프레임을 포함하고, 상기 CNN 특징 색인은, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 군집 형성된 다수 개의 군집을 표시하는데 사용되며, 각각의 상기 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하고;
제1 연산유닛은, 상기 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 중 각 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하며;
제2 연산유닛은, 상기 목표 프레임의 차원 축소 CNN 특징과 상기 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 차원 축소 CNN 특징에 대응되는 샘플 프레임을 제1 프레임으로 한다.
일 실시예에서, 데이터베이스에 이미 저장된 샘플 프레임 중에서 목표 프레임의 차원 축소 CNN 특징 간의 거리가 가장 가까운 K개의 샘플 프레임을 선택하고, 제1 프레임은 상기 K개의 샘플 프레임 중의 임의의 하나일 수 있다. 데이터베이스에 이미 저장된 샘플 프레임은 다수 개의 샘플 영상의 샘플 프레임인 것으로, 바람직하게는, 각각의 샘플 영상을 등간격 캡쳐하면, 다수 개의 샘플 프레임을 얻을 수 있고, 캡쳐하는 간격은 희망하는 시간 해상도에 따라 결정된다. 예컨대, 5s 및 그 이상의 세그먼트의 중복을 검출해야 하는 경우, 캡쳐 간격은 5s보다 작아야 한다.
상기 다수 개의 샘플 프레임에서 K개의 샘플 프레임을 선택하고, 상기 K개의 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리가 가장 가까운 것으로, 즉, 상기 K개의 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 K개의 거리는, 모든 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리 중 상위 K위치에 정렬되는 것으로, 여기에서, 상기 모든 샘플 프레임의 차원 축소 CNN 특징과 목표 프레임의 차원 축소 CNN 특징 간의 거리는 거리에 따라 작은 것부터 큰 것 순으로 정렬된다.
여기에서, 거리가 가장 가까운 K개의 샘플 프레임을 선택하는 방식은, 우선 샘플 프레임의 CNN 특징 색인을 획득하고, 상기 샘플 프레임은 저장소 내의 모든 샘플 영상을 포함하는 것으로, 즉, 저장소 내 모든 샘플 영상의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 하나의 차원 축소 CNN 특징 색인을 생성할 수 있다. 상기 CNN 특징 색인은 하나의 구조체이고, 저장소 내 모든 샘플 영상의 샘플 프레임의 차원 축소 CNN 특징이 군집하여 형성되는 다수 개의 군집을 표시하는데 사용되며, 각각의 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함한다. 그 다음, 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 프레임 각각의 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 것으로, 바람직하게는, 목표 군집은 하나의 군집 또는 다수 개의 군집을 포함할 수 있는 것으로, 만약 다수 개의 군집을 포함한다면, 상기 다수 개의 군집의 군집 중심과 목표 프레임의 차원 축소 CNN 특징 간의 거리가 가장 앞에 정렬될 수 있다. 마지막으로, 목표 프레임의 차원 축소 CNN 특징과 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 K개의 샘플 프레임 중 임의의 하나의 프레임을 제1 프레임으로 하면, 즉, K개의 제1 프레임이 존재한다.
바람직하게는, CNN 특징 색인 내의 차원 축소 CNN 특징이 이미 차원 축소 및 양자화 압축 처리를 거쳤기 때문에, 연산된 거리는 일반적으로 근사한 것이므로, 데이터베이스에서 저장된 목표 군집에 포함되는 적어도 하나의 샘플 프레임의 원시 CNN 특징을 동적으로 판독하여 연산 정렬을 진행하여, 거리가 가장 가까운 K개의 샘플 프레임을 얻어서, K개의 제1 프레임으로 할 수 있다.
한층 더 바람직하게는, 상기 K개의 제1 프레임에 대하여 선별을 진행할 수도 있는 것으로, 예컨대, 거리가 일정 임계치를 초과하면, 직접 삭제할 수 있다.
제3 획득모듈(14)은, 상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은, 상기 제1 프레임 중의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함하고;
일 실시예에서, 모든 샘플 프레임 중에서, 검색 대기 목표 프레임이 제1 프레임인 것을 확정한 후, 추가적으로 국부 특징을 통해 검증을 진행해야 한다. 제1 프레임의 국부 특징을 획득하는 방식은, 상술한 단계(S21)에서 구축한 데이터베이스 중에서 제1 프레임의 국부 특징을 추출하는 것일 수 있다. 바람직하게는, 제1 프레임이 속하는 영상 id, 상기 제1 프레임 id에 근거하여, 데이터베이스 프레임에서 대응되는 국부 특징을 조회할 수 있다. 제1 프레임의 국부 특징은 상기 제1 프레임에서 추출한 제2 키포인트와 제2 키포인트에 대응되는 제2 특징 디스크립터를 포함하고, 제1 프레임에서 추출한 제2 키포인트는 제1 프레임 중 인접하는 픽셀 포인트의 픽셀값과 차이가 비교적 큰 픽셀 포인트일 수 있는 것으로, 예컨대, 제1 프레임 중의 모서리 부분일 수 있다.
바람직하게는, 만약 K개의 제1 프레임이 포함된다면, 상기 K개의 제1 프레임 중 각각의 샘플 프레임의 국부 특징을 획득해야 한다.
연산 모듈(15)은, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하고;
바람직하게는, 연산 모듈(15)은 제2 획득유닛, 정렬 유닛, 제3 획득유닛, 제1 확정유닛 및 제2 확정유닛을 더 포함할 수 있으며,
제2 획득유닛은, 각각의 상기 제1 특징 디스크립터에 대하여, 상기 n개의 제2 특징 디스크립터 중 각각의 제2 특징 디스크립터와 상기 제1 특징 디스크립터 간의 n개의 거리를 획득하고;
정렬 유닛은, 큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하며;
제3 획득유닛은, 상기 정렬 라인 중 마지막에 정렬되는 k개의 거리를 획득하는 것으로, 상기 k는 2보다 크거나 같은 자연수이고;
제1 확정유닛은, 상기 k개의 거리에 근거하여, 상기 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것을 확정하며;
제2 확정유닛은, 상기 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정한다.
제1 확정모듈(16)은, 상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 한다.
바람직하게는, 제1 확정모듈은 제4 획득유닛과 제3 확정유닛을 포함할 수 있되,
제4 획득유닛은, 상기 제1 프레임의 프레임 표시를 획득하고;
제3 확정유닛은, 상기 제1 프레임의 프레임 표시의 상기 다수 개의 영상 중에 대응되는 목표 영상을 조회하고, 및 상기 제1 프레임의 프레임 표시의 상기 목표 영상에 대응되는 제2 방송 시점을 조회하여, 상기 검색 대기 영상 중 제1 방송 시점의 프레임과 상기 목표 영상 중 제2 방송 시점의 프레임을 중복 프레임으로 확정한다.
일 실시예에서, 만약 K개의 제1 프레임이 존재한다면, 상기 K개의 제1 프레임 중 각각의 제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도를 연산해야 하고, 만약 제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도가 제1 임계치보다 크다면, 상기 제1 프레임과 목표 프레임이 중복 프레임인 것으로 확정한다.
제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도를 연산하는 방식은, 예컨대 목표 프레임의 국부 특징이 m개의 제1 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 제1 키포인트가 하나의 제1 특징 디스크립터에 대응되는 것일 수 있는 것으로, 예컨대, 제1 특징 디스크립터를 Ai(i = 1, 2,...m)으로 표시할 수 있고, 제1 프레임의 국부 특징이 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하고, 하나의 제2 키포인트가 하나의 제2 특징 디스크립터에 대응되는 것일 수 있는 것으로, 예컨대 제2 특징 디스크립터를 Bj(j = 1, 2,...m)으로 표시할 수 있으며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이다.
각각의 제1 특징 디스크립터 Ai에 대하여, n개의 제2 특징 디스크립터 Bj 중 각각의 제2 특징 디스크립터와 제1 특징 디스크립터 간의 n개의 거리를 획득한다. 큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하여, 상기 정렬 라인 프레임의 마지막에 배열되는 k개의 거리, 즉 거리가 가장 가까운 k개의 거리를 획득하고, 상기 k개의 거리에 근거하여, 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것임을 확정한다. 예컨대 k = 2인 경우, 즉, 각각의 Ai에 대하여 그와 거리가 가장 가까운 Bj1(거리는 Di,j,1)와 거리가 두 번째로 가까운 Bj2(거리는 Di,j,2)를 찾고, 만약 Di,j,1 < r * Di,j,2 (r의 값은 0.6-0.9일 수 있다)인 경우, 제1 특징 디스크립터 Ai가 제1 프레임과 일되는 유효 디스크립터인 것으로 판단한다.
나아가, 목표 프레임 중 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정한다. 예컨대, 최종의 일치도는, 일치도=유효 디스크립터의 수량/max(m, n)일 수 있다.
만약 K개의 제1 프레임이 존재한다면, 검색 대기 목표 프레임과 다수 개의 샘플 프레임은 모두 다 중복 프레임일 가능성이 있는 것이므로, 목표 프레임과 상기 K개의 제1 프레임 중 각각의 제1 프레임 간의 일치도를 검증해야 함으로써, 목표 프레임과 제1 프레임이 중복 프레임인지 여부를 확정해야 한다.
목표 프레임과 제1 프레임이 중복 프레임인 것으로 확정된 후, 중복 프레임이 위치되는 방송 시점, 및 상기 중복 프레임의 출처가 샘플 프레임 중 어느 영상으로부터 오는지를 추가로 결정할 수 있다. 예컨대, 목표 프레임이 검색 대기 영상의 제1 방송 시점의 프레임인 경우, 상기 제1 프레임의 프레임 표시를 획득하여, 데이터베이스에서 상기 제1 프레임의 프레임 표시의 목표 영상에 대응되는 제2 방송 시점을 조회할 수 있고, 설명해야 할 것은, 만약 K개의 제1 프레임이 존재한다면, 상기 K개의 제1 프레임은 서로 다른 영상의 서로 다른 방송 시점에 대응될 수 있다.
본 발명 실시예에서, 우선 검색 대기 목표 프레임의 CNN 특징과 국부 특징을 획득하고, 다시 다수 개의 샘플 프레임 중에서 목표 프레임의 CNN 특징 간의 거리 거리가 가장 가까운 샘플 프레임을 선택하여, 제1 프레임으로 하며, 그 다음 제1 프레임의 국부 특징을 획득하고, 마지막으로 제1 프레임의 국부 특징과 목표 프레임의 국부 특징 간의 일치도를 연산하며, 만약 일치도가 제1 임계치보다 크면, 상기 제1 프레임과 목표 프레임을 중복 프레임으로 확정한다. 이와 같은 방식은, 우선 CNN 특징을 통해 1차 선별을 하고, 다시 추가적으로 국부 특징 일치도를 통해 2차 선별을 함으로써, 목표 프레임과 샘플 프레임이 중복 프레임인지 여부를 정확하게 확정하는 것으로, 정확도가 높다.
구체적인 실행 단계는 전술한 도 1의 방법의 실시예에 대한 설명을 참조할 수 있고, 여기에서는 더 이상 중복하여 설명하지 않는다.
도 6에서 도시하는 바와 같이, 도 6은 본 발명 실시예에서 제공하는 다른 하나의 프레임 처리장치에 대한 구조 모식도인 것으로, 도면에서 도시하는 바와 같이, 본 발명 실시예에서 제공하는 프레임 처리장치는 제1 획득모듈(21), 차원 축소 처리모듈(22), 제2 획득모듈(23), 제3 획득모듈(24), 연산 모듈(25), 제1 확정모듈(26), 제4 획득모듈(27), 차원 축소 처리모듈(28), 군집 모듈(29), 양자화 압축 모듈(30), 생성 모듈(31) 및 제2 확정모듈(32)을 포함하되; 여기에서, 제1 획득모듈(21), 차원 축소 처리모듈(22), 제2 획득모듈(23), 제3 획득모듈(24), 연산 모듈(25), 제1 확정모듈(26)은 도 5의 실시예에 대한 설명을 참조하고, 여기에서는 더 이상 중복하여 설명하지 않는다.
제4 획득모듈(27)은, 상기 다수 개의 샘플 프레임의 CNN 특징을 획득하고;
일 실시예에서, 저장소 내 모든 샘플 영상에 포함되는 샘플 프레임에 근거하여 CNN 특징 색인을 생성하고, 저장소 내 영상을 등간격 캡쳐하여 대응되는 샘플 프레임을 생성하며, 캡쳐하는 간격은 희망하는 시간 해상도에 따라 결정된다. 예컨대, 만약 5s 및 그 이상의 세그먼트 중복을 검출해야 하는 경우, 캡쳐 간격은 5s보다 작아야 한다.
분할된 다수 개의 샘플 프레임 중 각 샘플 프레임의 CNN 특징을 추출한다. 구체적으로 바람직하게는, 대규모 통용 이미지 데이터집합(imagenet, open-images, 또는 ml-images 데이터집합)에서 사전 훈련된 하나의 CNN 신경망을 선정한다. 추출된 각 샘플 프레임을 상기 CNN 신경망에 각각 입력하여, 마지막 하나의 또는 다수 개의 합성곱 레이어에서 출력된 특징맵을 풀링처리(pooling)하여, 프레임의 원시 CNN 특징을 얻게 되고, 상기 원시 CNN 특징은 고정 길이를 갖는 하나의 부동 소수점 벡터인 것으로, 비교적 높은 차원(예컨대 2048 차원)을 갖는다.
한층 더 바람직하게는, 또한 저장소 내 모든 샘플 영상의 샘플 프레임의 국부 특징을 각각 추출할 수 있고, SIFT, SURF, ORB, AKAZE, BRISK 등 국부 특징 추출기 중 하나를 선택하여 국부 특징을 추출할 수 있다. 테스트한 바에 따르면, BRISK가 상대적으로 정확도와 속도가 모두 높은 것으로, 통상적으로 기본값 파라미터를 사용하여 추출한 국부 특징은 대량의 키포인트 및 대응되는 특징 디스크립터를 포함하게 된다. 저장공간을 절약하기 위하여, 키포인트를 응답도(response)에 따라 정렬하여, 응답도가 가장 높은 수십 개의 키포인트 및 대응되는 특징 디스크립터만 남겨둘 수 있다. 보다 바람직하게는, 일부 텍스처가 비교적 평활한 프레임에 대하여, 검출된 키포인트가 지나치게 적을 수도 있으므로, 충분한 키포인트 및 대응되는 특징 디스크립터가 검출될 때까지 한 번 또는 여러 번에 거쳐서 검출 임계치를 낮출 수 있다.
모든 샘플 영상의 샘플 프레임의 CNN 특징과 국부 특징이 추출된 후, 샘플 영상의 영상 id, 프레임 id에 근거하여 데이터베이스를 구축하여, (영상 id, 프레임 id, 프레임 시점, CNN 특징, 국부 특징)정보 튜플을 데이터베이스에 업로드할 수 있다. 가령 영상 총길이가 10만 시간이고, 5초당 1프레임 캡쳐하며, CNN 특징이 2048 차원 단정도 부동 소수점수(점용공간 8 KB)이고, 국부 특징이 128개 BRISK 특징 디스크립터(점용공간 약 128 x 64 Byte = 8 KB)이면, 데이터베이스의 크기는 약 1.07 TB이며, 단일 컴퓨터 기기에 배치할 수 있다.
도 3에서 도시하는 바와 같이, 도 3은 본 발명 실시예에서 제공하는 CNN 특징과 국부 특징 추출 흐름도이고, 도면에서 도시하는 바와 같이, 저장소 내 프레임에 대하여 캡쳐를 진행하여, 샘플 프레임을 얻으며, CNN 신경망을 통해 연산하여 CNN 특징맵을 얻고, CNN 특징맵에 대하여 풀링 처리를 진행하게 되면, 샘플 프레임의 CNN 특징을 얻게 되며, 동시에, 샘플 프레임에 대하여 국부 특징 추출을 진행하여, 샘플 프레임의 국부 특징을 얻고, 응답도 정렬과 필터링 방식을 통해, 국부 특징에 대하여 선별을 진행하여, 선별된 샘플 프레임의 국부 특징을 얻는다. 샘플 프레임의 CNN 특징, 국부 특징을 데이터베이스에 업로드시켜 저장한다.
차원 축소 모듈(28)은, 주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 저차원 CNN 특징을 획득하고;
일 실시예에서, 데이터베이스로부터 전부 또는 일부 샘플 프레임의 원시 CNN 특징을 판독하여 내부 메모리에 로딩한 후, 내부 메모리에 로딩된 원시 CNN 특징을 이용하여 PCA 행렬을 훈련시키는 것으로, 상기 PCA 행렬은 CNN 특징 차원을 낮추는 동시에, 기존 정보를 가능한 보류할 수 있다. 바람직하게는, PCA 행렬의 고유값(eigenvalue)에 대하여 제곱근을 구한 후 다시 역수를 구하면, 상기 PCA 행렬은 데이터 화이트닝 효과를 부수적으로 갖게 된다.
훈련으로 PCA 행렬을 얻게 된 후, 데이터베이스 중의 모든 샘플 프레임의 원시 CNN 특징을 한꺼번에 또는 여러 번 나눠서 내부 메모리에 로딩하고, 훈련으로 얻은 PCA 행렬을 이용하여 모든 샘플 프레임의 원시 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 모든 샘플 프레임의 차원 축소 CNN 특징을 획득한다.
군집 모듈(29)은, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하며;
일 실시예에서, 유클리드 거리 또는 코사인 거리에 의거하여, 모든 샘플 프레임의 저차원 CNN 특징에 대하여 k-means 군집을 진행하여, N개의 군집 및 대응되는 군집 중심을 얻고, 각각의 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함한다.
양자화 압축 모듈(30)은, 각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득하고;
일 실시예에서, 각각의 군집에 포함되는 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하며, 바람직하게는, 스칼라 양자화(scalar quantization) 또는 프로덕트 양자화(product quantization)를 이용하여, 각각의 군집에 포함되는 샘플 프레임의 차원 축소 CNN 특징을 한층 더 압축시킬 수 있다. 예컨대, 만약 스칼라 양자화를 사용하는 경우, 샘플 프레임의 차원 축소 CNN 특징의 각 차원을 4바이트의 부동 소수점수에서 1바이트의 정수로 압축시킬 수 있다.
생성 모듈(31)은, 상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 영상의 CNN 특징 색인을 생성한다.
일 실시예에서, k-means 군집에 의해 형성된 N개의 군집, 상기 N개의 군집의 군집 중심, 각각의 군집에 대응되는 압축된 CNN 특징에 근거하여, 저장소 내 샘플 영상의 CNN 특징 색인을 생성할 수 있고, 상기 CNN 특징 색인은 하나의 구조체이며, 상기 CNN 특징 색인을 통해 상술한 N개의 군집, 상기 N개의 군집의 군집 중심 및 각각의 군집에 대응되는 압축된 CNN 특징을 얻을 수 있다.
가령 샘플 프레임의 총 길이가 10만 시간이고, 5초당 1프레임 캡쳐하면, PCA는 256으로 차원 축소되며, 스칼라 양자화를 사용하면, CNN 특징 색인의 최종 크기는 약 100,000 x 60 x 12 x 256 Byte = 17 GB인 것으로, 단일 기기의 내부 메모리에서 생성될 수 있다.
제2 확정모듈(32)은, 상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기의 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함한다.
일 실시예에서, 목표 프레임은 검색 대기 영상 중의 임의의 하나의 프레임이고, 검색 대기 영상에 포함되는 모든 프레임을 모두 저장소 내 샘플 영상의 샘플 프레임에 비교하여, 중복 프레임인지 여부를 확정한다. 검색 대기 영상과 목표 영상의 모든 중복 프레임의 프레임 수량은 제2 임계치보다 크고, 상기 프레임 수량은 검색 대기 영상 중에서 중복 프레임으로 확정된 프레임 수량에 의해 결정될 수 있으며, 예컨대, 검색 대기 영상 중 100개의 프레임과 저장소 내의 샘플 프레임이 중복 프레임인 경우, 중복 프레임의 프레임 수량을 100으로 하고, 또한 중복 프레임 중 연속 분포 조건을 충족하는 중복 프레임이 검색 대기 영상의 제1 시간대와 목표 프레임의 제2 시간대에 각각 분포되면, 검색 대기 영상 중 제1 시간대의 영상과 목표 영상 중 제2 시간대의 영상을 중복 영상 세그먼트로 확정한다. 여기에서, 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것일 수 있는 것으로, 즉, 중복 프레임은 기본적으로 검색 대기 영상의 제1 시간대와 목표 영상의 제2 시간대에 연속하여 집중적으로 분포된다.
본 발명 실시예에서, 목표 프레임의 차원 축소 CNN 특징과 샘플 프레임 간의 차원 축소 CNN 특징 간의 거리를 통해 1차 선별을 하고, 다시 추가적으로 목표 프레임의 국부 특징과 제1 프레임의 국부 특징 간의 일치도를 통해 2차 선별을 함으로써, 목표 프레임의 중복 프레임을 정확하게 검출하고, 정확도가 높다.
구체적인 실행 단계는 전술한 도 1의 방법의 실시예에 대한 설명을 참조할 수 있고, 여기에서는 더 이상 중복하여 설명하지 않는다.
본 발명 실시예는 컴퓨터 저장매체를 더 제공하는 것으로, 상기 컴퓨터 저장매체에는 여러 갈래의 지령이 저장될 수 있고, 상기 지령은 프로세서에 의해 로딩되어 전술한 도 1에서 도시하는 실시예의 방법에 따른 단계를 실행하는데 적용되는 것으로, 구체적인 실행 과정은 도 1에서 도시하는 실시예에 대한 구체적인 설명을 참조할 수 있고, 여기에서는 더 이상 중복하여 설명하지 않는다.
도 7을 참조하면, 도 7은 본 발명 실시예에서 제공하는 또 다른 하나의 프레임 처리장치에 대한 구조 모식도이고, 도 7에서 도시하는 바와 같이, 상기 프레임 처리장치(1000)는 CPU와 같은 적어도 하나의 프로세서(1001), 적어도 하나의 통신 접속단자(1003), 메모리(1004), 적어도 하나의 통신 버스(1002)를 포함한다. 여기에서, 통신 버스(1002)는 이와 같은 어셈블리 간의 연결 통신을 실현한다. 통신 접속단자(1003)는 바람직하게는, 표준 유선 접속단자, 무선 접속단자(예컨대, WI-FI 접속단자)를 포함할 수 있다. 메모리(1004)는 고속 RAM 메모리일 수도 있고, 적어도 하나의 자기 디스크와 같은 비휘발성 메모리(non-volatile memory)일 수도 있다. 메모리(1004)는 바람직하게는 적어도 하나의 전술한 프로세스(1001)로부터 멀리 떨어지게 위치되는 저장장치일 수도 있다. 도 7에서 도시하는 바와 같이, 컴퓨터 저장매체의 메모리(1004)에는 운영시스템, 네트워크 통신모듈 및 프로그램 지령을 포함할 수 있다.
도 7에서 도시하는 프레임 처리장치(1000)에서, 프로세서(1001)는 메모리(1004)에 저장된 프로그램 지령을 로딩할 수 있고, 구체적으로,
목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함하는 단계;
상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득하는 단계;
다수 개의 샘플 프레임에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되는 단계;
상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은, 상기 제1 프레임의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함하는 단계;
상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 단계;
상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 단계;를 수행한다.
바람직하게는, 목표 프레임의 합성곱 신경망 CNN 특징을 획득하는 상기 단계는,
검색 대기 영상을 획득하는 단계;
상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여, 목표 프레임을 획득하는 것으로, 상기 목표 프레임은, 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여 얻은 다수 개의 프레임 중 임의의 하나의 프레임인 단계;
상기 목표 프레임을 CNN 신경망에 입력하여 처리하여, 상기 목표 프레임의 CNN 특징을 획득하는 단계;를 포함한다.
바람직하게는, 다수 개의 샘플 프레임에서 제1 프레임을 획득하는 상기 단계는,
샘플 영상의 CNN 특징 색인을 획득하는 것으로, 상기 샘플 영상은 상기 다수 개의 샘플 프레임을 포함하고, 상기 CNN 특징 색인은 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 군집 형성된 다수 개의 군집을 표시하는데 사용되며, 각각의 상기 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 단계;
상기 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 중 각 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 단계;
상기 목표 프레임의 차원 축소 CNN 특징과 상기 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 차원 축소 CNN 특징에 대응되는 샘플 프레임을 제1 프레임으로 하는 단계;를 포함한다.
바람직하게는, 상기 목표 프레임의 국부 특징은 m개의 제1 키포인트 및 상기 m개의 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 상기 제1 키포인트는 하나의 상기 제1 특징 디스크립터에 대응되며, 상기 제1 프레임의 국부 특징은 n개의 제2 키포인트 및 상기 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하고, 하나의 상기 제2 키포인트는 하나의 상기 제2 특징 디스크립터에 대응되며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이며;
상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 상기 단계는,
각각의 상기 제1 특징 디스크립터에 대하여, 상기 n개의 제2 특징 디스크립터 중 각 제2 특징 디스크립터와 상기 제1 특징 디스크립터 간의 n개의 거리를 획득하는 단계;
큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하는 것;
상기 정렬 라인 중 마지막에 정렬되는 k개의 거리를 획득하며, 상기 k는 2보다 크거나 같은 자연수인 단계;
상기 k개의 거리에 근거하여, 상기 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것을 확정하는 단계;
상기 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정하는 단계;를 포함한다.
바람직하게는, 목표 프레임의 합성곱 신경망 CNN 특징과 국부 특징을 획득하는 상기 단계 이전에,
상기 다수 개의 샘플 프레임의 CNN 특징을 획득하는 단계;
주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징을 획득하는 단계;
상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 단계;
각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득하는 단계;
상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 영상의 CNN 특징 색인을 생성하는 단계;를 더 포함한다.
바람직하게는, 상기 목표 프레임은 검색 대기 영상에 속하고, 상기 목표 프레임의 상기 검색 대기 영상 중에서의 방송 시점은 제1 방송 시점이며, 상기 제1 프레임은 샘플 프레임 중에서의 목표 영상에 속하고, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 상기 단계는,
상기 제1 프레임의 프레임 표시를 획득하는 단계;
상기 제1 프레임의 프레임 표시의 상기 목표 영상에 대응되는 제2 방송 시점을 조회하여, 상기 목표 영상 중 제2 방송 시점의 프레임을 상기 검색 대기 영상 중 제1 방송 시점의 프레임의 중복 프레임으로 하는 단계;를 포함한다.
바람직하게는, 프로세서(1001)는 메모리(1004)에 저장된 프로그램 지령을 로딩하는데 사용될 수 있는 것으로, 구체적으로 다음 단계를 수행한다.
상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기의 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함한다.
설명해야 할 것은, 구체적인 실행 과정은 도 1에서 도시하는 방법의 실시예에 대한 구체적인 설명을 참조할 수 있고, 여기에서는 더 이상 중복하여 설명하지 않는다.
본 분야 통상의 기술지식을 가진 자는 상술한 실시예 방법의 전부 또는 일부 과정을 실현하기 위해서는, 컴퓨터 프로그램을 통해 관련 하드웨어를 지령하는 것을 통해 완성할 수 있다는 것을 이해할 수 있고, 상기 프로그램은 컴퓨터 판독가능 저장매체에 저장될 수 있는 것으로, 상기 프로그램이 실행될 때, 상술한 바의 각 방법의 실시예의 흐름 과정을 포함한다. 여기에서, 상기 저장매체는 디스크, 광디스크, 읽기전용 기억장치(Read-Only Memory, ROM) 또는 랜덤 액세스 메모리(Random Access Memory, RAM) 등일 수 있다.

Claims (14)

  1. 프레임 처리방법에 있어서,
    목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함하는 단계;
    상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득하는 단계;
    다수 개의 샘플 프레임에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되는 단계;
    상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은, 상기 제1 프레임의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함하는 단계;
    상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 단계;
    상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 단계;
    를 포함하는 것을 특징으로 하는 프레임 처리방법.
  2. 제1항에 있어서,
    목표 프레임의 합성곱 신경망 CNN 특징을 획득하는 상기 단계는,
    검색 대기 영상을 획득하는 단계;
    상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여, 목표 프레임을 획득하는 것으로, 상기 목표 프레임은, 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여 얻은 다수 개의 프레임 중 임의의 하나의 프레임인 단계;
    상기 목표 프레임을 CNN 신경망에 입력하여 처리하여, 상기 목표 프레임의 CNN 특징을 획득하는 단계;
    를 포함하는 것을 특징으로 하는 프레임 처리방법.
  3. 제1항에 있어서,
    다수 개의 샘플 프레임에서 제1 프레임을 획득하는 상기 단계는,
    샘플 영상의 CNN 특징 색인을 획득하는 것으로, 상기 샘플 영상은 상기 다수 개의 샘플 프레임을 포함하고, 상기 CNN 특징 색인은 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 군집 형성된 다수 개의 군집을 표시하는데 사용되며, 각각의 상기 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 단계;
    상기 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 중 각 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 단계;
    상기 목표 프레임의 차원 축소 CNN 특징과 상기 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 차원 축소 CNN 특징에 대응되는 샘플 프레임을 제1 프레임으로 하는 단계;
    를 포함하는 것을 특징으로 하는 프레임 처리방법.
  4. 제3항에 있어서,
    상기 목표 프레임의 국부 특징은 m개의 제1 키포인트 및 상기 m개의 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 상기 제1 키포인트는 하나의 상기 제1 특징 디스크립터에 대응되며, 상기 제1 프레임의 국부 특징은 n개의 제2 키포인트 및 상기 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하고, 하나의 상기 제2 키포인트는 하나의 상기 제2 특징 디스크립터에 대응되며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이며;
    상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 상기 단계는,
    각각의 상기 제1 특징 디스크립터에 대하여, 상기 n개의 제2 특징 디스크립터 중 각 제2 특징 디스크립터와 상기 제1 특징 디스크립터 간의 n개의 거리를 획득하는 단계;
    큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하는 단계;
    상기 정렬 라인 중 마지막에 정렬되는 k개의 거리를 획득하고, 상기 k는 2보다 크거나 같은 자연수인 단계;
    상기 k개의 거리에 근거하여, 상기 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것을 확정하는 단계;
    상기 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정하는 단계;
    를 포함하는 것을 특징으로 하는 프레임 처리방법.
  5. 제3항 또는 제4항에 있어서,
    목표 프레임의 합성곱 신경망 CNN 특징과 국부 특징을 획득하는 상기 단계 이전에,
    상기 다수 개의 샘플 프레임의 CNN 특징을 획득하는 단계;
    주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징을 획득하는 단계;
    상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 단계;
    각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득하는 단계;
    상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 영상의 CNN 특징 색인을 생성하는 단계;
    를 더 포함하는 것을 특징으로 하는 프레임 처리방법.
  6. 제1항에 있어서,
    상기 목표 프레임은 검색 대기 영상에 속하고, 상기 목표 프레임의 상기 검색 대기 영상 중에서의 방송 시점은 제1 방송 시점이며, 상기 제1 프레임은 샘플 프레임 중에서의 목표 영상에 속하고, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 상기 단계는,
    상기 제1 프레임의 프레임 표시를 획득하는 단계;
    상기 제1 프레임의 프레임 표시의 상기 목표 영상에 대응되는 제2 방송 시점을 조회하여, 상기 목표 영상 중 제2 방송 시점의 프레임을 상기 검색 대기 영상 중 제1 방송 시점의 프레임의 중복 프레임으로 하는 단계;
    를 포함하는 것을 특징으로 하는 프레임 처리방법.
  7. 제6항에 있어서,
    상기 방법은,
    상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함하는 단계;
    를 더 포함하는 것을 특징으로 하는 프레임 처리방법.
  8. 프레임 처리장치에 있어서,
    목표 프레임의 합성곱 신경망 CNN 특징과 상기 목표 프레임의 국부 특징을 획득하는 것으로, 상기 목표 프레임의 국부 특징은, 상기 목표 프레임의 제1 키포인트와 상기 제1 키포인트에 대응되는 특징 디스크립터를 포함하는 제1 획득모듈;
    상기 목표 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 목표 프레임의 차원 축소 CNN 특징을 획득하는 차원 축소 처리모듈;
    다수 개의 샘플 프레임 중에서 제1 프레임을 획득하는 것으로, 상기 제1 프레임의 차원 축소 CNN 특징과 상기 목표 프레임의 차원 축소 CNN 특징 간의 거리는 제1 미리 설정된 조건에 부합되는 제2 획득모듈;
    상기 제1 프레임의 국부 특징을 획득하는 것으로, 상기 제1 프레임의 국부 특징은 상기 제1 프레임 중의 제2 키포인트와 상기 제2 키포인트에 대응되는 특징 디스크립터를 포함하는 제3 획득모듈;
    상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 연산하는 연산 모듈;
    상기 일치도가 제2 미리 설정된 조건에 부합되는 경우, 상기 제1 프레임을 상기 목표 프레임의 중복 프레임으로 하는 제1 확정모듈;
    을 포함하는 것을 특징으로 하는 프레임 처리장치.
  9. 제8항에 있어서,
    상기 제1 획득모듈은 구체적으로, 검색 대기 영상을 획득하고; 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여, 목표 프레임을 획득하며, 상기 목표 프레임은, 상기 검색 대기 영상에 대하여 등간격 영상 캡쳐를 진행하여 얻은 다수 개의 프레임 중 임의의 하나의 프레임이고; 상기 목표 프레임을 CNN 신경망에 입력하여 처리하여, 상기 목표 프레임의 CNN 특징을 획득하는데 사용되는 것을 특징으로 하는 프레임 처리장치.
  10. 제8항에 있어서,
    상기 제2 획득모듈은,
    샘플 영상의 CNN 특징 색인을 획득하는 것으로, 상기 샘플 영상은 상기 다수 개의 샘플 프레임을 포함하고, 상기 CNN 특징 색인은, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 근거하여 군집 형성된 다수 개의 군집을 표시하는데 사용되며, 각각의 상기 군집은 군집 중심과 상기 군집 중 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 제1 획득유닛;
    상기 목표 프레임의 차원 축소 CNN 특징과 상기 다수 개의 군집 중 각 군집의 군집 중심 간의 거리를 연산하여, 거리가 가장 가까운 군집 중심에 대응되는 군집을 목표 군집으로 하는 제1 연산유닛;
    상기 목표 프레임의 차원 축소 CNN 특징과 상기 목표 군집에 포함되는 적어도 하나의 샘플 프레임 중 각 샘플 프레임의 차원 축소 CNN 특징 간의 거리를 연산하여, 거리가 가장 가까운 차원 축소 CNN 특징에 대응되는 샘플 프레임을 제1 프레임으로 하는 제2 연산유닛;
    을 포함하는 것을 특징으로 하는 프레임 처리장치.
  11. 제10항에 있어서,
    상기 목표 프레임의 국부 특징은 m개의 제1 키포인트 및 상기 m개의 키포인트에 대응되는 m개의 제1 특징 디스크립터를 포함하고, 하나의 상기 제1 키포인트는 하나의 상기 제1 특징 디스크립터에 대응되며, 상기 제1 프레임의 국부 특징은 n개의 제2 키포인트 및 상기 n개의 제2 키포인트에 대응되는 n개의 제2 특징 디스크립터를 포함하고, 하나의 상기 제2 키포인트는 하나의 상기 제2 특징 디스크립터에 대응되며, 상기 m은 2보다 크거나 같은 자연수이고, 상기 n은 2보다 크거나 같은 자연수이며; 상기 연산 모듈은,
    각각의 상기 제1 특징 디스크립터에 대하여, 상기 n개의 제2 특징 디스크립터 중 각 제2 특징 디스크립터와 상기 제1 특징 디스크립터 간의 n개의 거리를 획득하는 제2 획득유닛;
    큰 것부터 작은 것 순으로, 상기 n개의 거리를 정렬하여 정렬 라인을 형성하는 정렬 유닛;
    상기 정렬 라인 중 마지막에 정렬되는 k개의 거리를 획득하는 것으로, 상기 k는 2보다 크거나 같은 자연수인 제3 획득유닛;
    상기 k개의 거리에 근거하여, 상기 제1 특징 디스크립터가 상기 제1 프레임과 일치되는 유효 디스크립터인 것을 확정하는 제1 확정유닛;
    상기 m개의 제1 특징 디스크립터 중 유효 디스크립터인 수량에 근거하여, 상기 제1 프레임의 국부 특징과 상기 목표 프레임의 국부 특징 간의 일치도를 확정하는 제2 확정유닛;
    을 포함하는 것을 특징으로 하는 프레임 처리장치.
  12. 제10항 또는 제11항에 있어서,
    상기 장치는,
    상기 다수 개의 샘플 프레임의 CNN 특징을 획득하는 제4 획득모듈;
    주성분 분석 PCA 행렬을 채택하여 상기 다수 개의 샘플 프레임의 CNN 특징에 대하여 차원 축소 처리를 진행하여, 상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징을 획득하는 차원 축소 모듈;
    상기 다수 개의 샘플 프레임의 차원 축소 CNN 특징에 대하여 k-means 군집을 진행하여, 다수 개의 군집을 형성하고, 각각의 상기 군집은 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징을 포함하는 군집 모듈;
    각각의 상기 군집에 포함되는 적어도 하나의 샘플 프레임의 차원 축소 CNN 특징에 대하여 양자화 압축을 진행하여, 상기 군집에 대응되는 압축된 CNN 특징을 획득하는 양자화 압축 모듈;
    상기 다수 개의 군집, 각각의 상기 군집에 대응되는 압축된 CNN 특징 및 각각의 상기 군집의 군집 중심에 근거하여, 샘플 영상의 CNN 특징 색인을 생성하는 생성 모듈;
    을 더 포함하는 것을 특징으로 하는 프레임 처리장치.
  13. 제8항에 있어서,
    상기 목표 프레임은 검색 대기 영상에 속하고, 상기 목표 프레임의 상기 검색 대기 영상 중에서의 방송 시점은 제1 방송 시점이며, 상기 제1 프레임은 샘플 프레임 중에서의 목표 영상에 속하고, 상기 제1 확정모듈은,
    상기 제1 프레임의 프레임 표시를 획득하는 제4 획득유닛;
    상기 제1 프레임의 프레임 표시의 상기 목표 영상에 대응되는 제2 방송 시점을 조회하여, 상기 목표 영상 중 제2 방송 시점의 프레임을 상기 검색 대기 영상 중 제1 방송 시점의 프레임의 중복 프레임으로 하는 제3 확정유닛;
    을 포함하는 것을 특징으로 하는 프레임 처리장치.
  14. 제13항에 있어서,
    상기 장치는,
    상기 검색 대기 영상과 상기 목표 영상의 모든 중복 프레임의 프레임 수량이 제2 임계치보다 크고, 또한 상기 모든 중복 프레임 중 연속 분포 조건에 충족되는 중복 프레임이 상기 검색 대기 영상의 제1 시간대와 상기 목표 영상의 제2 시간대에 각각 분포되는 경우, 상기 검색 대기 영상 중 상기 제1 시간대의 영상과 상기 목표 영상 중 상기 제2 시간대의 영상을 중복 영상 세그먼트로 확정하며, 상기 제1 시간대는 상기 제1 방송 시점을 포함하고, 상기 제2 시간대는 상기 제2 방송 시점을 포함하며, 상기 연속 분포 조건은 인접하는 중복 프레임의 시간차가 제3 임계치보다 작은 것을 포함하는 제2 확정모듈;
    을 더 포함하는 것을 특징으로 하는 프레임 처리장치.
KR1020227005421A 2019-07-18 2019-10-30 프레임 처리방법 및 장치 KR20220032627A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910651319.3 2019-07-18
CN201910651319.3A CN110442749B (zh) 2019-07-18 2019-07-18 视频帧处理方法及装置
PCT/CN2019/114271 WO2021007999A1 (zh) 2019-07-18 2019-10-30 视频帧处理方法及装置

Publications (1)

Publication Number Publication Date
KR20220032627A true KR20220032627A (ko) 2022-03-15

Family

ID=68430885

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227005421A KR20220032627A (ko) 2019-07-18 2019-10-30 프레임 처리방법 및 장치

Country Status (4)

Country Link
US (1) US20220139085A1 (ko)
KR (1) KR20220032627A (ko)
CN (1) CN110442749B (ko)
WO (1) WO2021007999A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868441B2 (en) * 2020-09-22 2024-01-09 Nbcuniversal Media, Llc Duplicate frames detection
CN113780319A (zh) * 2020-09-27 2021-12-10 北京沃东天骏信息技术有限公司 闭环检测方法及装置、计算机可存储介质
CN112507875A (zh) * 2020-12-10 2021-03-16 上海连尚网络科技有限公司 一种用于检测视频重复度的方法与设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTO20120986A1 (it) * 2012-11-14 2014-05-15 St Microelectronics Srl Procedimento per l'estrazione di informazioni distintive da un flusso di frame video digitali, sistema e prodotto informatico relativi
CN103631932B (zh) * 2013-12-06 2017-03-01 中国科学院自动化研究所 一种对重复视频进行检测的方法
CN106021575A (zh) * 2016-05-31 2016-10-12 北京奇艺世纪科技有限公司 一种视频中同款商品检索方法及装置
CN107229710A (zh) * 2017-05-27 2017-10-03 深圳市唯特视科技有限公司 一种基于局部特征描述符的视频分析方法
CN108363771B (zh) * 2018-02-08 2020-05-01 杭州电子科技大学 一种面向公安侦查应用的图像检索方法
CN109543735A (zh) * 2018-11-14 2019-03-29 北京工商大学 视频拷贝检测方法及其系统
CN109871490B (zh) * 2019-03-08 2021-03-09 腾讯科技(深圳)有限公司 媒体资源匹配方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN110442749A (zh) 2019-11-12
US20220139085A1 (en) 2022-05-05
CN110442749B (zh) 2023-05-23
WO2021007999A1 (zh) 2021-01-21

Similar Documents

Publication Publication Date Title
Simonyan et al. Learning local feature descriptors using convex optimisation
US10438050B2 (en) Image analysis device, image analysis system, and image analysis method
Zheng et al. Packing and padding: Coupled multi-index for accurate image retrieval
US10796196B2 (en) Large scale image recognition using global signatures and local feature information
US8364703B2 (en) Media fingerprinting and identification system
Aly et al. Indexing in large scale image collections: Scaling properties and benchmark
Girod et al. Mobile visual search: Architectures, technologies, and the emerging MPEG standard
KR20220032627A (ko) 프레임 처리방법 및 장치
CN102521618B (zh) 局部描述子的提取方法、图片检索方法及图像匹配方法
JP2015170358A (ja) シーンから取得されるビデオの低階数記述子を抽出する方法
CN105320705A (zh) 相似车辆的检索方法及装置
CN104160409A (zh) 用于图像分析的方法和系统
CN108881947A (zh) 一种直播流的侵权检测方法及装置
WO2023108995A1 (zh) 向量相似度计算方法、装置、设备及存储介质
KR20180119013A (ko) 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치
KR20150013572A (ko) 이미지 분석 방법 및 시스템
WO2020125100A1 (zh) 一种图像检索方法、装置以及设备
BR112014016400B1 (pt) Método e sistema para processar uma imagem, e, método para gerar uma distribuição estatística de referência de valores de uma característica local de ponto chave
JPWO2012173267A1 (ja) 映像処理システム、映像処理方法、映像処理用データベースの作成方法とそのデータベース、映像処理装置およびその制御方法と制御プログラム
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN108764258B (zh) 一种用于群体图像插入的最优图像集选取方法
Panda et al. Offline mobile instance retrieval with a small memory footprint
Liu et al. Video copy detection by conducting fast searching of inverted files
CN116883740A (zh) 相似图片识别方法、装置、电子设备和存储介质
CN106156118B (zh) 基于计算机系统的图片相似度计算方法及其系统