KR20210042284A - 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체 - Google Patents

비디오 타입 검출 방법, 장치, 전자기기 및 저장매체 Download PDF

Info

Publication number
KR20210042284A
KR20210042284A KR1020210041410A KR20210041410A KR20210042284A KR 20210042284 A KR20210042284 A KR 20210042284A KR 1020210041410 A KR1020210041410 A KR 1020210041410A KR 20210041410 A KR20210041410 A KR 20210041410A KR 20210042284 A KR20210042284 A KR 20210042284A
Authority
KR
South Korea
Prior art keywords
video
type
key frames
algorithm model
video type
Prior art date
Application number
KR1020210041410A
Other languages
English (en)
Other versions
KR102503201B1 (ko
Inventor
대빙
예지
리양시
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20210042284A publication Critical patent/KR20210042284A/ko
Application granted granted Critical
Publication of KR102503201B1 publication Critical patent/KR102503201B1/ko

Links

Images

Classifications

    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 출원은 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체를 개시하며, 컴퓨터 시각 분야에 관한 것이다. 구체적인 구현방안에 따르면, 제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상이고; 상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수이고; 상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하고; 및 상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정한다.

Description

비디오 타입 검출 방법, 장치, 전자기기 및 저장매체{VIDEO TYPE DETECTION METHOD, APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 출원의 실시예는 컴퓨터 기술분야 중 컴퓨터 시각 분야에 관한 것으로, 특히는 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체에 관한 것이다.
인터넷의 지속적인 발전에 따라, 인터넷에 점점 더 많은 비디오들이 나타나고있으며, 동시에 안전상의 우려도 존재한다. 예를 들어 테러리스트들이 테러 비디오를 인터넷에 올려 선전하고 있으며, 사회 안전성에 보다 큰 위험성을 초래한다. 따라서 수많은 비디오로부터 민감한 비디오에 대해 분류 및 선별하여, 안전한 네트워크 환경을 구축할 필요가 있다.
본 출원은 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체를 제공한다.
본 출원의 제1 측면에 따르면, 비디오 타입 검출 방법을 제공한다. 해당 방법은,
제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상인 단계;
상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수인 단계;
상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하는 단계; 및
상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정하는 단계;를 포함한다.
본 출원의 제2 측면에 따르면, 비디오 타입 검출 장치를 제공한다. 해당 장치는,
제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상인 제1 획득모듈;
상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수인 제2 획득모듈;
상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하는 결정모듈; 및
상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정하는 비교모듈;을 포함한다.
본 출원의 제3 측면에 따르면, 전자기기를 제공한다. 해당 전자기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하되,
상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상술한 본 출원의 제1 측면에 따른 방법을 수행할 수 있도록 한다.
본 출원의 제4 측면에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하며, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 본 출원의 제1 측면에 따른 방법을 수행하도록 한다.
본 출원의 제4 측면에 따르면, 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 프로그램은 판독 가능 저장 매체에 저장되어, 전자기기의 적어도 하나의 프로세서는 상기 판독 가능 저장매체로부터 상기 컴퓨터 프로그램을 판독할 수 있으며, 상기 컴퓨터 프로그램이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 전자기기가 상술한 어느 일 측면에 따른 비디오 타입 검출 방법을 수행하도록 한다.
본 출원에 따른 기술은 종래기술에서 비디오 타입 검출을 수행할 때 오판단되기 쉬운 문제점을 해결하여, 비디오 타입 검출 정확성을 향상시킨다.
본 부분에 기재되는 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 특정하려는 목적이 아니며, 본 출원의 범위를 한정하는 것도 아님을 이해하여야 한다. 본 출원의 기타 특징은 아래의 명세서로부터 쉽게 이해할 수 있다.
첨부되는 도면은 본 방안을 더 충분히 이해하도록 제공되는 것으로서, 본 출원에 대한 한정은 아니다.
도 1은 본 출원의 실시예에 따른 비디오 타입 검출 방법이 적용되는 시나리오를 나타내는 도면이다.
도 2는 본 출원의 실시예에 따른 비디오 타입 검출 방법의 흐름도이다.
도 3은 본 출원의 다른 실시예에 따른 비디오 타입 검출 방법의 흐름도이다.
도 4는 본 출원의 또 다른 실시예에 따른 비디오 타입 검출 방법 실시예의 흐름도이다.
도 5는 본 출원의 실시예에 따른 비디오 타입 검출 장치의 모듈 구조도이다.
도 6은 본 출원의 실시예에 따른 비디오 타입 검출 방법을 구현하기 위한 전자기기의 블록도이다.
아래에서는 첨부 도면과 결합하여 본 출원의 예시적인 실시예에 대하여 설명하며, 이해를 돕기 위하여 본 출원의 실시예의 다양한 세부 사항을 포함하며, 이들은 단지 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 범위와 정신을 벗어나지 않는 것으로 이해하여야 한다. 마찬가지로, 명확성과 간결성을 위하여, 아래의 설명에서 공지 기능과 구조에 대한 설명을 생략한다.
인터넷의 지속적인 발전에 따라, 인터넷에 점점 더 많은 비디오들이 나타나고있으며, 동시에 안전상의 우려도 존재한다. 예를 들어 테러리스트들이 도 1에 도시된 바와 같이, 정치 관련 내용, 테러 내용, 금지 내용 등의 비디오를 포함한 일부 불량 비디오들을 인터넷에서 유통시켜, 일정한 선전 효과를 달성함으로써, 사회 안정성에 보다 큰 위험성을 초래하기 쉽다. 따라서 수많은 비디오로부터 해당 유형의 비디오에 대해 분류 및 선별하여, 안전한 네트워크 환경을 구축할 필요가 있다. 일반적으로, 이러한 불량 비디오, 예를 들어 테러 비디오는, 일반적으로 특정 로고(logo), 예컨대 깃발, 살인, 피비림, 폭발, 폭동, 테러 인물 등의 한가지 또는 다양한 원소를 포함한다.
종래기술에서, 테러 비디오 검출을 예로 들면, 일반적으로, 주어진 일정한 길이의 비디오에 대하여, 우선 해당 비디오에 대해 키 프레임 추출을 수행하여, 일련의 이미지를 획득한 후, 테러 분류 모델을 이용하여 각 프레임의 이미지가 테러 이미지인지 여부에 대해 분류하고, logo 검출 모델을 이용하여 각 프레임의 이미지에 대해 특정 테러 logo와 깃발을 검출하여, 각 프레임에 테러 원소를 포함하는지 여부에 대한 결과를 획득한다. 테러 비디오 검출 전략 방안은 하나의 고정된 임계값을 설정하고, 만약 해당 비디오 중 키 프레임에 대하여, 테러 분류 모델 또는 logo 검출 모델을 사용하여 검출해낸 테러원소를 포함하는 결과의 횟수가 특정 분류 임계값을 초과하면, 해당 비디오의 타입이 테러 타입인 것으로 판단한다. 하지만 해당 방법을 사용할 경우, 짧은 비디오 또는 기타 노이즈 비디오(예를 들어 전쟁 영화, 군사 영화 등)에 대해 오판단되기 쉬우며, 정확도가 낮다. 또한 해당 임계값은 일반적으로 수동으로 설정되므로, 대량의 시간을 사용하여 수동으로 파라미터를 조정하여 합리적인 임계값을 획득하여야 하므로, 효율이 저하되는 문제점이 존재한다.
상술한 문제점을 고려하여, 본 출원은 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체를 제공하며, 컴퓨터 기술분야 중 컴퓨터 시각 처리 분야에 속한다. 타입이 검출 대상인 비디오에 대해 키 프레임 추출을 수행하고, 키 프레임을 검출 대상인 타입에 대응되는 모든 알고리즘 모델(예를 들어 M개)에 통과시켜, 키 프레임의 신뢰도 스코어를 결정하고, 키 프레임의 신뢰도 스코어를 기초로 융합 전략 알고리즘 모델을 통해 타입이 검출 대상인 비디오의 신뢰도 스코어를 결정하고, 나아가 검출 대상이 타입인 비디오의의 신뢰도 스코어와 어느 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여 해당 비디오의 타입이 해당 비디오 타입인지 여부를 결정함으로써, 비디오 타입 검출 정확성을 향상시킨다.
본 출원의 실시예에 따른 비디오 타입 검출 방법은 인터넷 상에서 유통되고 있는 불량 비디오(예컨대 테러 비디오, 금지 비디오 등)에 적용될 수 있으며, 비디오가 네트워크로 업로드되기 전에 그 타입을 검출함으로써, 불량 비디오가 인터넷으로 업로드되는 것을 금지할 수 있다.
도 2는 본 출원의 실시예에 따른 비디오 타입 검출 방법의 흐름도이다. 도 2에 도시된 바와 같이, 해당 방법은 아래의 단계(S201-S204)를 포함한다.
S201,제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상이다.
일부 실시예에서, 입력된 제1 비디오에 대해 패스트 포워드 동영상 전문가 그룹(fast forward moving picture experts group, FFMPEG)을 사용하여 비디오 프레임 추출을 수행함으로써, 제1 비디오의 N개의 키 프레임을 획득할 수 있다. 일 실시예에서, FFMPEG을 사용하여 제1 비디오에 대해 등간격 프레임 추출을 수행할 수 있으며, 해당 간격 시간은 수요에 따라 조정할 수 있다. 예를 들어 2s의 간격으로 제1 비디오에 대해 등간격 프레임 추출을 수행할 수 있다. 일 실시예에서, N의 선택은 수요에 따라 지정할 수 있으며, 예를 들어 100일 수 있다. 100개의 키 프레임이 추출될 때까지, 2s의 간격으로 제1 비디오에 대해 등간격 프레임 추출을 수행할 수 있으며, 제1 비디오가 보다 짧아 추출된 프레임이 100개 미만일 때, 나머지 프레임은 0을 채워 넣을 수 있다. 예를 들어 2s의 간격으로 제1 비디오에 대해 프레임 추출을 수행하여, 50개의 프레임만 추출되면, 나머지 50개의 프레임은 0을 채워 넣을 수 있다.
S202,상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수이다.
일 실시예에서, 해당 제1 비디오 타입은, 테러 비디오 타입, 정치 관련 비디오 타입, 금지 비디오 타입 중 하나를 포함할 수 있지만, 이에 한정되지 않는다. M개의 알고리즘 모델은 분류 알고리즘 모델, 특징 식별 알고리즘 모델과 특징 인물 알고리즘 모델을 사용할 수 있으며, 일 실시예에서 분류 알고리즘 모델은 대체적 분류 알고리즘 모델과 정밀 분류 알고리즘 모델을 포함할 수 있다. 제1 비디오 타입이 테러 비디오 타입인 경우를 예로 들면, M개의 알고리즘 모델은, 테러 대체적 분류 알고리즘 모델, 테러 정밀 분류 알고리즘 모델, 테러 특징 식별 알고리즘 모델과 테러 특징 인물 알고리즘 모델과 같은 4개의 알고리즘 모델을 포함할 수 있다. 대응되게, 각각의 키 프레임은 각각 테러 대체적 분류 알고리즘 모델, 테러 정밀 분류 알고리즘 모델, 테러 특징 식별 알고리즘 모델과 테러 특징 인물 알고리즘 모델을 사용하여, 4개의 신뢰도 스코어를 획득할 수 있다.
일부 실시예에서, 각각의 키 프레임은 각각의 알고리즘 모델을 사용하여 처리와 정규화를 수행하여 [0,1] 사이의 하나의 신뢰도 스코어를 획득할 수 있다. 예를 들어, 키 프레임을 테러 대체적 분류 알고리즘 모델에 통과시켜 획득한 신뢰도 스코어는 [0.6,0.4]이며, 여기서 0.6은 정상 스코어이고, 0. 4는 테러 스코어로서, 1-정상 스코어=1-0.6=0. 4를 해당 이미지의 테러 대체적 분류의 신뢰도 스코어로 한다. 테러 스코어가 높을수록, 해당 키 프레임이 테러일 가능성이 높음을 의미한다. 기타 알고리즘 모델도 유사한 바, 테러 정밀 분류 알고리즘 모델에 통과시켜 획득한 신뢰도 스코어가 높을수록, 해당 키 프레임에 포함된 테러요소(예컨대 피비림, 폭발 화재 등)일 가능성이 높음을 의미한다. 테러 특징 식별 알고리즘 모델에 통과시켜 획득한 신뢰도 스코어가 높을수록, 해당 키 프레임에 테러 로고(예컨대 깃발 등)가 포함되어 있을 가능성이 높음을 의미한다. 테러 특징 인물 알고리즘 모델에 통과시켜 획득한 신뢰도 스코어가 높을수록, 해당 키 프레임에 테러 인물이 포함되어 있을 가능성이 높음을 의미한다.
S203, 상기 N개 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정한다.
일 실시예에서, 단계(S202)에서 획득한 각각의 키 프레임의 M개의 신뢰도 스코어, 즉 N×M개의 신뢰도 스코어는 융합 전략 알고리즘 모델을 통해, 제1 비디오의 신뢰도 스코어를 결정할 수 있다. 일 실시예에서, 융합 전략 알고리즘 모델은 극단 구배 부스트(XGBOOST) 분류기를 사용하여 제1 비디오의 신뢰도의 스코어를 결정할 수 있다.
일 실시예에서, 상기 M개의 알고리즘 모델에 대해 대응되는 가중치를 할당할수도 있으며; 대응되게, 상기 단계(203)는,
상기 N개의 키 프레임의 N×M개의 신뢰도 스코어 및 상기 M개의 알고리즘 모델에 대응되는 가중치를 기초로, 상기 제1 비디오의 신뢰도 스코어를 결정하는 단계를 포함한다.
각각의 알고리즘 모델에 대해 서로 다른 가중치를 할당함으로써, 예를 들어 특징 식별 알고리즘 모델, 특징 인물 알고리즘 모델 등에 대해 보다 높은 가중치를 할당함으로써, 비디오 타입 검출 정확성을 더욱 향상시킬 수 있다.
S204, 상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정한다.
일 실시예에서, 상기 제1 비디오의 신뢰도 스코어가 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값보다 높을 때, 상기 제1 비디오의 타입이 제1 비디오 타입일 가능성이 보다 높음을 의미하므로, 상기 제1 비디오의 타입이 제1 비디오 타입인 것으로 결정할 수 있다. 예를 들어, 제1 비디오 타입이 테러 비디오 타입일 때, 상기 제1 비디오가 테러 비디오인 것으로 결정할 수 있다. 기타 타입의 비디오에 대하여, 그 결정 방식은 유사하며, 여기서는 중복되는 설명을 생략한다.
도 3은 본 출원의 다른 실시예에 따른 비디오 타입 검출 방법의 흐름도이다. 도 3에 도시된 바와 같이, 해당 방법은 단계(301) 내지 단계(305)를 포함할 수 있다.
단계(301), 복수의 제2 비디오를 기초로 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하되, 여기서 상기 제2 비디오의 타입은 제1 비디오 타입이다 .
일 실시예에서, 단계(301)는,
각각의 상기 제2 비디오의 N개의 키 프레임을 획득하는 단계;
각각의 상기 제2 비디오의 N개의 키 프레임을 각각 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 통과시켜, 상기 각각의 상기 제2 비디오의 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하는 단계; 및
각각의 상기 제2 비디오 및 이에 대응되는 N×M개의 신뢰도 스코어를 각각 상기 융합 전략 알고리즘 모델에 입력하여 트레이닝 및 검증함으로써, 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하는 단계;를 포함할 수 있다.
각각의 제2 비디오에 대하여, 그 신뢰도 스코어를 결정하는 방식은 제1 비디오의 신뢰도 스코어를 결정하는 방식과 유사한 바, 상술한 관련 단계를 참조할 수 있으므로, 여기서는 중복되는 설명을 생략한다.
일 실시예에서, 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값은 이미 제1 비디오 타입인 것으로 알려진 복수의 제2 비디오를 마크하여 트레이닝할 수 있고, 각각의 제2 비디오 키 프레임을 N으로 하고, 각각의 키 프레임의 신뢰도 스코어를 M개로 하고, 각각의 제2 비디오의 N개의 키 프레임에 대응되는 신뢰도 스코어 길이를 N×M로 고정하여, 각각의 상기 제2 비디오 및 이에 대응되는 N×M개의 신뢰도 스코어를 각각 상기 융합 전략 알고리즘 모델에 입력하여 트레이닝 및 검증함으로써 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정할 수 있다. 일 실시예에서, 융합 전략 알고리즘 모델은 XGBOOST를 분류기로서 사용할 수 있으며, 파라미터 자동 조정 매커니즘을 사용하여, 하나의 제2 비디오가 1행의 특징(N×M개의 신뢰도 스코어)인 입력 데이터 폼에 따라, 복수의 제2 비디오를 복수 행 입력을 통해, 트레이닝 및 검증을 수행하여, 기계가 제1 비디오 타입 (예를 들어 테러 비디오 타입)으로 판단된 신뢰도 스코어 임계값을 자동적으로 학습하도록 한다.
XGBOOST를 분류기로써 사용함으로서, 비디오 타입에 대응되는 신뢰도 스코어 임계값을 판단하는 것을 자동적으로 학습할 수 있으며, 파라미터의 수동 조정을 방지하고, 비디오 타입 검출 효율을 향상시킬 수 있다.
도 4는 본 출원의 또 다른 실시예에 따른 비디오 타입 검출 방법 실시예의 흐름도이다. 도 4에 도시된 바와 같이, 해당 방법은 단계(401) 내지 단계(405)를 포함하되, 그 중에는 단계(4031) 내지 단계(4034)를 포함한다.
단계(401), 타입이 검출 대상인 비디오를 입력한다.
단계(402), 단계(401)에서 입력한 비디오에 대해 키 프레임 추출을 수행한다.
단계(4031), 추출된 키 프레임을 대체적 분류 알고리즘 모델에 통과시켜 키 프레임의 제1 신뢰도 스코어를 결정한다.
단계(4032), 추출된 키 프레임을 정밀 분류 알고리즘 모델에 통과시켜 키 프레임의 제2 신뢰도 스코어를 결정한다.
단계(4033), 추출된 키 프레임을 특징 식별 알고리즘 모델에 입력시켜 키 프레임의 제3 신뢰도 스코어를 결정한다.
단계(4034), 추출된 키 프레임을 특징 인물 알고리즘 모델에 입력하여 키 프레임의 제4 신뢰도 스코어를 결정한다.
단계(404), 제1 신뢰도 스코어, 제2 신뢰도 스코어, 제3 신뢰도 스코어 및 제4 신뢰도 스코어를 융합 전략 알고리즘 모델에 통과시켜 타입이 검출 대상인 비디오의 신뢰도 스코어를 결정하고, 타입이 검출 대상인 비디오의 신뢰도 스코어와 상응하는 임계값과 비교한다.
단계(405), 타입이 검출 대상인 비디오의 신뢰도 스코어와 상응하는 임계값의 비교 결과를 기초로, 검출 결과를 출력한다.
구체적인 구현 과정은, 상술한 방법 실시예에 따른 관련 단계의 구현 방식을 참조할 수 있으며, 여기서는 중복되는 설명을 생략한다.
도 5는 본 출원의 실시예에 따른 비디오 타입 검출 장치의 모듈 구조도이다. 도 5에 도시된 바와 같이, 해당 비디오 타입 검출 장치(500)는, 제1 획득모듈(501), 제2 획득모듈(502), 결정모듈(503) 및 비교모듈(504)을 포함할 수 있다. 여기서,
제1 획득모듈(501)은 제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상이다.
제2 획득모듈(502)은 상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수이다.
결정모듈(503)은 상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정한다.
비교모듈(504)은 상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정한다.
상기 제2 획득모듈(502)은 또한 복수의 제2 비디오를 기초로 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하되, 여기서 상기 제2 비디오의 타입은 제1 비디오 타입이다 .
상기 제1 획득모듈(501)은 또한 각각의 상기 제2 비디오의 N개의 키 프레임을 획득한다.
상기 제2 획득모듈(502)은 또한 각각의 상기 제2 비디오의 N개의 키 프레임을 각각 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 통과시켜, 상기 각각의 상기 제2 비디오의 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득한다.
상기 결정모듈(503)은 또한 각각의 상기 제2 비디오 및 이에 대응되는 N×M개의 신뢰도 스코어를 각각 상기 융합 전략 알고리즘 모델에 입력하여 트레이닝 및 검증하여, 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정한다.
일 실시예에서, 상기 융합 전략 알고리즘 모델은 극단 구배 부스트(XGBOOST) 분류기를 사용하여 트레이닝 및 검증을 수행한다.
일 실시예에서, 상기 제1 획득모듈(501)은 상기 제1 비디오에 대해 등간격으로 샘플링을 수행하여, 상기 N개의 키 프레임을 추출한다.
일 실시예에서, 상기 제1 획득모듈(501)은 2초 간격으로 상기 제1 비디오에 대해 등간격으로 샘플링을 수행한다.
일 실시예에서, 상기 결정모듈(503)은,
상기 M개의 알고리즘 모델에 대해 대응되는 가중치를 할당하고;
상기 N개의 키 프레임의 N×M개의 신뢰도 스코어 및 상기 M개의 알고리즘 모델에 대응되는 가중치를 기초로, 상기 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정한다.
일 실시예에서, 상기 M개의 알고리즘 모델은 분류 알고리즘 모델, 특징 식별 알고리즘 모델과 특징 인물 알고리즘 모델을 포함한다.
일 실시예에서, 상기 분류 알고리즘 모델은, 대체적 분류 알고리즘 모델과 정밀 분류 알고리즘 모델을 포함한다.
일 실시예에서, 상기 제1 비디오 타입은 테러 비디오 타입, 정치 관련 비디오 타입, 금지 비디오 타입 중 하나를 포함한다.
본 출원의 실시예에 따른 비디오 타입 검출 장치의 구현 원리와 기술효과는 상술한 방법 실시예와 유사하므로, 여기서는 구체적인 설명을 생략한다.
본 출원실시예에 따르면, 본 출원은 전자기기와 판독 가능 저장매체를 더 제공한다.
본 출원의 실시예에 따르면, 본 출원은 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 더 제공한다. 전자기기의 적어도 하나의 프로세서는 판독 가능 저장매체로부터 컴퓨터 프로그램을 판독할 수 있으며, 컴퓨터 프로그램이 적어도 하나의 프로세서에 의해 실행될 경우, 전자기기가 상술한 어느 일 측면에 따른 방안을 수행하도록 한다.
도 6은 본 출원의 실시예에 따른 비디오 타입 검출 방법을 위한 전자기기의 블록도이다. 전자기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 휴대 단말, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 의미한다. 전자기기는 다양한 형태의 이동장치, 예컨대, 개인 휴대 단말, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 의미할 수도 있다. 본문에 개시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 개시된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.
도 6에 도시된 바와 같이, 해당 전자기기는 하나 또는 복수의 프로세서(601), 메모리(602), 및 각 부재를 연결시키기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각각의 부재는 서로 다른 버스를 통해 서로 연결되며, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있으며, 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 디스플레이 기기) 상에 그래픽 유저 인터페이스(Graphical User Interface, GUI)의 그래픽 정보를 표시하는 명령을 포함할 수 있다. 기타 실시형태에서, 수요에 따라, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 같이 사용할 수 있다. 마찬가지로, 복수의 전자기기를 연결할 수 있으며, 각각의 기기는 부분 필요한 조작을 제공한다(예를 들어, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로서). 도 6은 하나의 프로세서(601)를 예로 든다.
메모리(602)는 바로 본 출원에 따른 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어, 적어도 하나의 프로세서가 본 출원에 따른 비디오 타입 검출 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터가 본 출원에 따른 비디오 타입 검출 방법을 수행하도록 한다.
메모리(602)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예컨대 본 출원의 실시예에 따른 비디오 타입 검출 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 5에 도시된 제1 획득모듈(501), 제2 획득모듈(502), 결정모듈(503) 및 비교모듈(504))을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 다양한 기능 응용 및 데이터 처리를 수행한다. 즉, 상술한 방법 실시예 중 비디오 타입 검출 방법을 구현한다.
메모리(602)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있다. 데이터 저장 영역은 비디오 타입 검출 방법을 위한 전자기기의 사용에 따라 구성되는 데이터 등을 저장할 수 있다. 한편, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예를 들어 적어도 하나의 자기 저장 장치, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 저장 장치와 같은 비일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(602)는 선택적으로 프로세서(601)에 대해 원격으로 설치되는 메모리를 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 비디오 타입 검출을 수행하는 전자기기에 연결될 수 있다. 상술한 네트워크의 실예로서 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 그 조합을 포함하지만 이에 한정되지 않는다.
비디오 타입 검출 방법을 위한 전자기기는 입력장치(603)와 출력장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력장치(603) 및 출력장치(604)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 6에서는 버스를 통해 연결되는 것을 예시하고 있다.
입력장치(603)는 입력되는 숫자 또는 문자 부호 정보를 수신할 수 있고, 비디오 타입 검출 방법을 위한 전자기기의 사용자 설정 및 기능 제어에 대한 키 신호 입력을 생성할 수 있다. 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패널, 지시레버, 하나 또는 복수의 마우스 버튼, 트랙 볼, 조종 레버 등의 입력장치가 있다. 출력장치(604)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이 등을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기에 기재되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신할 수 있으며, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송한다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용, 또는 코드라고도 지칭)은 프로그래머블 프로세서의 기계적 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계적 언어를 이용하여 이러한 컴퓨터 프로그램을 실행할 수 있다. 예컨대 본문에서 사용되는 용어 "기계 판독 가능 매체"와 "컴퓨터 판독 가능 매체"는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 디바이스(PLD))를 가리키고, 기계 판독 가능 신호인 기계적 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 여기에 기재되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향 장치를 통해 입력을 컴퓨터로 제공할 수 있다. 기타 종류의 장치는 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.
여기에 기재되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 기재되는 시스템 및 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로서, 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.
본 출원의 실시예의 기술방안에 따르면, 타입이 검출 대상인 비디오에 대해 키 프레임 추출을 수행하고, 키 프레임을 검출 대상인 타입에 대응되는 모든 알고리즘 모델(예를 들어 대체적 분류 알고리즘 모델, 정밀 분류 알고리즘 모델, 특징 식별 알고리즘 모델과 특징 인물 알고리즘 모델)에 통과시켜, 키 프레임의 신뢰도 스코어를 결정하고, 키 프레임의 신뢰도 스코어를 기초로 융합 전략 알고리즘 모델을 통해 타입이 검출 대상인 비디오의 신뢰도 스코어를 결정하고, 나아가 타입이 검출 대상인 신뢰도 스코어와 어느 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여 해당 비디오의 타입이 해당 비디오 타입인지 여부를 결정하며, 이에 따라 비디오 타입 검출 정확성을 향상시킨다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있으며, 본 출원에 개시된 기술적 해결수단이 원하는 결과를 얻을 수만 있다면, 본문은 이에 대해 한정하지 않는다.
상술한 구체적인 실시형태는 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 요구와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 대체를 가할 수 있음을 이해할 수 있을 것이다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 치환 및 개선 등은 모두 본 출원의 보호 범위 내에 속하는 것으로 간주하여야 한다.

Claims (23)

  1. 제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상인 단계;
    상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수인 단계;
    상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하는 단계; 및
    상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정하는 단계;를 포함하는 비디오 타입 검출 방법.
  2. 제1항에 있어서,
    복수의 제2 비디오를 기초로 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하되, 여기서 상기 제2 비디오의 타입은 제1 비디오 타입인 단계를 더 포함하는 방법.
  3. 제2항에 있어서,
    상기 복수의 제2 비디오를 기초로 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하는 단계는,
    각각의 상기 제2 비디오의 N개의 키 프레임을 획득하는 단계;
    각각의 상기 제2 비디오의 N개의 키 프레임을 각각 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 통과시켜, 상기 각각의 상기 제2 비디오의 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하는 단계; 및
    각각의 상기 제2 비디오 및 이에 대응되는 N×M개의 신뢰도 스코어를 각각 상기 융합 전략 알고리즘 모델에 입력하여 트레이닝 및 검증하여, 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하는 단계;를 포함하는 방법.
  4. 제3항에 있어서,
    상기 융합 전략 알고리즘 모델은 극단 구배 부스트(XGBOOST) 분류기를 사용하여 트레이닝 및 검증을 수행하는 방법.
  5. 제1항에 있어서,
    상기 제1 비디오의 N개의 키 프레임을 획득하는 단계는,
    상기 제1 비디오에 대해 등간격 샘플링을 수행하여, 상기 N개의 키 프레임을 추출하는 단계를 포함하는 방법.
  6. 제5항에 있어서,
    상기 제1 비디오에 대해 등간격으로 샘플링을 수행하는 단계는,
    2초 간격으로 상기 제1 비디오에 대해 등간격 샘플링을 수행하는 단계를 포함하는 방법.
  7. 제1항에 있어서,
    상기 M개의 알고리즘 모델에 대해 대응되는 가중치를 할당하는 단계를 더 포함하고;
    상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 상기 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하는 단계는,
    상기 N개의 키 프레임의 N×M개의 신뢰도 스코어 및 상기 M개의 알고리즘 모델에 대응되는 가중치를 기초로, 상기 제1 비디오의 신뢰도 스코어를 결정하는 단계를 포함하는 방법.
  8. 제1항에 있어서,
    상기 M개의 알고리즘 모델은 분류 알고리즘 모델, 특징 식별 알고리즘 모델 및 특징 인물 알고리즘 모델을 포함하는 방법.
  9. 제8항에 있어서,
    상기 분류 알고리즘 모델은 대체적 분류 알고리즘 모델과 정밀 분류 알고리즘 모델을 포함하는 방법.
  10. 제1항에 있어서,
    상기 제1 비디오 타입은 테러 비디오 타입, 정치 관련 비디오 타입, 금지 비디오 타입 중 하나를 포함하는 방법.
  11. 제1 비디오의 N개 키 프레임을 획득하되, 상기 N은 1보다 큰 정수이고, 상기 제1 비디오의 타입은 검출 대상인 제1 획득모듈;
    상기 N개의 키 프레임 각각을 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 각각 통과시켜, 상기 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하되, 상기 M은 1보다 큰 정수인 제2 획득모듈;
    상기 N개의 키 프레임의 N×M개의 신뢰도 스코어를 기초로, 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하는 결정모듈; 및
    상기 제1 비디오의 신뢰도 스코어와 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 비교하여, 상기 제1 비디오의 타입이 제1 비디오 타입인지 여부를 결정하는 결정모듈;을 포함하는 비디오 타입 검출 장치.
  12. 제11항에 있어서,
    상기 제2 획득모듈은 또한,
    복수의 제2 비디오를 기초로 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하되, 여기서 상기 제2 비디오의 타입은 제1 비디오 타입인 장치.
  13. 제12항에 있어서,
    상기 제1 획득모듈은 또한 각각의 상기 제2 비디오의 N개의 키 프레임을 획득하고;
    상기 제2 획득모듈은 또한 각각의 상기 제2 비디오의 N개의 키 프레임을 각각 제1 비디오 타입에 대응되는 M개의 알고리즘 모델에 통과시켜, 상기 각각의 상기 제2 비디오의 N개의 키 프레임 각각에 대응되는 M개의 신뢰도 스코어를 획득하고,
    상기 결정모듈은 또한 각각의 상기 제2 비디오 및 이에 대응되는 N×M개의 신뢰도 스코어를 각각 상기 융합 전략 알고리즘 모델에 입력하여 트레이닝 및 검증함으로써 상기 제1 비디오 타입에 대응되는 신뢰도 스코어 임계값을 결정하는 장치.
  14. 제13항에 있어서,
    상기 융합 전략 알고리즘 모델은 극단 구배 부스트(XGBOOST) 분류기를 사용하여 트레이닝 및 검증을 수행하는 장치.
  15. 제11항에 있어서,
    상기 제1 획득모듈은,
    상기 제1 비디오에 대해 등간격으로 샘플링을 수행하여, 상기 N개의 키 프레임을 추출하는 장치.
  16. 제15항에 있어서,
    상기 제1 획득모듈은,
    2초 간격으로 상기 제1 비디오에 대해 등간격으로 샘플링을 수행하는 장치.
  17. 제11항에 있어서,
    상기 결정모듈은,
    상기 M개의 알고리즘 모델에 대해 대응되는 가중치를 할당하고;
    상기 N개의 키 프레임의 N×M개의 신뢰도 스코어 및 상기 M개의 알고리즘 모델에 대응되는 가중치를 기초로, 상기 융합 전략 알고리즘 모델을 통해 상기 제1 비디오의 신뢰도 스코어를 결정하는 장치.
  18. 제11항에 있어서,
    상기 M개의 알고리즘 모델은 분류 알고리즘 모델, 특징 식별 알고리즘 모델 및 특징 인물 알고리즘 모델을 포함하는 장치.
  19. 제18항에 있어서,
    상기 분류 알고리즘 모델은 대체적 분류 알고리즘 모델과 정밀 분류 알고리즘 모델을 포함하는 장치.
  20. 제11항에 있어서,
    상기 제1 비디오 타입은 테러 비디오 타입, 정치 관련 비디오 타입, 금지 비디오 타입 중 하나를 포함하는 장치.
  21. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하되,
    상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 전자기기.
  22. 제1항에 있어서,
    컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체, 상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하도록 하는 메모리.
  23. 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제10항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램.









KR1020210041410A 2020-06-30 2021-03-30 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체 KR102503201B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010617343.8 2020-06-30
CN202010617343.8A CN111783649B (zh) 2020-06-30 2020-06-30 视频类型检测方法、装置、电子设备与存储介质

Publications (2)

Publication Number Publication Date
KR20210042284A true KR20210042284A (ko) 2021-04-19
KR102503201B1 KR102503201B1 (ko) 2023-02-23

Family

ID=72760418

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210041410A KR102503201B1 (ko) 2020-06-30 2021-03-30 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체

Country Status (5)

Country Link
US (1) US11544927B2 (ko)
EP (1) EP3905122B1 (ko)
JP (1) JP7164588B2 (ko)
KR (1) KR102503201B1 (ko)
CN (1) CN111783649B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697761A (zh) * 2022-04-07 2022-07-01 脸萌有限公司 一种处理方法、装置、终端设备及介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191205A (zh) * 2021-04-03 2021-07-30 国家计算机网络与信息安全管理中心 一种识别视频中特殊场景、物体、人物和噪声因素的方法
CN113221690A (zh) * 2021-04-28 2021-08-06 上海哔哩哔哩科技有限公司 视频分类方法及装置
CN114445896B (zh) * 2022-01-28 2024-04-05 北京百度网讯科技有限公司 视频中人物陈述内容可置信度的评估方法及装置
CN115652003B (zh) * 2022-09-06 2024-01-09 中南大学 一种基于两阶段分类的高炉堵铁口时间在线监测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100092037A1 (en) * 2007-02-01 2010-04-15 Yissum Research Develpoment Company of the Hebrew University of Jerusalem Method and system for video indexing and video synopsis
US20190294889A1 (en) * 2018-03-26 2019-09-26 Nvidia Corporation Smart area monitoring with artificial intelligence
CN111090776A (zh) * 2019-12-20 2020-05-01 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011326430B2 (en) * 2010-11-11 2015-01-22 Google Llc Learning tags for video annotation using latent subtags
US9319678B2 (en) * 2012-12-20 2016-04-19 Hulu, LLC Keyframe alignment for encoding video at multiple bitrates
CN110334689B (zh) * 2019-07-16 2022-02-15 北京百度网讯科技有限公司 视频分类方法和装置
CN111090778B (zh) * 2019-12-26 2023-06-27 北京百度网讯科技有限公司 一种图片生成方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100092037A1 (en) * 2007-02-01 2010-04-15 Yissum Research Develpoment Company of the Hebrew University of Jerusalem Method and system for video indexing and video synopsis
US20190294889A1 (en) * 2018-03-26 2019-09-26 Nvidia Corporation Smart area monitoring with artificial intelligence
CN111090776A (zh) * 2019-12-20 2020-05-01 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697761A (zh) * 2022-04-07 2022-07-01 脸萌有限公司 一种处理方法、装置、终端设备及介质
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质

Also Published As

Publication number Publication date
US11544927B2 (en) 2023-01-03
US20210192218A1 (en) 2021-06-24
EP3905122A3 (en) 2021-12-22
JP7164588B2 (ja) 2022-11-01
CN111783649B (zh) 2024-01-23
KR102503201B1 (ko) 2023-02-23
JP2021064385A (ja) 2021-04-22
EP3905122A2 (en) 2021-11-03
CN111783649A (zh) 2020-10-16
EP3905122B1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
KR20210042284A (ko) 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
US10242289B2 (en) Method for analysing media content
US20210321157A1 (en) Special effect processing method and apparatus for live broadcasting, and server
US11657799B2 (en) Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
US11468680B2 (en) Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment
KR20210042864A (ko) 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
KR20220013298A (ko) 문자 인식 방법 및 장치
CN112036509A (zh) 用于训练图像识别模型的方法和装置
JP7223056B2 (ja) 画像審査方法、装置、電子機器及び記憶媒体
US11636385B2 (en) Training an object detector using raw and unlabeled videos and extracted speech
US20210357652A1 (en) Method, apparatus, electronic device and readable storage medium for classifying video
CN111783639A (zh) 图像检测方法、装置、电子设备及可读存储介质
CN111626956A (zh) 图像去模糊方法和装置
KR20210090576A (ko) 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램
CN112148908A (zh) 图像数据库的更新方法、装置、电子设备和介质
CN112001265A (zh) 视频事件识别方法、装置、电子设备及存储介质
CN111523467A (zh) 人脸跟踪方法和装置
CN110738261B (zh) 图像分类和模型训练方法、装置、电子设备及存储介质
CN110889392B (zh) 人脸图像处理的方法及装置
CN112560854A (zh) 用于处理图像的方法、装置、设备以及存储介质
CN112328088A (zh) 图像的呈现方法和装置
CN112597828A (zh) 网页识别模型的训练方法、装置、网页识别的方法
US20220222941A1 (en) Method for recognizing action, electronic device and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant