KR20210054551A - 비디오 처리 방법과 장치, 전자 기기 및 저장 매체 - Google Patents

비디오 처리 방법과 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210054551A
KR20210054551A KR1020217009546A KR20217009546A KR20210054551A KR 20210054551 A KR20210054551 A KR 20210054551A KR 1020217009546 A KR1020217009546 A KR 1020217009546A KR 20217009546 A KR20217009546 A KR 20217009546A KR 20210054551 A KR20210054551 A KR 20210054551A
Authority
KR
South Korea
Prior art keywords
frame
video
sequence
video frame
candidate
Prior art date
Application number
KR1020217009546A
Other languages
English (en)
Inventor
지아페이 위
Original Assignee
상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210054551A publication Critical patent/KR20210054551A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/00744
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 비디오 처리 방법과 장치, 전자 기기 및 저장 매체를 개시한다. 상기 비디오 처리 방법은, 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하는 단계; 각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하는 단계; 및 모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하는 단계를 포함한다.

Description

비디오 처리 방법과 장치, 전자 기기 및 저장 매체
관련 출원의 상호 참조
본 발명은 출원번호가 201910407853.X이고, 출원일이 2019년 05월 15일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 이미지 처리 기술 분야에 관한 것으로, 특히 비디오 처리 방법과 장치, 전자 기기 및 저장 매체에 관한 것이다.
비디오 분석에서, 타깃은 일반적으로 화면에서 수백 개의 사진을 생성하는데, 제한된 컴퓨팅 리소스의 경우, 후속 작업에서 모두 사용할 필요는 없다. 비디오에서 캡처된 사진의 정보2를 더 잘 활용하기 위해, 일반적으로 전체 비디오에서 여러 장의 사진을 선택하여 작업을 수행하는데, 이 과정을 프레임 선택이라고 한다.
본 발명의 실시예는 비디오 프레임 시퀀스에서 소정의 요구를 만족시키는 품질의 비디오 프레임을 빠르고 정확하게 선택할 수 있는 비디오 처리 방법과 장치, 전자 기기 및 저장 매체를 제공한다.
본 발명의 실시예는 비디오 처리 방법을 제공하고, 상기 비디오 처리 방법은, 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하는 단계; 각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하는 단계; 및 모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하는 단계를 포함한다.
일 가능한 구현방식에서, 상기 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하기 이전에, 상기 비디오 처리 방법은, 상기 비디오 프레임 시퀀스를 획득하는 단계; 및 상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하고, 상기 서브 비디오 프레임 시퀀스를 상기 후보 비디오 프레임 시퀀스로 사용하는 단계를 더 포함한다.
일 가능한 구현방식에서, 상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하는 단계는, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하는 단계를 포함하되, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 같다.
일 가능한 구현방식에서, 상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하는 단계는, 소정의 요구에 따라, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정하는 단계; 및 상기 개수에 따라, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하는 단계를 더 포함한다.
일 가능한 구현방식에서, 각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하는 단계는, 상기 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득하는 단계; 상기 품질 파라미터에 따라, 상기 후보 비디오 프레임 시퀀스를 정렬하는 단계; 및 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하여, 상기 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하는 단계를 포함한다.
일 가능한 구현방식에서, 정렬된 후보 비디오 프레임 시퀀스에 대해 상기 소정의 프레임 간격에 따라 프레임 추출을 수행하기 전에, 상기 비디오 처리 방법은, 상기 후보 비디오 프레임 시퀀스 중 각각의 상기 비디오 프레임의 시간 순서에 따라, 상기 후보 프레임 시퀀스 중 각각의 상기 비디오 프레임에 대해 순차적으로 번호를 구성하는 단계; 및 비디오 프레임 사이의 번호 차이의 절대값에 따라, 상기 정렬된 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임 사이의 프레임 간격을 획득하는 단계를 더 포함한다.
일 가능한 구현방식에서, 상기 정렬된 후보 비디오 프레임 시퀀스에 대해 상기 소정의 프레임 간격에 따라 프레임 추출을 수행하여, 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하는 단계는, 각각의 상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하고, 상기 품질 파라미터가 가장 높은 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하는 단계를 포함한다.
일 가능한 구현방식에서, 상기 정렬된 후보 비디오 프레임 시퀀스에 대해 상기 소정의 프레임 간격에 따라 프레임 추출을 수행하여, 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하는 단계는, 상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하는 단계; 상기 정렬된 후보 비디오 프레임 시퀀스에서 정렬 순서에 따라, k1개의 비디오 프레임을 순차적으로 선택하는 단계 - 현재 선택된 비디오 프레임과 다른 선택된 비디오 프레임 사이의 프레임 간격은, 소정의 프레임 간격보다 모두 크고, k1은 1보다 크거나 같은 정수임 - ; 및 선택된 모든 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하는 단계를 포함한다.
일 가능한 구현방식에서, 모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하는 단계는, 상기 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하는 단계; 또는, 모든 상기 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하고, k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하는 단계 - k2는 1보다 크거나 같은 정수임 - 를 포함한다.
일 가능한 구현방식에서, 상기 비디오 처리 방법은, 상기 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하는 단계를 더 포함한다.
일 가능한 구현방식에서, 상기 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하는 단계는, 상기 최종 프레임 선택 결과를 송신하는 단계; 또는, 상기 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하는 단계를 포함한다.
일 가능한 구현방식에서, 상기 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하는 단계는, 상기 최종 프레임 선택 결과 중 각각의 비디오 프레임의 이미지 특징을 추출하는 단계; 각각의 상기 이미지 특징에 대해 특징 융합 동작을 실행하여, 융합 특징을 획득하는 단계; 및 상기 융합 특징에 기반하여 타깃 인식 동작을 실행하는 단계를 포함한다.
본 발명의 실시예는 비디오 처리 장치를 더 제공하고, 상기 비디오 처리 장치는, 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하도록 구성되는 획득 모듈; 각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하도록 구성되는 인트라-시퀀스 프레임 선택 모듈; 및 모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하도록 구성되는 글로벌 프레임 선택 모듈을 포함한다.
일 가능한 구현방식에서, 상기 비디오 처리 장치는, 상기 획득 모듈이 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하기 전에, 상기 비디오 프레임 시퀀스를 획득하고; 상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하고, 상기 서브 비디오 프레임 시퀀스를 상기 후보 비디오 프레임 시퀀스로 사용하도록 구성되는 전처리 모듈을 더 포함한다.
일 가능한 구현방식에서, 상기 전처리 모듈은, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하도록 구성되되, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 같다.
일 가능한 구현방식에서, 상기 전처리 모듈은, 소정의 요구에 따라, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정하고; 상기 개수에 따라, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하도록 구성된다.
일 가능한 구현방식에서, 상기 인트라-시퀀스 프레임 선택 모듈은, 상기 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득하도록 구성되는 품질 파라미터 획득 서브 모듈; 상기 품질 파라미터에 따라, 상기 후보 비디오 프레임 시퀀스를 정렬하도록 구성되는 정렬 서브 모듈; 및 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하여, 상기 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하도록 구성되는 프레임 추출 서브 모듈을 포함한다.
일 가능한 구현방식에서, 상기 인트라-시퀀스 프레임 선택 모듈은, 상기 프레임 추출 서브 모듈이 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하기 전에, 상기 후보 비디오 프레임 시퀀스 중 각각의 상기 비디오 프레임의 시간 순서에 따라, 상기 후보 프레임 시퀀스 중 각각의 상기 비디오 프레임에 대해 순차적으로 번호를 구성하고; 비디오 프레임 사이의 번호 차이의 절대값에 따라, 상기 정렬된 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임 사이의 프레임 간격을 획득하도록 구성되는 프레임 간격 획득 서브 모듈을 더 포함한다.
일 가능한 구현방식에서, 상기 프레임 추출 서브 모듈은, 각각의 상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 상기 품질 파라미터가 가장 높은 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하도록 구성된다.
일 가능한 구현방식에서, 상기 프레임 추출 서브 모듈은, 상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하고; 상기 정렬된 후보 비디오 프레임 시퀀스에서 정렬 순서에 따라, k1개의 비디오 프레임을 순차적으로 선택하고, 현재 선택된 비디오 프레임과 다른 선택된 비디오 프레임 사이의 프레임 간격은, 소정의 프레임 간격보다 모두 크고, k1은 1보다 크거나 같은 정수이며; 선택된 모든 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하도록 구성된다.
일 가능한 구현방식에서, 상기 글로벌 프레임 선택 모듈은, 상기 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하거나; 또는 모든 상기 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하고, k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하도록 구성되되, k2는 1보다 크거나 같은 정수이다.
일 가능한 구현방식에서, 상기 비디오 처리 장치는 상기 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하도록 구성되는 프레임 선택 결과 동작 모듈을 더 포함한다.
일 가능한 구현방식에서, 상기 프레임 선택 결과 동작 모듈은, 상기 최종 프레임 선택 결과를 송신하거나; 또는 상기 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하도록 구성된다.
일 가능한 구현방식에서, 상기 프레임 선택 결과 동작 모듈은 나아가, 상기 최종 프레임 선택 결과 중 각각의 비디오 프레임의 이미지 특징을 추출하고; 각각의 상기 이미지 특징에 대해 특징 융합 동작을 실행하여, 융합 특징을 획득하며; 상기 융합 특징에 기반하여 타깃 인식 동작을 실행하도록 구성된다.
본 발명의 실시예는 전자 기기를 더 제공하고, 프로세서; 및 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하고; 여기서, 상기 프로세서를 통해 상기 실행 가능한 명령을 호출하여 본 발명의 실시예에 따른 상기 비디오 처리 방법을 실행한다.
본 발명의 실시예는 컴퓨터 프로그램 명령이 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 경우 본 발명의 실시예에 따른 상기 비디오 처리 방법을 구현한다.
본 발명의 실시예에서, 후보 비디오 프레임 시퀀스에 대해 순차적으로 인트라-시퀀스 프레임 선택 및 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득한다. 본 발명의 실시예는 후보 비디오 프레임 시퀀스에 대해 순차적으로 인트라-시퀀스 프레임 선택 및 글로벌 프레임 선택을 수행하여, 프레임 선택 결과에서 유사성이 높은 인접 비디오 프레임이 발생할 가능성을 감소시킬 수 있으므로, 비디오 처리 결과의 대표성 및 정보 상보성을 향상시킨다.
아래 도면을 참조하여 예시적인 실시예를 상세하게 설명하도록 하며, 본 발명의 실시예의 다른 특징 및 양태는 더욱 명백해질 것이다.
아래의 도면은 명세서에 병합되고 명세서의 일 부분을 구성하며, 이러한 도면은 본 발명에 부합되는 실시예를 도시하였고, 명세서와 함께 본 발명의 실시예의 기술적 해결수단을 설명한다.
도 1은 본 발명의 실시예의 비디오 처리 방법의 흐름 모식도 1이다.
도 2는 본 발명의 실시예의 비디오 프레임 시퀀스를 분할하는 모식도이다.
도 3은 본 발명의 실시예의 비디오 처리 방법의 흐름 모식도 2이다.
도 4는 본 발명의 실시예의 프레임 선택 과정의 모식도이다.
도 5는 본 발명의 실시예의 비디오 처리 방법의 흐름 모식도 3이다.
도 6은 본 발명의 실시예 중의 응용 예의 모식도이다.
도 7은 본 발명의 실시예의 비디오 처리 장치의 블록도이다.
도 8은 본 발명의 실시예에 따른 전자 기기의 블록도이다.
도 9는 본 발명의 실시예에 따른 전자 기기의 다른 블록도이다.
이하 도면을 참조하여 본 발명의 다양한 예시적인 실시예, 특징 및 양태를 상세하게 설명하도록 한다. 도면에서 동일한 도면 부호는 기능이 동일하거나 유사한 소자를 의미한다. 도면에서 실시예의 다양한 양태를 도시하였지만, 특별한 지적이 없는 한, 비율에 따라 도면이 제작될 필요는 없다.
여기서 사용되는 용어 “예시적”은 “예, 실시예 또는 설명적인 것”으로 해석되어야 한다. 여기서 “예시적”이라고 설명되는 임의의 실시예는 다른 실시예보다 바람직하거나 더 나은 것으로 해석될 필요는 없다.
본문에서 용어 “및/또는”은 단지 연관 대상의 연관 관계를 기술하기 위한 것으로, 세 가지 관계가 존재할 수 있음을 의미하는데, 예를 들어 A 및/또는 B는, A만 존재, A와 B가 동시에 존재, B만 존재하는 세 가지 경우를 의미한다. 또한, 본문에서 용어 “적어도 한 가지”는 여러 가지 중의 임의의 한 가지 또는 여러 가지 중의 적어도 두 가지의 임의의 조합을 의미하는데, 예를 들어, A, B, C 중의 적어도 한 가지를 포함한다는 것은 A, B 및 C로 구성된 집합에서 선택된 임의의 하나 또는 복수의 요소를 포함한다는 것이다.
또한, 본 발명의 실시예를 더 잘 설명하기 위해, 아래 구체적인 구현방식에서 많은 세부사항이 제공된다. 본 기술분야의 기술자는 일부 구체적인 세부사항 없이도 본 발명의 실시예를 여전히 실시할 수 있다는 것을 반드시 이해해야 한다. 일부 예에서, 본 발명의 실시예의 요점을 강조하기 위해, 본 기술분야의 기술자가 숙지한 방법, 수단, 소자 및 회로에 대해서는 상세하게 설명하지 않는다.
본 발명에서 언급된 상기 각각의 방법 실시예는 원리 논리에 위반되지 않는 한, 서로 결합하여 결합된 실시예를 형성할 수 있음을 이해해야 하고, 편폭의 제한으로 인해 본 발명의 실시예에서 더 이상 반복하여 설명하지 않는다.
또한, 본 발명의 실시예는 이미지 처리 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체 및 프로그램을 더 제공하고, 이는 본 발명의 실시예에서 제공한 임의의 이미지 처리 방법, 상응한 기술적 해결수단과 절차와 참조 방법 부분의 상응한 기재를 구현하는데 사용될 수 있으며, 더 이상 반복하여 설명하지 않는다.
도 1은 본 발명의 실시예의 비디오 처리 방법의 흐름 모식도 1이다. 상기 비디오 처리 방법은 단말 기기 또는 기타 처리 기기에 의해 실행될 수 있고, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말기, 단말기, 셀룰러 폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 휴대용 기기, 컴퓨팅 기기, 차량 탑재 기기 및 웨어러블 기기 등일 수 있다. 일부 가능한 구현방식에서, 상기 비디오 처리 방법은 프로세서를 통해 메모리에 저장된 컴퓨터 판독 가능한 명령을 호출하는 방식으로 구현될 수 있다.
도 1에 도시된 바와 같이, 상기 비디오 처리 방법은 아래와 같은 단계를 포함한다.
단계 S11에 있어서, 적어도 하나의 후보 비디오 프레임 시퀀스를 획득한다.
일 가능한 구현방식에서, 각각의 후보 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 제한을 받지 않고, 후보 비디오 프레임 시퀀스의 프레임 속도 및 길이와 같은 파라미터에 의해 결정될 수 있다.
본 실시예에서, 후보 비디오 프레임 시퀀스를 획득하는 방식은 제한을 받지 않는다. 일 가능한 구현방식에서, 단계 S11 이전에, 비디오 프레임 시퀀스를 획득하는 단계; 및 비디오 프레임 시퀀스를 후보 비디오 프레임 시퀀스로 사용하는 단계를 포함할 수 있다.
상기 발명의 실시예에서, 획득된 비디오 프레임 시퀀스 전체를 직접 후보 비디오 프레임 시퀀스로 사용하고, 후보 비디오 프레임 시퀀스에 대해 직접 프레임 선택 동작을 실행할 수 있다. 이 경우 후보 비디오 프레임 시퀀스에 대해 후속적인 프레임 선택 동작을 실행하여 획득된 제1 프레임 선택 결과를 직접 글로벌 프레임 선택 결과로 사용함으로써, 임의의 상응한 시나리오에 응용할 수 있고, 일 예에서, 특징 추출, 속성 추출 또는 정보 융합 등 시나리오에 사용할 수 있다.
일 가능한 구현방식에서, 단계 S11 이전에, 비디오 프레임 시퀀스를 획득하는 단계; 및 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하고, 서브 비디오 프레임 시퀀스를 후보 비디오 프레임 시퀀스로 사용하는 단계를 더 포함할 수 있다.
상기 발명의 실시예에서, 획득된 비디오 프레임 시퀀스에 대해 분할 동작을 실행하여, 복수의 서브 비디오 프레임 시퀀스를 획득할 수도 있다. 획득된 각각의 서브 비디오 프레임 시퀀스는 후보 비디오 프레임 시퀀스로 모두 사용될 수 있다. 이 경우 모든 획득된 서브 비디오 프레임 시퀀스에 대해 각각 프레임 선택 동작을 실행하고, 각각의 서브 비디오 프레임 시퀀스의 프레임 선택 동작 결과에 기반하여, 최종 글로벌 프레임 선택 결과를 결정함으로써, 임의의 상응한 시나리오에 응용될 수 있다. 일 예에서, 특징 추출, 속성 추출 또는 정보 융합 등 시나리오에서 사용될 수 있다. 복수의 서브 비디오 프레임 시퀀스에서 하나 또는 복수의 서브 비디오 프레임 시퀀스를 선택하여 후보 비디오 프레임 시퀀스로 사용하고, 선택된 서브 비디오 프레임 시퀀스에 대해 각각 프레임 선택 동작을 실행하며, 각각의 프레임 선택 동작의 결과에 기반하여, 최종 글로벌 프레임 선택 결과를 결정할 수도 있다. 여기서, 비디오 프레임 시퀀스를 분할하여 획득된 서브 비디오 프레임 시퀀스의 개수는 제한을 받지 않고, 이로써, 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수도 제한을 받지 않는다.
일 예에서, 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 비디오 프레임 시퀀스의 프레임 속도 R와 관련될 수 있다. 예를 들어 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 0.5R, R, 1.5R 또는 2R 등일 수 있고; 동시에, 서브 비디오 프레임 시퀀스를 선택하여 후보 프레임 시퀀스로 사용하는 방식도 제한을 받지 않으며, 실제 상황에 따라 유연하게 선택할 수 있다.
일 가능한 구현방식에서, 비디오 프레임 시퀀스에 대해 시간 도메인에서 순서에 따라 순차적으로 적어도 한 번 분할될 수 있으며, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득할 수 있되, 이러한 서브 비디오 프레임 시퀀스는 시간 도메인에서 서로 연속적이며, 즉 2 개의 분할된 인접 서브 비디오 프레임 시퀀스의 인접한 영역에 있는 2개의 비디오 프레임은 연속 프레임이고, 그 사이에는 간격이 존재하지 않는다. 예를 들어, 비디오 프레임 시퀀스의 시간 도메인 위치 A1 및 A2에서 순차적으로 두 번 분할될 있고, 여기서A2는 시간 도메인에서A1 이후에 위치하며, 이 경우 세 개의 서브 비디오 프레임 시퀀스를 획득할 수 있으며, 각각 SA1, SA2 및 SA3으로 표시한다. 여기서 SA1은 비디오 프레임 시퀀스의 첫 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 비디오 프레임 시퀀스의 시작 위치 및 시간 도메인 위치 A1이고, SA2는 비디오 프레임 시퀀스의 두 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 시간 도메인 위치 A1 및 시간 도메인 위치 A2이며, SA3은 비디오 프레임 시퀀스의 세 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 시간 도메인 위치 A2 및 비디오 프레임 시퀀스의 종료 위치이고, SA1, SA2 및 SA3은 시간 도메인에서 순서에 따라 서로 인접하고 연속적이며, 상호 간에 동일한 비디오 프레임을 포함하지 않는다. 또한 다른 방식을 사용하여 비디오 프레임 시퀀스를 복수의 서브 비디오 프레임 시퀀스로 분할할 수 있고, 구체적인 방식은 특별히 한정되지 않는다.
일 가능한 구현방식에서, 순서에 따라 비디오 프레임 시퀀스에 대해 적어도 한 번 분할할 수 있고, 이 경우의 분할은 시간 도메인의 순서에 따라 수행하지 않아도 되며, 이 경우 적어도 2개의 서브 비디오 프레임 시퀀스를 획득할 수 있되, 이러한 서브 비디오 프레임 시퀀스의 합집합은 비디오 프레임 시퀀스이고, 다른 서브 비디오 프레임 시퀀스 사이에는 교집합이 존재할 수 있는데, 어느 하나의 비디오 프레임에 존재할 수 있으며, 2개의 다른 서브 비디오 프레임 시퀀스에 동시에 존재할 수 있다. 예를 들어, 비디오 프레임 시퀀스의 시간 도메인 위치 B1에서 한 번 분할할 수 있고, 이 경우 2개의 서브 비디오 프레임 시퀀스를 획득할 수 있으며, 각각 SB1 및 SB2로 표시한다. 여기서 SB1은 비디오 프레임 시퀀스의 첫 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 비디오 프레임 시퀀스의 시작 위치 및 시간 도메인 위치 B1이고, SB2는 비디오 프레임 시퀀스의 두 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 시간 도메인 위치 B1 및 비디오 프레임 시퀀스의 종료 위치이며; 그런 다음 완전한 비디오 프레임 시퀀스에 대해 다시 한 번 분할할 수 있고, 이 경우의 분할은 비디오 프레임 시퀀스의 시간 도메인 위치 B2 부분에서 수행할 수 있으며, 시간 도메인에서 B2는 B1 앞에 위치하고, 이 경우 또 2개의 새로운 서브 비디오 프레임 시퀀스를 획득할 수 있으며, 각각 SB3 및 SB4로 표시한다. 여기서 SB3은 비디오 프레임 시퀀스의 세 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 비디오 프레임 시퀀스의 시작 위치 및 시간 도메인 위치 B2이고, SB4는 비디오 프레임 시퀀스의 네 번째 서브 시퀀스로서, 시작점 및 끝점은 각각 시간 도메인 위치 B2 및 비디오 프레임 시퀀스의 종료 위치이다. 최종적으로 4개의 서브 비디오 프레임 시퀀스 SB1, SB2, SB3 및 SB4를 획득할 수 있고, 여기서 SB1 및 SB2는 시간 도메인에서 인접하되 중복되지 않으며, SB3 및 SB4도 시간 도메인에서 인접하되 중복되지 않지만, SB1과 SB3 사이 및 SB2와 SB4 사이에는 동일한 비디오 프레임이 존재할 수 있다.
일 가능한 구현방식에서, 비디오 프레임 시퀀스를 분할하여 복수의 서브 비디오 프레임 시퀀스를 획득하는데, 균일하게 분할할 수 있는 바, 즉 획득된 모든 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 모두 같으며, 고르지 않게 분할할 수도 있는 바, 즉 분할한 후의 결과 중, 2개의 서브 비디오 프레임 시퀀스가 존재할 수 있으며, 이에 포함되는 비디오 프레임의 개수는 상이하다.
상기 각각의 발명의 실시예에 기반하여, 일 가능한 구현방식에서, 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하는 단계는, 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하는 단계를 포함할 수 있되, 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 같다.
도 2는 본 발명의 실시예의 비디오 프레임 시퀀스를 분할하는 모식도이다. 도 2에 도시된 바와 같이, 일 예에서, 비디오 프레임 시퀀스는 시간 도메인 순서에 따라 3개의 서브 비디오 프레임 시퀀스로 직접 분할되고, 각각 슬라이스 1, 슬라이스 2 및 슬라이스 3으로 표시하되, 슬라이스 1, 슬라이스 2 및 슬라이스 3에 포함되는 비디오 프레임의 개수는 같다.
상기 발명의 실시예에 따르면, 비디오 프레임 시퀀스를 분할하여 획득된 서브 비디오 프레임 시퀀스의 개수는 제한을 받지 않고, 실제 상황에 따라 유연하게 선택할 수 있다. 이로써, 일 가능한 구현방식에서, 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하는 단계는, 소정의 요구에 따라, 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정하는 단계; 및 상기 개수에 따라, 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하는 단계를 더 포함한다.
상기 소정의 요구는 실제 상황에 따라 유연하게 결정될 수 있다. 일 가능한 구현방식에서, 소정의 요구는 실시간 요구일 수 있다. 일 예에서, 실시간 요구에 의해 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정할 수 있다. 실시간 요구의 구체적인 유형은 제한을 받지 않고, 일 가능한 구현방식에서, 실시간 요구는 프레임 선택 결과의 응용 실시간 요구일 수 있으며, 일 예에서, 최종 프레임 선택 결과는 이미지 또는 사진을 푸시하는데 사용되는데, 이를 푸시 맵이라고 하는, 즉 선택된 이미지 또는 사진을 어느 한 지정된 위치에 송신하되, 송신된 구체적 목적지 및 타깃 대상은 이에 한정되지 않는다. 최종 프레임 선택 결과가 푸시 맵에 사용될 경우, 푸시 맵의 실시간 요구가 존재할 수 있고, 실시간 푸시 맵을 요구하는 높은 실시간 요구일 경우, 즉 규정된 시간 범위 내에 즉시 프레임 선택 결과를 상응한 위치에 송신하되, 상기 규정된 시간 범위는 실제 상황에 따라 유연하게 설정될 수 있다. 예를 들어, 실시간 푸시 맵은 사용자가 비디오를 촬영한 후 프레임 선택 결과를 곧바로 사용자에게 송신하는 것이다. 이로써, 높은 실시간 요구의 조건에서, 분할된 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 비교적 적게 설정할 수 있고, 이 경우 적어도 하나의 서브 비디오 프레임 시퀀스를 후보 비디오 프레임 시퀀스로 사용하여 프레임 선택 동작을 실행할 수 있으며, 이 경우 후보 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수가 비교적 적기 때문에, 프레임 선택 동작의 실행 속도가 비교적 빠르므로, 푸시 맵의 높은 실시간 요구를 만족시킬 수 있고, 관련 기술에서 프레임 선택 동작의 지연 문제를 최소화시킬 수 있다. 비실시간 푸시 맵을 요구하는 낮은 실시간 요구일 경우, 즉 규정된 시간 범위를 설정하지 않고, 프레임 선택 과정이 끝난 후 프레임 선택 결과를 상응한 위치에 송신하며; 예를 들어, 비실시간 푸시 맵은 사용자가 비디오를 촬영한 후, 촬영한 비디오에 대해 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득한 다음 다시 사용자에게 송신하는 것이다. 이로써, 낮은 실시간 요구의 조건에서, 분할된 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 비교적 많게 설정할 수 있고, 이 경우 복수의 서브 비디오 프레임 시퀀스 심지어 전부의 서브 비디오 프레임 시퀀스를 선택해 후보 프레임 시퀀스로 사용하여 프레임 선택 동작을 실행할 수 있으며, 이 경우 후보 프레임 시퀀스에 포함되는 비디오 프레임의 개수가 비교적 많기 때문에, 프레임 선택 동작의 실행 속도가 비교적 느리지만, 획득된 글로벌 프레임 선택 결과의 품질이 비교적 높아, 푸시 맵의 품질을 향상시킬 수 있다.
상기 발명의 실시예에 따르면, 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하고, 획득된 후보 비디오 프레임 시퀀스에 기반하여 후속적인 프레임 선택 동작을 실행함으로써, 최종 프레임 선택 결과를 획득하는데, 이런 방식은 전체 비디오 처리 과정의 융통성을 향상시킬 수 있다. 최종 프레임 선택 결과는 응용 실시간의 요구가 존재할 수 있으므로, 후보 비디오 프레임 시퀀스의 원활한 획득 방식을 통해, 높은 실시간 요구의 경우 후보 비디오 프레임 시퀀스의 길이를 단축시키거나, 인트라-시퀀스 프레임 선택을 실행한 후보 비디오 프레임 시퀀스의 개수를 감소시켜, 인트라-시퀀스 프레임 선택 중 관련된 프레임 선택의 데이터 양을 감소시킴으로써, 프레임 선택 결과의 높은 실시간 응용 요구를 만족시키고, 프레임 선택 과정의 지연 문제를 감소시키도록 프레임 선택의 속도를 향상시킬 수 있고; 실시간 요구가 비교적 낮은 경우 후보 비디오 프레임 시퀀스의 길이를 증가시키고, 실행된 인트라-시퀀스 프레임 선택의 후보 비디오 프레임 시퀀스의 개수를 증가시킴으로써, 기본 실시간 요구를 보장하는 동시에 프레임 선택 결과의 품질을 향상시킬 수도 있다.
단계 S12에 있어서, 각 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득한다.
일 가능한 구현방식에서, 도 3은 본 발명의 실시예의 비디오 처리 방법의 흐름 모식도 2이고, 단계 S12는 아래와 같은 단계를 포함할 수 있다.
단계 S121에 있어서, 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득한다.
일 가능한 구현방식에서, 각각의 비디오 프레임의 품질 파라미터는 각각의 비디오 프레임의 해상도, 비디오 프레임 중 타깃 대상의 상태 및 품질을 평가할 수 있는 다른 종합 파라미터 중 적어도 하나의 지표를 나타낼 수 있고, 구체적으로 어떤 지표로 각각의 비디오 프레임의 품질 파라미터를 결정할지는 구체적으로 한정하지 않으며, 실제 상황에 따라 유연하게 선택할 수 있다. 비디오 프레임의 품질 판단 표준은 구체적인 제한을 받지 않기 때문에, 다른 품질 판단 표준에 대해, 상응하게 다른 방식을 통해 비디오 프레임의 품질 파라미터를 획득할 수 있다.
일 예에서, 사진의 해상도를 읽는 방식을 통해 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득할 수 있다. 일 예에서, 사진 중 타깃 대상의 각도를 읽어 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득할 수 있고, 타깃 대상은 다양한 다른 판단 각도가 존재할 수 있기 때문에, 타깃 대상의 편향 각도를 읽어 비디오 프레임의 품질 파라미터를 획득할 수 있으며, 또한 타깃 대상의 요 각도를 읽어 비디오 프레임의 품질 파라미터를 획득할 수 있고, 타깃 대상의 사이즈 크기를 읽어 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득할 수도 있다. 일 예에서, 복수의 지표를 종합하여 비디오 프레임의 품질 파라미터를 판단할 수 있으며, 이 경우 비디오 프레임 품질 파라미터의 판단 모델을 셋업할 수 있고, 예시적으로, 이런 판단 모델은 신경망 모델일 수 있으며, 이로써 각각의 비디오 프레임을 확립된 판단 모델을 순차적으로 통과한 후, 판단 모델의 출력 결과에 따라 비교하여, 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질을 획득할 수 있다.
단계 S122에 있어서, 품질 파라미터에 따라, 후보 비디오 프레임 시퀀스를 정렬한다.
각 비디오 프레임의 품질 파라미터를 획득하였기 때문에, 각각의 비디오 프레임의 품질 파라미터에 따라 비디오 프레임을 정렬할 수 있고, 후속적인 동작의 편의를 위해, 구체적인 정렬 방식은 실제 상황에 따라 유연하게 결정될 수 있다. 일 예에서, 각각의 비디오 프레임의 품질 파라미터의 내림차순으로 정렬할 수 있고, 각각의 비디오 프레임의 품질 파라미터의 오름차순으로 정렬할 수도 있다.
일 가능한 구현방식에서, 단계 S122의 다음 단계 S123을 실행하기 전에, 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임이 시간 순서에 따라, 후보 프레임 시퀀스 중 각각의 비디오 프레임에 대해 번호를 구성하는 단계; 및 비디오 프레임 사이의 번호 차이의 절대값에 따라, 정렬된 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임 사이의 프레임 간격을 획득하는 단계를 더 포함할 수 있다.
본 실시예에서, 각각의 비디오 프레임 사이의 프레임 간격은, 각각의 비디오 프레임 사이의 시간 도메인에서의 간격 관계를 의미할 수 있고, 구체적으로 어느 인덱스로 다른 비디오 프레임 사이의 프레임 간격을 나타내는지는, 구체적으로 한정하지 않는다. 일 예에서, 비디오 프레임 사이의 프레임 간격은 비디오 프레임의 시간 도메인에서의 차이를 의미할 수 있다. 일 예에서, 비디오 프레임 사이의 프레임 간격은 시간 도메인에 따라 정렬될 경우 비디오 프레임 사이를 분리한 비디오 프레임의 개수를 의미할 수도 있다. 이로써, 상기 발명의 실시예에 포함되는 단계의 목적은 각각의 비디오 프레임 사이의 프레임 간격을 양자화시키기 위한 것이다. 일 예에서, 시간 도메인에 따라 정렬될 경우 비디오 프레임 사이를 분리한 비디오 프레임의 개수에 의해, 프레임 간격을 양자화시킬 수 있으므로, 시간 도메인에 따라 정렬될 경우 분리된 비디오 프레임 사이에 구체적으로 몇 개의 비디오 프레임이 있는지를 결정하기 위해, 각각의 비디오 프레임을 시간 순서에 따라 번호를 구성하는데, 임의의 2개의 비디오 프레임 사이의 번호 차이의 절대값은 이 2개의 비디오 프레임 사이의 거리를 의미하며, 즉 임의의 2개의 비디오 프레임 사이의 프레임 간격을 나타낼 수 있다.
상기 2개의 비디오 프레임 사이의 프레임 간격을 획득하는 단계는, 후보 비디오 프레임 시퀀스가 품질 파라미터에 따라 정렬되기 전에 발생될 수 있고, 후보 비디오 프레임 시퀀스가 품질 파라미터에 따라 정렬된 후에 발생될 수도 있되, 프레임 간격을 획득하는 과정이 후보 비디오 프레임 시퀀스가 품질 파라미터에 따라 정렬된 후에 발생하면, 품질에 따라 정렬된 시퀀스는 시간 도메인에서의 순서가 변경될 수 있으므로, 이 경우 번호 계산의 방식을 통해 프레임 간격을 획득하려면, 품질에 따라 정렬되지 않은 후보 비디오 프레임 시퀀스에 기반하여 넘버링을 수행해야 함을 유의해야 한다.
단계 S123에 있어서, 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하여, 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득한다.
단계 S123의 구체적 구현방식은 실제 상황에 따라 결정될 수 있다. 일 가능한 구현방식에서, 단계 S123은, 각각의 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하고, 품질 파라미터가 가장 높은 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하는 단계를 포함할 수 있다.
본 실시예에서, 각각의 후보 비디오 프레임 시퀀스에서, 비디오 프레임을 하나만 선택할 수 있으며, 이 경우 각각의 후보 비디오 프레임 시퀀스에서 품질 파라미터가 가장 높은 비디오 프레임을 선택해 프레임 선택 결과로 사용함으로써, 프레임 선택의 품질을 향상시킬 수 있다.
일 가능한 구현방식에서, 단계 S123은, 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하는 단계; 정렬된 후보 비디오 프레임 시퀀스에서 정렬 순서에 따라, k1개의 비디오 프레임을 순차적으로 선택하는 단계 - 현재 선택된 비디오 프레임과 다른 선택된 비디오 프레임 사이의 프레임 간격은, 소정의 프레임 간격보다 모두 크고, k1은 1보다 크거나 같은 정수임 - ; 및 선택된 모든 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하는 단계를 포함할 수 있다.
본 실시예에서, 먼저 품질 파라미터에 따라 정렬하고, 후보 프레임 시퀀스에서 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하고; 비디오 프레임의 개수가 최종적으로 k1+1개 선택되어야 하기 때문에, 후보 프레임 시퀀스 중 상기 품질 파라미터가 가장 높은 비디오 프레임을 제외한 남은 비디오 프레임에서 k1개의 비디오 프레임을 다시 선택해야 하며, 선택된 비디오 프레임이 서로 인접하거나 근접할 경우, 이러한 비디오 프레임은 비교적 높은 유사성을 가지므로, 이러한 비디오 프레임의 정보가 크게 중첩되고, 이러한 비디오 프레임의 응용 가치는 감소하게 된다. 이로써, 본 발명의 실시예에서, 남은 비디오 프레임에서 선택한 k1개의 비디오 프레임과 선택된 첫 번째 비디오 프레임 사이에는 일정한 크기의 프레임 간격이 존재하고, 동시에 상기 k1개의 비디오 프레임 사이에도 일정한 프레임 간격이 존재할 수 있으므로, 프레임 선택 결과의 대표성 및 정보 상보성을 향상시키는 동시에, 프레임 선택 결과의 품질을 보장하여야 하며, 프레임 선택 결과의 대표성을 향상시키기 위해 프레임 선택 결과의 품질 요구를 감소시키는 것을 최소화해야 한다. 상기 이유에 기반하여, k1개의 비디오 프레임을 선택하는 방법은 하기와 같다. 정렬된 후보 프레임 시퀀스 중 각각의 비디오 프레임의 품질이 순차적으로 낮아지고, 이로써 선택된 첫 번째 비디오 프레임은 정렬된 후보 프레임 시퀀스 중의 첫 번째 비디오 프레임이며, 이 경우 정렬된 후보 프레임 시퀀스에서, 두 번째 비디오 프레임에서부터 시작하여, 순서에 따라, 각각의 비디오 프레임과 첫 번째로 선택된 비디오 프레임 사이의 프레임 간격을 순차적으로 계산하고, 계산된 프레임 간격이 소정의 프레임 간격보다 클 경우, 이를 두 번째 선택된 프레임 간격으로 사용하며, 다시 두 번째로 선택된 프레임 간격 후의 첫 번째 비디오 프레임에서 시작하여, 순서에 따라, 각각의 비디오 프레임과 첫 번째로 선택된 비디오 프레임 및 두 번째로 선택된 비디오 프레임 사이의 프레임 간격을 순차적으로 계산하고, 계산된 2개의 프레임 간격이 소정의 프레임 간격보다 클 경우, 이를 세 번째 선택된 프레임 간격으로 사용하며, 이와 같이 유추하여, 최종적으로 k1개의 비디오 프레임이 선택되면, k1개의 비디오 프레임 및 첫 번째로 선택된 비디오 프레임을 후보 프레임 시퀀스의 프레임 선택 동작 결과, 즉 제1 프레임 선택 결과로 사용한다. 상기 발명의 실시예 중의 소정의 프레임 간격은 실제 상황에 따라 설정될 수 있고, 일 예에서, 소정의 프레임 간격은 후보 프레임 시퀀스 길이의 1/4일 수 있으며, 즉 후보 프레임 시퀀스에 포함되는 비디오 프레임 개수의 1/4이다.
상기 과정에 따르면, 매번 선택된 비디오 프레임과 각각의 선택된 비디오 프레임 사이의 프레임 간격은 소정의 프레임 간격보다 크므로, 최종적으로 선택된 제1 프레임 선택 결과에서, 임의의 2개의 비디오 프레임 사이의 프레임 간격은 소정의 프레임 간격보다 크고, 동시에 프레임 선택 동작을 실행할 경우, 비디오 프레임 품질 파라미터의 내림차순으로 다음 비디오 프레임을 선택하므로, 비디오 프레임의 품질을 보장할 수 있다. 종합하면, 후보 프레임 시퀀스에 대해 프레임 선택 동작을 실행하여 획득된 제1 프레임 선택 결과는, 비교적 좋은 품질을 가지는 동시에, 비교적 우수한 대표성 및 정보 상보성을 가진다.
도 4는 본 발명의 실시예에 따라 프레임 선택 과정의 모식도를 도시한다. 도 4에 도시된 바와 같이, 일 예에서, 후보 비디오 프레임 시퀀스에 대해 프레임을 선택하 구체적인 과정은, 후보 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 S이므로, 후보 비디오 프레임 시퀀스의 시간 도메인 순서에 따라 먼저 S 프레임 비디오 프레임에 대해 번호를 구성하는 단계를 포함할 수 있다. 번호를 구성한 후, S 프레임 비디오 프레임을 품질 파라미터의 내림차순으로 정렬하여, 도면 중의 정렬 결과를 획득한다. 도면에서의 정렬 결과에 기반하여, 프레임 선택을 수행할 수 있다. 먼저 정렬 결과로부터, 번호가 5(f=5)인 비디오 프레임의 품질이 가장 좋고, 이로써 번호가 5(f=5)인 비디오 프레임을 첫 번째로 선택된 비디오 프레임으로 사용하며, 이를 선택한 후, 소정의 프레임 간격에 기반하여 다음 비디오 프레임을 선택한다는 것을 알 수 있다. 본 발명의 실시예에서, 소정의 프레임 간격은 3으로 설치되므로 정렬 결과에 따르면, 번호가 6인 비디오 프레임은 품질이 비교적 높지만, 번호가 5인 비디오 프레임 사이의 거리가 1로써, 소정의 프레임 간격 3보다 작으므로, 선택되지 못한다. 그러나 번호가 13인 사진은 조건을 만족시키므로 두 번째로 품질이 좋은 사진이 된다. 본 예에서, 최종적으로 선택되어야 할 비디오 프레임의 개수는 2개이며, 즉 최종적으로 선택된 2개의 비디오 프레임은 각각 5와 13으로 번호가 매겨진 비디오 프레임이다.
일 가능한 구현방식에서, 단계 S12는 아래와 같은 과정을 포함할 수도 있다. 후보 프레임 시퀀스에서 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하되, 이 경우 후보 프레임 시퀀스에 대해 더 이상 품질 파라미터에 따라 정렬하지 않으며, 반면 소정의 프레임 간격의 요구에 따라, 첫 번째로 선택된 비디오 프레임과의 프레임 간격이 소정의 프레임 간격보다 작은 비디오 프레임은 제외되고, 남은 선택 가능한 비디오 프레임에서 다시 최고 품질의 비디오 프레임을 선택하여, 두 번째로 선택된 비디오 프레임으로 사용한다. 첫 번째 제외 후, 남은 선택 가능한 프레임에는 제1 선택된 비디오 프레임과의 프레임 간격이 소정의 프레임 간격보다 작은 비디오 프레임이 존재하지 않으며, 이로써 남은 선택 가능한 프레임에서 두 번째로 선택된 비디오 프레임과의 프레임 간격이 소정의 프레임 간격보다 작은 비디오 프레임은 직접 제외되고, 다시 남은 선택 가능한 프레임에서 최고 품질의 비디오 프레임을 선택하여, 세 번째로 선택된 비디오 프레임으로 사용한다. 이렇게 유추하여 모든 비디오 프레임이 선택될 때까지 수행한다. 이 과정도 프레임 간격 판단 및 품질 선별을 수행했기 때문에, 이 과정에서도 비교적 좋은 품질을 가진 비디오 프레임을 선택할 수 있는 동시에, 비교적 우수한 대표성 및 정보 상보성을 가진 비디오 프레임을 선택할 수 있다.
단계 S13에 있어서, 모든 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득한다.
본 실시예에서, 모든 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하는 구현방식는 다양한 방식을 포함할 수 있다. 일 가능한 구현방식에서, 단계 S13은, 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하는 단계; 또는, 모든 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하여, k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하는 단계 - k2는 1보다 크거나 같은 정수임 - 를 포함할 수 있다.
상기 첫 번째 구현방식에서, 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하는 것은 다양한 경우가 존재할 수 있다. 일 예에서, 하나의 후보 비디오 프레임 시퀀스만이 프레임 선택 처리를 수행하여, 제1 프레임 선택 결과를 획득할 수 있으므로, 제1 프레임 선택 결과를 최종 프레임 선택 결과로 직접 사용할 수 있다. 일 예에서, 복수의 후보 비디오 프레임 시퀀스가 프레임 선택 처리를 수행하였으므로, 복수의 제1 프레임 선택 결과를 획득하며, 모든 제1 프레임 선택 결과의 개수의 합이 최종 프레임 선택 결과의 개수 요구를 초과하지 않는다면, 획득된 모든 제1 프레임 선택 결과를 직접 최종 프레임 선택 결과로 함께 사용할 수 있고; 모든 제1 프레임 선택 결과의 개수의 합이 최종 프레임 선택 결과의 개수 요구를 초과하지 않는다면, 획득된 모든 제1 프레임 선택 결과를 하나의 집합으로 사용하고, 이 집합에서 임의의 2개의 비디오 프레임 사이의 프레임 간격을 계산하여, 2개의 비디오 프레임 사이의 프레임 간격이 소정의 프레임 간격보다 작은 경우가 존재한다면, 집합에서 소정의 프레임 간격보다 작은 2개의 비디오 프레임 간격이 존재하지 않을 때까지 품질이 비교적 낮은 비디오 프레임은 제외되며, 이 경우 이 집합을 최종적으로 획득한 글로벌 프레임 선택 결과로 사용한다.
상기 두 번째 구현방식에서, 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하되, k2의 수치는 실제 상황에 따라 설정될 수 있으며, 여기서 구체적으로 한정하지 않는다. k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하는 것에는 여러 가지 경우가 존재할 수도 있다. 일 예에서, 하나의 후보 비디오 프레임 시퀀스만 프레임 선택 처리를 수행하였고, 획득된 제1 프레임 선택 결과에 포함되는 비디오 프레임의 개수는 k2보다 크며, 제1 프레임 선택 결과는 프레임 간격에 따라 계산하여 획득되었기 때문에, 제1 프레임 선택 결과에서 임의의 2개의 비디오 프레임 사이의 프레임 간격은 소정의 프레임 간격보다 크므로, 이 경우 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오를 최종 프레임 선택 결과로 사용하여, 프레임 선택 품질을 보장한다. 일 예에서, 복수의 후보 비디오 프레임 시퀀스가 프레임 선택 처리를 수행하였을 수 있고, 획득된 모든 제1 프레임 선택 결과의 개수의 합은 k2를 초과하며, 이 경우 획득된 모든 제1 프레임 선택 결과를 하나의 집합으로 함께 직접 사용할 수 있고, 이 집합에서 최고 품질의 k2 프레임의 비디오를 선택하여, 프레임 선택의 품질을 보장한다. 일 예에서, 복수의 후보 비디오 프레임 시퀀스가 프레임 선택 처리를 수행하였을 수 있고, 획득된 모든 제1 프레임 선택 결과의 개수의 합은 최종 프레임 선택 결과의 개수 요구를 초과하며, 이 경우 획득된 모든 제1 프레임 선택 결과를 다시 후보 비디오 프레임 시퀀스로 사용하고, 상기 임의의 발명의 실시예에서의 인트라-시퀀스 프레임 선택 방법을 통해, 이 후보 비디오 프레임 시퀀스에서 k2 프레임의 비디오를 선택하여 최종 프레임 선택 결과로 사용하는데, 이런 방식은 다른 제1 프레임 선택 결과에서 선택된 비디오 프레임 사이에 인접한 비디오 프레임이 존재하는 것을 최소화할 수 있다. 예를 들어, 도 2에 도시된 바와 같이 획득된 후보 비디오 프레임 시퀀스에서, 슬라이스 1의 마지막 비디오 프레임을 비디오 프레임 A로 표시하고, 가능하게 슬라이스 1의 제1 프레임 선택 결과로 하며, 슬라이스 2의 첫 번째 비디오 프레임을 비디오 프레임 B로 표시하고, 가능하게 슬라이스 2의 제1 프레임 선택 결과로 하는데, 이 경우 양자는 최종 프레임 선택 결과의 대체 옵션에 포함된다. 최종 프레임 선택 결과를 직접 품질에 따라 정렬하면, 최종 프레임 선택 결과 중 비디오 프레임 A 및 비디오 프레임 B가 동시에 포함도리 수 있고, 도면에 따르면, 비디오 프레임 A 및 비디오 프레임 B는 인접하며, 이 경우 획득된 최종 프레임 선택 결과는 비교적 낮은 대표성을 가질 수 있고, 이로써 이 경우 획득된 모든 제1 프레임 선택 결과를 다시 후보 프레임 시퀀스로 사용하며, 상기 임의의 발명의 실시예의 인트라-시퀀스 프레임 선택의 동작을 통해, 획득된 최종 프레임 선택 결과는 더욱 대표성을 가질 수 있다.
본 발명의 실시예에서, 비디오 프레임의 품질 파라미터 및 각각의 비디오 프레임 사이의 프레임 간격을 통해, 프레임 선택 결과의 품질을 보장하는 동시에, 인접한 프레임이 나타나는 것을 효과적으로 방지할 수 있으며, 프레임 선택 결과의 대표성 및 정보 상보성을 향상시켜, 후속적으로 프레임 선택 결과를 응용하는데 유리하다.
전술한 실시예에 기반하여, 도 5는 본 발명의 실시예의 비디오 처리 방법의 흐름 모식도 3이다. 도 5에 도시된 바와 같이, 일 가능한 구현방식에서, 상기 비디오 처리 방법은 아래와 같은 단계를 포함할 수 있다.
단계 S14에 있어서, 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행한다.
일 가능한 구현방식에서, 최종 프레임 선택 결과에 따라 임의의 기설정된 동작을 실행하되, 기설정된 동작은 제한을 받지 않으며, 임의의 응용 가능한 프레임 선택 결과에 의해 동작을 실행하는 것을, 모두 기설정된 동작으로 간주할 수 있다.
일 가능한 구현방식에서, 단계 S14는, 최종 프레임 선택 결과를 송신하는 단계; 또는, 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하는 단계를 포함할 수 있다.
본 구현방식에서, 최종 프레임 선택 결과를 송신하는 방식, 대상 및 유형에는 다양한 경우가 존재할 수 있고, 이에 한정되지 않는다. 일 가능한 구현방식에서, 최종 프레임 선택 결과를 송신하는 단계는, 최종 프레임 선택 결과를 실시간으로 송신하는 단계; 및/또는 최종 프레임 선택 결과를 비실시간으로 송신하는 단계를 포함할 수 있다. 일 예에서, 최종 프레임 선택 결과를 실시간으로 송신하는 동작만 실행할 수 있고, 구체적 과정은 비디오 프레임 시퀀스를 획득하는 동시에 이미 획득된 비디오 프레임 시퀀스에 대해 프레임 선택을 수행하여, 최종 프레임 선택 결과를 즉시 송신하는 것이다. 일 예에서, 프레임 선택 결과를 비실시간으로 송신하는 동작만 실행할 수 있고, 구체적 과정은 비디오 프레임 시퀀스를 획득하고, 완전한 비디오 프레임 시퀀스를 획득한 후 프레임 선택을 수행하여, 최종 프레임 선택 결과를 송신하는 것이다. 일 예에서, 프레임 선택 결과를 실시간으로 송신하는 동작 및 프레임 선택 결과를 비실시간으로 송신하는 동작을 동시에 실행할 수 있고, 구체적 과정은, 비디오 프레임 시퀀스를 획득하는 과정에서, 이미 획득된 부분의 비디오 프레임 시퀀스에 대해 프레임 선택을 수행하여, 즉시 프레임 선택 결과를 송신하고, 비디오 프레임 시퀀스를 획득하는 전체 과정이 완료된 후, 완전한 비디오 프레임 시퀀스에 기반하여 다시 순차적으로 인트라-시퀀스 프레임 선택 및 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 송신한다.
일 가능한 구현방식에서, 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하는 단계는, 최종 프레임 선택 결과에서 각각의 비디오 프레임의 이미지 특징을 추출하는 단계; 각각의 이미지 특징에 대해 특징 융합 동작을 실행하여, 융합 특징을 획득하는 단계; 및 융합 특징에 기반하여 타깃 인식 동작을 실행하는 단계를 포함할 수 있다.
상기 발명의 실시예에서, 최종 프레임 선택 결과에서 각각의 비디오 프레임의 이미지 특징을 추출하는 방식은 제한을 받지 않고, 실제 상황에 따라 유연하게 선택할 수 있다. 일 예에서, 신경망을 통해 각각의 비디오 프레임의 이미지 특징을 추출할 수 있고, 구체적으로 어떤 신경망 및 신경망의 훈련 방식을 사용할지도 제한을 받지 않으며, 실제 상황에 따라 유연하게 선택할 수 있다. 각각의 비디오 프레임의 이미지 특징을 추출하는 방식은 제한을 받지 않기 때문에, 획득된 각각의 이미지 특징은, 그 방식도 다른 방식이 존재할 수 있고, 이로써 각각의 이미지 특징에 대해 특징 융합 동작을 실행하는 구현방식는 각각의 이미지 특징의 실제 상황에 따라 유연하게 선택할 수 있으며, 이에 한정되지 않는다. 융합 특징을 획득한 후, 융합 특징에 기반하여 타깃 인식 동작을 실행하는 구현방식도 이에 한정되지 않고, 융합 특징의 실제 상황에 따라 유연하게 선택할 수 있다. 일 예에서, 융합 특징에 기반하여 얼굴 인식 동작을 실행할 수 있고; 일 예에서, 융합 특징도 콘볼루션 신경망을 통해 콘볼루션 처리를 수행할 수 있다.
이하 구체적인 응용 시나리오에 결합하여 본 발명의 실시예의 비디오 처리 방법을 예를 들어 설명한다.
스마트 비디오 분석 작업에서, 일반적으로 타깃이 화면에서 나타나서 사라질 때까지 몇 초 내지 몇십 초까지 지속된다. 프레임 속도가 25 프레임/초의 조건에서, 일반적으로 수백 개의 캡처 사진이 생성된다. 컴퓨팅 자원이 제한될 경우에, 모든 사진을, 예를 들어 특징 추출 및 속성 추출과 같은 정보 추출에 쓸 필요는 없다. 캡처 사진의 정보를 더 잘 이용하기 위해, 일반적으로 타깃의 전체 트래킹 과정에서 여러 장의 고품질의 캡처 사진을 선택하여 정보 추출 및 융합을 수행한다.
많은 캡처 사진에서 대표적이고 인식률을 향상시키는데 도움이 되는 복수의 고품질의 캡처 사진을 어떻게 선택할 것인가는 본 발명의 실시예 중의 프레임 선택 전략이다. 훌륭한 프레임 선택 전략은 해상도가 높고 품질이 높은 캡처 사진을 선택할 수 있을 뿐만 아니라, 정보가 상보되는 캡처 타깃을 찾을 수 있어야 한다. 그러나 일반적인 프레임 선택 전략은 일반적으로 품질 점수를 기준으로만 사용한다. 캡처 사진 중의 인접한 프레임 사진 사이의 동일한 타깃의 유사성은 일반적으로 높고, 중복성이 매우 크기 때문에, 사진의 품질만 고려하는 프레임 선택 전략은 대표성 및 정보 상보성을 가진 캡처 사진을 선택하는데 도움이 되지 않는다.
본 발명의 실시예의 비디오 처리 방법을 사용하여 획득된 비디오 프레임 시퀀스에 대해 처리를 수행하고, 선택된 최적화 프레임이 인접한 프레임인 것을 효과적으로 방지함으로써, 선택된 최적화 프레임 사이의 정보 상보성을 향상시킨다.
도 6은 본 발명의 실시예 중의 응용 예의 모식도이다. 도 6에 도시된 바와 같이, 선택된 비디오 프레임은, 한 편으로 사용자에게 푸시되여 디스플레이 또는 다른 동작(즉 도면에서 도시된 사진 푸시)을 실행할 수 있고, 다른 한 편으로 이러한 선택된 최적화 사진은 계속하여 정보 추출, 정보 융합 및 타깃 인식을 수행할 수 있다. 이러한 선택된 비디오 프레임을 응용하여 비디오를 처리할 경우, 한 편으로 계산 오버헤드를 감소시킬 수 있고, 다른 한 편으로 특징 융합을 수행하여 인식의 정확도를 향상시킬 수 있다.
본 발명의 실시예의 비디오 처리 방법은 상기 예시 시나리오에 응용되는데 한정되지 않고, 임의의 비디오 처리 또는 이미지 처리 과정에 응용될 수 있으며, 본 발명은 이에 한정하지 않음을 유의해야 한다.
본 발명에서 언급된 상기 각각의 방법 실시예는, 원리 논리에 위반되지 않는 한, 서로 결합하여 결합된 실시예를 형성할 수 있음을 이해해야 하고, 편폭의 제한으로 본 발명의 실시예에서 더 이상 반복하여 설명하지 않는다.
본 기술분야의 기술자는, 구체적인 구현방식의 상기 비디오 처리 방법에서 각각의 단계의 작성 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에서 그 어떤 한정도 구성하지 않으며, 각각의 단계의 구체적인 실행은 반드시 그 기능 및 가능한 내재적인 논리에 따라 결정되어야 함을 이해할 수 있다.
도 7은 본 발명의 실시예의 비디오 처리 장치의 블록도이고, 도 7에 도시된 바와 같이, 비디오 처리 장치(20)는 아래와 같은 모듈을 포함한다.
획득 모듈(21)은 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하도록 구성된다.
인트라-시퀀스 프레임 선택 모듈(22)은 각 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하도록 구성된다.
글로벌 프레임 선택 모듈(23)은 모든 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하도록 구성된다.
일 가능한 구현방식에서, 상기 비디오 처리 장치는, 상기 획득 모듈이 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하기 전에, 상기 비디오 프레임 시퀀스를 획득하고; 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하고, 서브 비디오 프레임 시퀀스를 후보 비디오 프레임 시퀀스로 사용하도록 구성되는 전처리 모듈을 더 포함한다.
일 가능한 구현방식에서, 전처리 모듈은, 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하도록 구성되되, 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 같다.
일 가능한 구현방식에서, 전처리 모듈은, 소정의 요구에 따라, 각각의 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정하고; 개수에 따라, 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하도록 구성된다.
일 가능한 구현방식에서, 인트라-시퀀스 프레임 선택 모듈은, 후보 비디오 프레임 시퀀스에서 각각의 비디오 프레임의 품질 파라미터를 획득하도록 구성되는 품질 파라미터 획득 서브 모듈; 품질 파라미터에 따라, 후보 비디오 프레임 시퀀스를 정렬하도록 구성되는 정렬 서브 모듈; 및 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하여, 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하도록 구성되는 프레임 추출 서브 모듈을 포함한다.
일 가능한 구현방식에서, 인트라-시퀀스 프레임 선택 모듈은, 상기 프레임 추출 서브 모듈이 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하기 전에, 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 시간 순서에 따라, 후보 프레임 시퀀스 중 각각의 비디오 프레임에 대해 순차적으로 번호를 구성하고; 비디오 프레임 사이의 번호 차이의 절대값에 따라, 정렬된 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임 사이의 프레임 간격을 획득하도록 구성되는 프레임 간격 획득 서브 모듈을 더 포함한다.
일 가능한 구현방식에서, 프레임 추출 서브 모듈은, 각각의 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 품질 파라미터가 가장 높은 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하도록 구성된다.
일 가능한 구현방식에서, 프레임 추출 서브 모듈은, 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하고; 정렬된 후보 비디오 프레임 시퀀스에서 정렬 순서에 따라, k1개의 비디오 프레임을 순차적으로 선택하고, 현재 선택된 비디오 프레임과 다른 선택된 비디오 프레임 사이의 프레임 간격은, 소정의 프레임 간격보다 모두 크고, k1은 1보다 크거나 같은 정수이며; 선택된 모든 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하도록 구성된다.
일 가능한 구현방식에서, 글로벌 프레임 선택 모듈은, 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하거나; 또는, 모든 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하며, k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하도록 구성되되, k2는 1보다 크거나 같은 정수이다.
일 가능한 구현방식에서, 비디오 처리 장치는, 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하도록 구성되는 프레임 선택 결과 동작 모듈을 더 포함한다.
일 가능한 구현방식에서, 프레임 선택 결과 동작 모듈은, 최종 프레임 선택 결과를 송신하거나; 또는, 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하도록 구성된다.
일 가능한 구현방식에서, 프레임 선택 결과 동작 모듈은, 최종 프레임 선택 결과에서 각각의 비디오 프레임의 이미지 특징을 추출하고; 각각의 이미지 특징에 대해 특징 융합 동작을 실행하여, 융합 특징을 획득하며; 융합 특징에 기반하여 타깃 인식 동작을 실행하도록 구성된다.
일부 실시예에서, 본 발명의 실시예에서 제공한 장치가 구비한 기능 또는 포함되는 모듈은 상기 비디오 처리 방법 실시예에서 설명한 방법을 실행하는데 사용할 수 있고, 구체적 실시는 상기 비디오 처리 방법 실시예의 설명을 참조할 수 있으며, 편의를 위해, 여기서 더 이상 반복하여 설명하지 않는다.
본 발명의 실시예는 컴퓨터 프로그램 명령이 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 경우 상기 임의의 방법 실시예를 구현한다. 컴퓨터 판독 가능한 저장 매체는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.
본 발명의 실시예는 전자 기기를 더 제공하고, 상기 전자 기기는, 프로세서 및 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하고; 여기서, 상기 프로세서를 통해 상기 실행 가능한 명령을 호출하여 본 발명의 임의의 방법 실시예를 구현하며, 구체적인 작업 과정 및 설치 방식은 모두 본 발명의 상기 상응한 방법 실시예의 구체적인 설명을 참조할 수 있고, 편폭의 제한으로, 더 이상 반복하여 설명하지 않는다.
도 8은 본 발명의 실시예에 따라 도시한 전자 기기의 블록도이다. 예를 들어, 전자 기기(800)는 모바일 전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 케임 콘솔, 태블릿 기기, 의료 기기, 휘트니스 기기, 개인 휴대 정보 단말기 중의 하나일 수 있다.
도 8을 참조하면, 전자 기기(800)는, 프로세싱 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 또는 복수의 컴포넌트를 포함할 수 있다.
프로세싱 컴포넌트(802)는 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(800)의 전체 동작을 제어한다. 프로세싱 컴포넌트(802)는, 상기 비디오 처리 방법의 전부 또는 일부 단계를 완료하도록 하나 또는 복수의 프로세서(820)를 포함하여 명령을 실행한다. 또한, 프로세싱 컴포넌트(802)는, 프로세싱 컴포넌트(802)와 다른 컴포넌트 사이의 인터랙션을 수행하도록 하나 또는 복수의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 컴포넌트(802)는, 멀티미디어 컴포넌트(808)와 프로세싱 컴포넌트(802) 사이의 인터랙션을 편리하게 수행하도록 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 다양한 유형의 데이터를 저장하여 전자 기기(800)에서의 동작을 지원한다. 이러한 데이터의 예시는 전자 기기(800)에서 동작하는 임의의 응용 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 사진 및 영상 등을 포함한다. 메모리(804)는, 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적으로 소거 가능한 프로그램 가능 판독 전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 소거 가능한 프로그램 가능 판독 전용 메모리(Erasable Programmable Read-Only Memory, EPROM), 프로그램 가능 판독 전용 메모리(Programmable Read-Only Memory, PROM), 판독 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리 및 디스크 또는 광 디스크와 같은 임의의 유형의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 다양한 컴포넌트에게 전력을 제공한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 또는 복수의 전원 및 전자 기기(800)의 생성, 관리 및 전원 할당과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서, 스크린은 액정 디스플레이(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하면, 사용자로부터 입력 신호를 수신하도록 스크린은 터치 스크린으로 구현될 수 있다. 터치 패널은, 패널에서의 터치, 슬라이드 및 터치 패널의 제스처를 감지하기 위한 하나 또는 복수의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 슬라이드에 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시예에서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및/또는 후방 카메라를 포함한다. 전자 기기(800)가, 촬영 모드 또는 영상 모드와 같은 동작 모드일 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각각의 전방 카메라와 후방 카메라는 하나의 고정식 광학 렌즈 시스템 또는 초점 거리 및 광학 줌 기능을 가질 수 있다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력한다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크(Microphone, MIC)를 포함하고, 전자 기기(800)가 통화 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드일 경우, 마이크는 외부 오디오 신호를 수신한다. 수신된 오디오 신호는 메모리(804)에 저장되거나 통신 컴포넌트(816)를 통해 송신될 수 있다. 일부 실시예에서, 오디오 컴포넌트(810)는 오디오 신호를 출력하기 위한 스피커를 더 포함한다.
I/O 인터페이스(812)는 프로세싱 컴포넌트(802)와 주변 장치 인터페이스 모듈 사이의 인터페이스를 제공하며, 상기 주변 장치 인터페이스 모듈은 키보드, 클릭 휠 및 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지는 않는다.
센서 컴포넌트(814)는 다양한 양태의 상태 평가를 전자 기기(800)에 제공하기 위한 하나 또는 복수의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 컴포넌트의 상대적 위치를 감지할 수 있고, 예를 들어, 상기 컴포넌트는 전자 기기(800)의 디스플레이 및 키패드이고, 센서 컴포넌트(814)는 전자 기기(800) 또는 전자 기기(800)의 하나의 컴포넌트의 위치 변화, 사용자와 전자 기기(800) 사이의 접촉 여부, 전자 기기(800)의 방위 또는 가속/감속 및 전자 기기(800)의 온도 변화를 감지할 수 있다. 센서 컴포넌트(814)는 물리적 접촉없이 주변 물체의 존재를 감지하는 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 이미징 애플리케이션에 사용하기 위한 금속 산화물 반도체 소자(Complementary Metal-Oxide Semiconductor, CMOS) 또는 전하 결합 소자(Charge Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(816)는 전자 기기(800)와 다른 기기 사이의 유선 또는 무선 방식의 통신이 용이하도록 구성된다. 전자 기기(800)는 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 표준에 기반한 무선 네트워크에 액세스할 수 있다. 예시적인 일 실시예에서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 예시적인 일 실시예에서, 상기 통신 컴포넌트(816)는 근거리 통신을 촉진하는 근거리 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC모듈은 무선 주파수 식별(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역(Ultra WideBand, UWB) 기술, 블루투스(BlueTooth, BT) 기술 및 다른 기술을 기반으로 구현될 수 있다.
예시적인 실시예에서, 전자 기기(800)는 하나 또는 복수의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 프로세서 기기(DSPD), 프로그램 가능 논리 소자(Programmable Logic Device, PLD), 필드 프로그램 가능 게이트 어레이(Field-Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 상기 비디오 처리 방법을 실행할 수 있다.
예시적인 실시예에서, 비휘발성 컴퓨터 판독 가능한 저장 매체를 더 제공하였고, 예를 들어 컴퓨터 프로그램 명령을 포함하는 메모리(804)이며, 상기 컴퓨터 프로그램 명령은 전자 기기(800)의 프로세서(820)에 의해 상기 비디오 처리 방법을 완료하도록 실행된다.
도 9는 본 발명의 실시예에 따라 도시한 전자 기기의 다른 블록도이다. 예를 들어, 전자 기기(1900)는 일 서버로 제공될 수 있다. 도 9를 참조하면, 전자 기기(1900)는 처리 컴포넌트(1922)를 포함하고, 나아가 하나 또는 복수의 프로세서를 포함한다. 전자 기기(1900)는 , 처리 컴포넌트(1922)에 의해 실행되는 명령을 저장하기 위한, 메모리 자원을 대표하는 메모리(1932)를 포함하고, 예를 들어 응용 프로그램이다. 메모리(1932)에 저장된 응용 프로그램은 한 세트의 명령에 각각 대응되는 하나 또는 하나 이상의 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 상기 비디오 처리 방법을 실행하기 위한 명령을 실행하도록 구성된다.
전자 기기(1900)는 또한, 전자 기기(1900)의 전원 관리를 실행하도록 구성되는 전원 컴포넌트(1926), 및 전자 기기(1900)를 네트워크에 연결하도록 구성되는 유선 또는 무선 네트워크 인터페이스(1950) 및 입력/출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 메모리(1932)에 저장된 동작 시스템에 기반하여 동작할 수 있고, 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 동작 시스템이다.
예시적인 실시예에서, 본 발명의 실시예는 비휘발성 컴퓨터 판독 가능한 저장 매체를 더 제공하였고, 예를 들어 컴퓨터 프로그램 명령을 포함하는 메모리(1932)이며, 상기 컴퓨터 프로그램 명령은 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 상기 비디오 처리 방법을 완성하도록 실행된다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 여기에는 프로세서가 본 발명의 각각의 양태를 구현하도록 하는 판독 가능 프로그램 명령이 로딩되어 있다.
컴퓨터 판독 가능한 저장 매체는 명령으로 실행되는 기기를 유지 및 저장하는데 사용하는 명령의 유형의 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 전기 저장 기기, 자기 저장 기기, 광 저장 기기, 전자 저장 기기, 반도체 저장 기기 또는 상기 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예는(완전하지 않은 리스트), 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 및 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 디지털 비디오 디스크(DVD), 메모리스틱, 플로피 디스켓, 기계 코딩 기기, 여기에 명령이 저장되는 천공 카드 또는 오목홈 내 돌기 구조 및 상기 적절한 조합을 포함할 수 있다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 예컨대 무선파 또는 다른 자유 전파되는 전자파, 도파관 또는 다른 매체를 통해 전송되는 전자파(예를 들어, 광 섬유 와이어의 라이트 펄스), 또는 전선으로 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않을 수 있다.
여기서 서술되는 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능한 저장 매체에서 각각의 컴퓨팅/프로세싱 기기에 다운로드 되거나 또는 인터넷, 근거리 통신망, 광역 통신망 및/또는 무선 인터넷과 같은 네트워크로 외부 컴퓨터 또는 외부 저장 기기에 다운로드 될 수 있다. 네트워크는 구리 전송 케이블, 광 섬유 케이블, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 프린지 서버를 포함할 수 있다. 각각의 하나의 컴퓨팅/프로세싱 기기 중의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전달하여, 각각의 컴퓨팅/프로세싱 기기 중의 판독 가능한 저장매체에 저장되도록 한다.
본 발명에 따른 동작을 실행하기 위한 컴퓨터 프로그램 명령은 컴포넌트 명령, 명령어 집합(ISA) 명령, 기계적 명령, 기계 관련 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터, 또는 한 가지 또는 여러 가지 프로그래밍 언어의 임의의 조합으로 프로그래밍된 소스 코드 또는 타깃 코드일 수 있고, 상기 프로그래밍 언어는 Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 “C” 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함한 임의의 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나, 또는, 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결함). 일부 실시예에서, 컴퓨터 판독 가능 프로그램 명령의 상태 정보로서 프로그래머블 로직 회로, 필드 프로그램 가능 게이트 어레이(FPGA) 또는 프로그래머블 어레이(PLA)와 같은 전자 회로를 맞춤형 제작할 수 있으며, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령을 실행하여 본 발명의 각각의 양태를 구현할 수 있다.
여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 발명의 각각의 양태를 서술한다. 흐름도 및/또는 블록도의 각각의 하나의 블록 및 흐름도 및/또는 블록도의 각각의 블록의 조합은 모두 컴퓨터 판독 가능 프로그램 명령으로 구현할 수 있음을 이해해야 한다.
이러한 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서에 제공되어 한 가지 기기를 생산하여 이러한 명령이 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서에서 실행될 경우, 흐름도 및/또는 블록도 중의 하나 또는 복수의 블록에 규정된 기능/동작을 구현하는 장치를 생성하였다. 또 이러한 컴퓨터 판독 가능 프로그램 명령을 컴퓨터 판독 가능한 저장 매체에 저장할 수 있고, 이러한 명령은 컴퓨터, 프로그래머블 데이터 처리 및/또는 다른 기기가 특정된 방식으로 작동되도록 하며, 이로써 명령이 저장된 컴퓨터 판독 가능 매체가 하나의 완제품을 포함하도록 하고, 이는 흐름도 및/또는 블록도 중의 하나 또는 복수의 블록에 규정된 기능/동작을 구현한다.
컴퓨터 판독 가능 프로그램 명령을 컴퓨터, 다른 프로그래머블 데이터 처리 장치, 또는 다른 기기에 로딩시켜, 컴퓨터, 다른 프로그래머블 데이터 처리 장치 또는 다른 기기에서 일련의 동작 단계를 실행하도록 하여, 컴퓨터 구현의 과정을 생성함으로써, 컴퓨터, 다른 프로그래머블 데이터 처리, 또는 다른 기기에서 실행되는 명령이 흐름도 및/또는 블록도 중의 하나 또는 복수의 블록에 규정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각각의 블록은 지정된 논리 기능을 구현하기 위한 하나 또는 복수의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 마크업된 기능은 또한 도면에 도시된 것과 다른 순서로 발생할 수 있다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 기본적으로 병렬로 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한 블록도 및/또는 흐름도의 각각의 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 실행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
상기와 같이 본 발명의 각각의 실시예를 서술하였고, 상기 설명은 예시적인 것으로서 완전한 것이 아니며, 또한 공개된 각각의 실시예에 의해 한정되지 않는다. 서술되는 각각의 실시예의 범위 및 정신을 벗어나지 않는 상황하에, 본 기술분야의 통상의 기술자에게 있어서 많은 보정과 변경은 모두 자명한 것이다. 본문에서 용어의 선택은 각각의 실시예의 원리, 실제 응용 또는 시장에서 기술에 대한 기술 개선으로 해석됨이 바람직하며, 또는 본 기술분야의 통상의 다른 기술자는 본문에서 공개된 각각의 실시예를 이해할 수 있다.

Claims (26)

  1. 비디오 처리 방법으로서,
    적어도 하나의 후보 비디오 프레임 시퀀스를 획득하는 단계;
    각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하는 단계; 및
    모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하는 단계를 포함하는 비디오 처리 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하기 이전에, 상기 비디오 처리 방법은,
    비디오 프레임 시퀀스를 획득하는 단계; 및
    상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하고, 상기 서브 비디오 프레임 시퀀스를 상기 후보 비디오 프레임 시퀀스로 사용하는 단계를 더 포함하는 비디오 처리 방법.
  3. 제2항에 있어서,
    상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하는 단계는,
    상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하는 단계를 포함하되, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 같은 비디오 처리 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하는 단계는,
    소정의 요구에 따라, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정하는 단계; 및
    상기 개수에 따라, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하는 단계를 더 포함하는 비디오 처리 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하는 단계는,
    상기 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득하는 단계;
    상기 품질 파라미터에 따라, 상기 후보 비디오 프레임 시퀀스를 정렬하는 단계; 및
    소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하여, 상기 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하는 단계를 포함하는 비디오 처리 방법.
  6. 제5항에 있어서,
    정렬된 후보 비디오 프레임 시퀀스에 대해 상기 소정의 프레임 간격에 따라 프레임 추출을 수행하기 전에, 상기 비디오 처리 방법은,
    상기 후보 비디오 프레임 시퀀스 중 각각의 상기 비디오 프레임의 시간 순서에 따라, 상기 후보 프레임 시퀀스 중 각각의 상기 비디오 프레임에 대해 순차적으로 번호를 구성하는 단계; 및
    비디오 프레임 사이의 번호 차이의 절대값에 따라, 상기 정렬된 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임 사이의 프레임 간격을 획득하는 단계를 더 포함하는 비디오 처리 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 정렬된 후보 비디오 프레임 시퀀스에 대해 상기 소정의 프레임 간격에 따라 프레임 추출을 수행하여, 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하는 단계는,
    각각의 상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하고, 상기 품질 파라미터가 가장 높은 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하는 단계를 포함하는 비디오 처리 방법.
  8. 제5항 또는 제6항에 있어서,
    상기 정렬된 후보 비디오 프레임 시퀀스에 대해 상기 소정의 프레임 간격에 따라 프레임 추출을 수행하여, 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하는 단계는,
    상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하는 단계;
    정렬된 후보 비디오 프레임 시퀀스에서 정렬 순서에 따라, k1개의 비디오 프레임을 순차적으로 선택하는 단계 - 현재 선택된 비디오 프레임과 다른 선택된 비디오 프레임 사이의 프레임 간격은, 소정의 프레임 간격보다 모두 크고, k1은 1보다 크거나 같은 정수임 - ; 및
    선택된 모든 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하는 단계를 포함하는 비디오 처리 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하는 단계는,
    상기 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하는 단계; 또는,
    모든 상기 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하고, k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하는 단계 - k2는 1보다 크거나 같은 정수임 - 를 포함하는 비디오 처리 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 비디오 처리 방법은, 상기 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하는 단계를 더 포함하는 비디오 처리 방법.
  11. 제10항에 있어서,
    상기 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하는 단계는,
    상기 최종 프레임 선택 결과를 송신하는 단계; 또는,
    상기 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하는 단계를 포함하는 비디오 처리 방법.
  12. 제11항에 있어서,
    상기 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하는 단계는,
    상기 최종 프레임 선택 결과 중 각각의 비디오 프레임의 이미지 특징을 추출하는 단계;
    각각의 상기 이미지 특징에 대해 특징 융합 동작을 실행하여, 융합 특징을 획득하는 단계; 및
    상기 융합 특징에 기반하여 타깃 인식 동작을 실행하는 단계를 포함하는 비디오 처리 방법.
  13. 비디오 처리 장치로서,
    적어도 하나의 후보 비디오 프레임 시퀀스를 획득하도록 구성되는 획득 모듈;
    각각의 상기 후보 비디오 프레임 시퀀스에 대해 인트라-시퀀스 프레임 선택을 수행하여, 각각의 후보 비디오 프레임 시퀀스에 각각 대응되는 제1 프레임 선택 결과를 획득하도록 구성되는 인트라-시퀀스 프레임 선택 모듈; 및
    모든 상기 제1 프레임 선택 결과에 따라 글로벌 프레임 선택을 수행하여, 최종 프레임 선택 결과를 획득하도록 구성되는 글로벌 프레임 선택 모듈을 포함하는 비디오 처리 장치.
  14. 제13항에 있어서,
    상기 비디오 처리 장치는,
    상기 획득 모듈이 적어도 하나의 후보 비디오 프레임 시퀀스를 획득하기 전에, 상기 비디오 프레임 시퀀스를 획득하고; 상기 비디오 프레임 시퀀스를 분할하여, 복수의 서브 비디오 프레임 시퀀스를 획득하고, 상기 서브 비디오 프레임 시퀀스를 상기 후보 비디오 프레임 시퀀스로 사용하도록 구성되는 전처리 모듈을 더 포함하는 비디오 처리 장치.
  15. 제14항에 있어서,
    상기 전처리 모듈은, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하도록 구성되되, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수는 같은 비디오 처리 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 전처리 모듈은,
    소정의 요구에 따라, 각각의 상기 서브 비디오 프레임 시퀀스에 포함되는 비디오 프레임의 개수를 결정하고; 상기 개수에 따라, 상기 비디오 프레임 시퀀스를 시간 도메인에서 분할하여, 적어도 2개의 서브 비디오 프레임 시퀀스를 획득하도록 구성되는 비디오 처리 장치.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 인트라-시퀀스 프레임 선택 모듈은,
    상기 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임의 품질 파라미터를 획득하도록 구성되는 품질 파라미터 획득 서브 모듈;
    상기 품질 파라미터에 따라, 상기 후보 비디오 프레임 시퀀스를 정렬하도록 구성되는 정렬 서브 모듈; 및
    소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하여, 상기 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과를 획득하도록 구성되는 프레임 추출 서브 모듈을 포함하는 비디오 처리 장치.
  18. 제17항에 있어서,
    상기 인트라-시퀀스 프레임 선택 모듈은,
    상기 프레임 추출 서브 모듈이 소정의 프레임 간격에 따라 정렬된 후보 비디오 프레임 시퀀스에 대해 프레임 추출을 수행하기 전에, 상기 후보 비디오 프레임 시퀀스 중 각각의 상기 비디오 프레임의 시간 순서에 따라, 상기 후보 프레임 시퀀스 중 각각의 상기 비디오 프레임에 대해 순차적으로 번호를 구성하고; 비디오 프레임 사이의 번호 차이의 절대값에 따라, 상기 정렬된 후보 비디오 프레임 시퀀스 중 각각의 비디오 프레임 사이의 프레임 간격을 획득하도록 구성되는 프레임 간격 획득 서브 모듈을 더 포함하는 비디오 처리 장치.
  19. 제17항 또는 제18항에 있어서,
    상기 프레임 추출 서브 모듈은,
    각각의 상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 상기 품질 파라미터가 가장 높은 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하도록 구성되는 비디오 처리 장치.
  20. 제17항 또는 제18항에 있어서,
    상기 프레임 추출 서브 모듈은,
    상기 정렬된 후보 비디오 프레임 시퀀스에서, 품질 파라미터가 가장 높은 비디오 프레임을 선택하여, 첫 번째로 선택된 비디오 프레임으로 사용하고; 상기 정렬된 후보 비디오 프레임 시퀀스에서 정렬 순서에 따라, k1개의 비디오 프레임을 순차적으로 선택하고, 현재 선택된 비디오 프레임과 다른 선택된 비디오 프레임 사이의 프레임 간격은, 소정의 프레임 간격보다 모두 크고, k1은 1보다 크거나 같은 정수이며; 선택된 모든 비디오 프레임을 후보 비디오 프레임 시퀀스에 대응되는 제1 프레임 선택 결과로 사용하도록 구성되는 비디오 처리 장치.
  21. 제13항 내지 제20항 중 어느 한 항에 있어서,
    상기 글로벌 프레임 선택 모듈은,
    상기 제1 프레임 선택 결과를 최종 프레임 선택 결과로 사용하거나; 또는, 모든 상기 제1 프레임 선택 결과에서 최고 품질의 k2 프레임의 비디오 프레임을 선택하며, k2 프레임의 비디오 프레임을 최종 프레임 선택 결과로 사용하도록 구성되되, k2는 1보다 크거나 같은 정수인 비디오 처리 장치.
  22. 제13항 내지 제21항 중 어느 한 항에 있어서,
    상기 비디오 처리 장치는,
    상기 최종 프레임 선택 결과에 기반하여, 기설정된 동작을 실행하도록 구성되는 프레임 선택 결과 동작 모듈을 더 포함하는 비디오 처리 장치.
  23. 제22항에 있어서,
    상기 프레임 선택 결과 동작 모듈은,
    상기 최종 프레임 선택 결과를 송신하거나; 또는, 상기 최종 프레임 선택 결과에 기반하여 타깃 인식 동작을 실행하도록 구성되는 비디오 처리 장치.
  24. 제23항에 있어서,
    상기 프레임 선택 결과 동작 모듈은,
    상기 최종 프레임 선택 결과에서 각각의 비디오 프레임의 이미지 특징을 추출하고; 각각의 상기 이미지 특징에 대해 특징 융합 동작을 실행하여, 융합 특징을 획득하며; 상기 융합 특징에 기반하여 타깃 인식 동작을 실행하도록 구성되는 비디오 처리 장치.
  25. 전자 기기로서,
    프로세서; 및
    프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하고;
    상기 프로세서를 통해 상기 실행 가능한 명령을 호출하여 제1항 내지 제12항 중 어느 한 항에 따른 비디오 처리 방법을 실행하도록 하는 전자 기기.
  26. 컴퓨터 프로그램 명령이 저장되어 있는 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 경우 제1항 내지 제12항 중 어느 한 항에 따른 비디오 처리 방법을 구현하도록 구성되는 컴퓨터 판독 가능한 저장 매체.
KR1020217009546A 2019-05-15 2020-03-23 비디오 처리 방법과 장치, 전자 기기 및 저장 매체 KR20210054551A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910407853.X 2019-05-15
CN201910407853.XA CN110166829A (zh) 2019-05-15 2019-05-15 视频处理方法及装置、电子设备和存储介质
PCT/CN2020/080683 WO2020228418A1 (zh) 2019-05-15 2020-03-23 视频处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20210054551A true KR20210054551A (ko) 2021-05-13

Family

ID=67634923

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217009546A KR20210054551A (ko) 2019-05-15 2020-03-23 비디오 처리 방법과 장치, 전자 기기 및 저장 매체

Country Status (7)

Country Link
US (1) US20210279473A1 (ko)
JP (1) JP7152532B2 (ko)
KR (1) KR20210054551A (ko)
CN (1) CN110166829A (ko)
SG (1) SG11202106335SA (ko)
TW (1) TW202044065A (ko)
WO (1) WO2020228418A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166829A (zh) * 2019-05-15 2019-08-23 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
CN111507924B (zh) * 2020-04-27 2023-09-29 北京百度网讯科技有限公司 视频帧的处理方法和装置
CN112711997B (zh) * 2020-12-24 2024-06-28 上海寒武纪信息科技有限公司 对数据流进行处理的方法和设备
CN114827443A (zh) * 2021-01-29 2022-07-29 深圳市万普拉斯科技有限公司 视频帧选取方法、视频延时处理方法、装置及计算机设备
CN112954395B (zh) * 2021-02-03 2022-05-17 南开大学 一种可插入任意帧率的视频插帧方法及系统
CN112989934B (zh) * 2021-02-05 2024-05-24 方战领 视频分析方法、装置及系统
WO2023235780A1 (en) * 2022-06-01 2023-12-07 Apple Inc. Video classification and search system to support customizable video highlights
CN114782879B (zh) * 2022-06-20 2022-08-23 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN116567350B (zh) * 2023-05-19 2024-04-19 上海国威互娱文化科技有限公司 全景视频数据处理方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379154B2 (en) 2006-05-12 2013-02-19 Tong Zhang Key-frame extraction from video
JP4777274B2 (ja) 2007-02-19 2011-09-21 キヤノン株式会社 映像再生装置及びその制御方法
US8184913B2 (en) * 2009-04-01 2012-05-22 Microsoft Corporation Clustering videos by location
US8599316B2 (en) 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
US9355635B2 (en) * 2010-11-15 2016-05-31 Futurewei Technologies, Inc. Method and system for video summarization
CN102419816B (zh) * 2011-11-18 2013-03-13 山东大学 用于相同内容视频检索的视频指纹方法
CN104408429B (zh) * 2014-11-28 2017-10-27 北京奇艺世纪科技有限公司 一种视频代表帧提取方法及装置
CN107590420A (zh) * 2016-07-07 2018-01-16 北京新岸线网络技术有限公司 视频分析中的场景关键帧提取方法及装置
CN107590419A (zh) * 2016-07-07 2018-01-16 北京新岸线网络技术有限公司 视频分析中的镜头关键帧提取方法及装置
CN110166829A (zh) * 2019-05-15 2019-08-23 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP7152532B2 (ja) 2022-10-12
TW202044065A (zh) 2020-12-01
WO2020228418A1 (zh) 2020-11-19
US20210279473A1 (en) 2021-09-09
CN110166829A (zh) 2019-08-23
SG11202106335SA (en) 2021-07-29
JP2021529398A (ja) 2021-10-28

Similar Documents

Publication Publication Date Title
KR20210054551A (ko) 비디오 처리 방법과 장치, 전자 기기 및 저장 매체
US20210326587A1 (en) Human face and hand association detecting method and a device, and storage medium
WO2020199730A1 (zh) 文本识别方法及装置、电子设备和存储介质
KR102538164B1 (ko) 이미지 처리 방법 및 장치, 전자 장치 및 기억 매체
US20210019562A1 (en) Image processing method and apparatus and storage medium
KR20210047336A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US20210103733A1 (en) Video processing method, apparatus, and non-transitory computer-readable storage medium
US10452890B2 (en) Fingerprint template input method, device and medium
KR20210015951A (ko) 이미지 처리 방법 및 장치, 전자 기기, 및 기억 매체
US20220262012A1 (en) Image Processing Method and Apparatus, and Storage Medium
CN110557547B (zh) 镜头位置调整方法及装置
KR20200131305A (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
CN107692997B (zh) 心率检测方法及装置
JP2022542668A (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
CN109934275B (zh) 图像处理方法及装置、电子设备和存储介质
CN105631803B (zh) 滤镜处理的方法和装置
KR20210042952A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
EP2998960A1 (en) Method and device for video browsing
CN110532957B (zh) 人脸识别方法及装置、电子设备和存储介质
US11455836B2 (en) Dynamic motion detection method and apparatus, and storage medium
CN111523346B (zh) 图像识别方法及装置、电子设备和存储介质
CN111753783B (zh) 手指遮挡图像检测方法、装置及介质
US20210326649A1 (en) Configuration method and apparatus for detector, storage medium
US20220222831A1 (en) Method for processing images and electronic device therefor
CN112381858B (zh) 目标检测方法、装置、存储介质及设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application