KR102567161B1 - 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체 - Google Patents

비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체 Download PDF

Info

Publication number
KR102567161B1
KR102567161B1 KR1020210002763A KR20210002763A KR102567161B1 KR 102567161 B1 KR102567161 B1 KR 102567161B1 KR 1020210002763 A KR1020210002763 A KR 1020210002763A KR 20210002763 A KR20210002763 A KR 20210002763A KR 102567161 B1 KR102567161 B1 KR 102567161B1
Authority
KR
South Korea
Prior art keywords
series
time
video
time series
feature
Prior art date
Application number
KR1020210002763A
Other languages
English (en)
Other versions
KR20210091057A (ko
Inventor
티엔웨이 린
씬 리
동량 허
푸 리
하오 순
슬레이 원
얼뤼 딩
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210091057A publication Critical patent/KR20210091057A/ko
Application granted granted Critical
Publication of KR102567161B1 publication Critical patent/KR102567161B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

본 발명은 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체를 개시하는 바, 비디오 처리 기술 분야에 관한 것이다. 구체적인 실현 방안은, 검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하고; 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득하며; 및 상기 비디오 시계열 동작 검출 모듈을 이용하여 상기 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득하는 단계를 포함한다. 본 발명의 실현 방안은 실현 과정이 비교적 간단하고, 비디오 시계열 동작의 검출 효율을 효과적으로 향상시킬 수 있으며, 또한 시계열 동작 검출의 정확성도 효과적으로 향상시킬 수 있다.

Description

비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체 {METHOD AND APPARATUS FOR DETECTING TEMPORAL ACTION OF VIDEO, ELECTRONIC DEVICE AND STROAGE MEDIUM}
본 발명은 컴퓨터 기술 분야에 관한 것인 바, 특히 비디오 처리 기술 분야에 관한 것이며, 구체적으로는 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.
고품질의 짧은 비디오 콘텐츠를 제작하기 위하여, 비디오 제작자는 일반적으로 원본의 긴 비디오 소재 중에서 관심있는 비디오 세그먼트를 수동으로 편집하고, 대량의 쓸모없는 소재를 제거해야 하는 바, 이러한 과정은 비디오 제작자의 매우 많은 정력을 필요로 한다. 예를 들면, 비디오 편집 효율을 향상시키기 위하여, 일반적으로 기술 수단을 이용하여 자동적으로 긴 비디오 중에서 지정된 동작 유형의 짧은 비디오 세그먼트을 편집함으로써 비디오 제작자 혹은 비디오 플랫폼을 지원할 수 있다. 그 편집 과정에 관련된 알고리즘 태스크는 비디오 시계열 동작 검출 태스크인 바, 그 목적은 재단하지 않은 긴 비디오 중에서 시계열 동작 세그먼트의 시작 시간, 종료 시간, 신뢰도 점수 및 동작 유형을 검출하려는 것이다. 당해 기술은 훌륭한 비디오 스마트 편집의 핵심 기술이다.
종래의 비디오 시계열 동작 검출 방법은 시계열 차원에서의 목표 검출 태스크와 유사한 바, 일반적으로 시계열 지명 생성 및 시계열 지명 분류 이 두 단계를 통해 완성할 수 있다. 구체적으로, 우선 슬라이딩 윈도우 또는 시계열 지명 생성 알고리즘을 통해 시계열 지명을 생성한 후, 분류 네트워크를 이용하여 시계열 지명의 동작 유형을 분류한다.
그러나, 종래의 상술한 비디오 시계열 동작 검출 방안의 실현 과정이 상대적으로 번거롭기에 시계열 동작 검출의 효율이 상대적으로 낮아진다.
상술한 기술 문제를 해결하기 위하여, 본 발명은 비디오 중의 시계열 동작 검출의 정확성을 향상시키기 위한 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체를 제공한다.
일 측면에 있어서, 본 발명은 비디오 시계열 동작의 검출 방법을 제공하는 바, 상기 방법은,
검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하는 단계;
사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득하는 단계; 및
상기 비디오 시계열 동작 검출 모듈을 이용하여 상기 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득하는 단계를 포함한다.
또한 선택적으로, 상술한 방법에 있어서, 검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하는 단계는,
상기 검출 대기의 비디오 중에서 앞에서부터 뒤로의 선택 순서에 따라 미리 설정된 샘플링 주기를 이용하여 복수의 이미지를 차례로 선택하여 이미지 시퀀스를 배치하는 단계; 및
상기 이미지 시퀀스 중의 각 상기 이미지의 특징을 추출하여, 상기 이미지 시퀀스 중의 선후 순서에 따라 상기 초기 시계열 특징 시퀀스로 이어 맞추는 단계를 포함한다.
또한 선택적으로, 상술한 방법에 있어서, 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징을 취득하는 단계는,
상기 비디오 시계열 동작 검출 모듈이 미리 설정된 시계열 길이를 감소시키는 복수의 방식에 따라 상기 초기 시계열 특징 시퀀스의 시계열 길이를 감소시켜 복수 종류의 조정 후의 기준 시계열 특징 시퀀스를 얻는 단계;
각 상기 기준 시계열 특징 시퀀스에 대해, 각 시계열 위치에 대해 미리 설정된 수량의 서로 다른 스케일의 복수의 시계열 앵커 박스를 배치하는 단계; 및
각 상기 시계열 앵커 박스의 암시적 특징을 대응하는 상기 기준 시계열 특징 시퀀스 중의 대응하는 상기 시계열 위치의 특징으로 배치하는 단계를 포함한다.
또한 선택적으로, 상술한 방법에 있어서, 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 명시적 특징을 취득하는 단계는,
복수 종류의 상기 기준 시계열 특징 시퀀스 중의 길이가 제일 긴 기준 시계열 특징 시퀀스를 샘플링 샘플로 간주하여, 각 상기 시계열 앵커 박스에 대해 구성된 샘플링 특징에 따라, 상기 샘플링 특징에 상기 샘플링 샘플을 곱하는 방식을 이용하여, 각 상기 시계열 앵커 박스의 명시적 특징을 취득하는 단계를 포함한다.
또한 선택적으로, 상술한 방법에 있어서, 상기 비디오 시계열 동작 검출 모듈을 이용하여 상기 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득하는 단계는,
상기 비디오 시계열 동작 검출 모듈을 이용하여 각 상기 시계열 앵커 박스의 명시적 특징 및 암시적 특징을 이어 맞추어 각 상기 시계열 앵커 박스의 종합적 특징을 얻는 단계;
각 상기 시계열 앵커 박스의 종합적 특징에 기반하여 각 상기 시계열 앵커 박스에 대해 검출을 실행하여 상기 지정된 동작이 포함되어 있는 목표 시계열 앵커 박스, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 선별하는 단계; 및
상기 초기 시계열 특징 시퀀스 중에서 상기 지정된 동작을 포함하는 상기 목표 시계열 앵커 박스의 경계에 대해 검출을 실행하여 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득하는 단계를 포함한다.
또한 선택적으로, 상술한 방법에 있어서, 상기 초기 시계열 특징 시퀀스 중에서 상기 지정된 동작을 포함하는 상기 목표 시계열 앵커 박스의 경계에 대해 검출을 실행한 단계의 뒤, 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득하는 단계 전에,
상기 초기 시계열 특징 시퀀스 중의, 검출된 상기 목표 시계열 앵커 박스의 경계의 전후 복수의 시계열 특징을 결합하여, 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치에 대해 로지스틱 회귀 분석을 실행하는 단계를 더 포함한다.
다른 일 측면에 있어서, 본 발명은 비디오 시계열 동작의 검출 장치를 더 제공하는 바, 상기 장치는,
검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하기 위한 특징 시퀀스 취득 모듈; 및
상기 초기 시계열 특징 시퀀스에 기반하여 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득하기 위한 사전 훈련된 비디오 시계열 동작 검출 모듈을 구비하고,
상기 비디오 시계열 동작 검출 모듈은 또한, 상기 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득한다.
또 다른 일 측면에 있어서, 본 발명은 전자 기기를 더 제공하는 바, 상기 전자 기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 상기의 임의의 방법을 수행하도록 한다.
기타 일 측면에 있어서, 본 발명은 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 더 제공하는 바, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기의 임의의 방법을 수행하도록 한다.
상술한 발명 중의 일 실시예는 아래와 같은 이점 또는 유익한 효과를 갖는다. 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 비디오의 시계열 동작을 검출함으로써, 종래 기술에서의 검출 과정을 시계열 지명 생성과 시계열 지명 분류 이러한 두 단계로 나누어 실현하는 것을 피면하여, 실현 과정이 비교적 간단하고, 비디오 시계열 동작의 검출 효율을 효과적으로 향상시킬 수 있다.
뿐만 아니라, 본 발명에서는 또한 시계열 앵커 박스의 명시적 특징을 효율적이고 정확하게 배치하며, 각 시계열 앵커 박스의 명시적 특징과 암시적 특징을 결합하는 방식을 통해 시계열 동작을 검출함으로써 시계열 동작의 검출의 정확성을 더 한층 향상시킬 수 있다.
상술한 선택적인 방식이 가지는 기타 효과는 구체적인 실시예를 참조하여 후술된다.
도면은 본 방안을 더욱 잘 이해하기 위하여 이용되며 본 발명을 제한하지 않는다.
도 1은 본 발명에 따른 제1 실시예의 모식도이다.
도 2는 본 발명의 서로 다른 스케일의 시계열 앵커 박스의 모식도이다.
도 3은 본 발명의 시계열 앵커 박스의 명시적 특징을 취득하는 모식도이다.
도 4는 본 발명의 비디오 시계열 동작 검출 모듈의 작업 원리도이다.
도 5는 본 발명에 따른 제2 실시예의 모식도이다.
도 6은 본 발명 실시예의 비디오 시계열 동작의 검출 방법을 실현하기 위한 전자 기기의 블럭도이다.
이하, 도면을 참조하여 본 발명의 시범적인 실시예를 설명하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 설명에서는 잘 알려진 기능 및 구조의 설명을 생략하였다.
도 1은 본 발명의 제1 실시예에 의해 제공되는 비디오 시계열 동작의 검출 방법의 플로우 차트이다. 도 1에 나타낸 바와 같이, 본 실시예의 비디오 시계열 동작의 검출 방법은 구체적으로 아래와 같은 단계를 포함할 수 있다.
S101에 있어서, 검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득한다.
본 실시예의 비디오 시계열 동작의 검출 방법의 수행 본체는 비디오 시계열 동작의 검출 장치이며, 당해 비디오 시계열 동작의 검출 장치는 전자 실체일 수 있거나, 또는 소프트웨어를 이용하여 통합한 응용 시스템으로 실현할 수도 있다. 이용할 때 당해 비디오 시계열 동작의 검출 장치에 검출 대기의 비디오를 입력하기만 하면, 당해 비디오 중의 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 동작 유형 및 속하는 당해 동작 유형의 확률 등 정보를 취득할 수 있다.
예를 들면, 당해 단계 S101에서 검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하는 것은, 구체적으로 아래와 같은 단계를 포함할 수 있다.
(a1)에 있어서, 검출 대기의 비디오 중에서 앞에서부터 뒤로의 선택 순서에 따라 미리 설정된 샘플링 주기를 이용하여 복수의 이미지를 차례로 선택하여 이미지 시퀀스를 구성한다.
예를 들면, 본 실시예의 샘플링 주기는 검출 대기의 비디오 중의 각 프레임의 이미지를 모두 선택할 수도 있고, 각각 2 프레임, 5 프레임, 또는 기타 수량의 프레임을 간격으로 하나의 이미지를 선택할 수 있다.
(b1)에 있어서, 이미지 시퀀스 중의 각 이미지의 특징을 추출하여, 이미지 시퀀스 중의 선후 순서에 따라 초기 시계열 특징 시퀀스로 이어 맞춘다.
본 실시예에 있어서, 이미지 분류의 컨볼루션 신경망 모델을 이용하여 이미지의 특징을 추출할 수 있는 바, 예를 들면 당해 이미지 분류의 컨볼루션 신경망은 이미지 넷 (imagenet) 데이터 세트 상에서 사전 훈련될 수 있으며, 그 네트워크 구조는 resnet50과 유사한 네트워크 구조일 수 있다. 구체적으로 네트워크의 마지막으로부터 두번째 층의 결과를 입력한 이미지의 특징으로 간주할 수 있다. 또는 실제 응용에 있어서, 또한 기타 훈련된 컨볼루션 신경망으로 구성된 이미지 특징 추출 모델을 이용하여 이미지의 특징을 추출할 수 있다. 또는 기타의 이미지 특징의 추출 방법을 이용할 수도 있는 바, 여기서 하나씩 예를 들어 설명하지 않는다.
선택적으로, 실제 응용에 있어서, 상술한 단계 S101을 비디오 시계열 동작 검출 모듈에 포함시켜 실현할 수도 있다.
S102에 있어서, 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득한다.
본 실시예의 비디오 시계열 동작 검출 모듈은 사전 훈련된 신경망 모델이다. 이용할 때 당해 비디오 시계열 동작 검출 모듈에 검출 대기 비디오의 초기 시계열 특징 시퀀스를 입력한다. 당해 비디오 시계열 동작 검출 모듈은 특징 취득 유닛, 동작 분류기 및 경계 회귀기 등과 같은 몇가지 주요 블록으로 나뉠 수 있다.
구체적으로, 특징 취득 유닛에서, 초기 시계열 특징 시퀀스에 기반하여 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득할 수 있다. 예를 들면, 암시적 특징을 취득할 경우 구체적으로 아래와 같은 단계를 포함할 수 있다.
(a2)에 있어서, 비디오 시계열 동작 검출 모듈이 미리 설정된 시계열 길이를 감소시키는 복수의 방식에 따라 초기 시계열 특징 시퀀스의 시계열 길이를 감소시켜, 복수 종류의 조정 후의 기준 시계열 특징 시퀀스를 얻는다.
예를 들면, 초기 시계열 특징 시퀀스의 길이는 T이며, 미리 설정된 방식에 따라 각각 T/4, T/8, T/16, T/32 이러한 네가지 서로 다른 시계열 길이의 기준 시계열 특징 시퀀스를 취득할 수 있다. 초기 시계열 특징 시퀀스 및 다양한 기준 시계열 특징 시퀀스에 대응하는 비디오의 시간 길이는 동일하며, 차이점은 인접한 두 시계열 특징에 대응하는 시계열 위치 사이의 간격이 서로 다르다는 것이다.
(b2)에 있어서, 각 기준 시계열 특징 시퀀스에 대해, 각 시계열 위치에 대해 미리 설정된 수량의 서로 다른 스케일의 복수의 시계열 앵커 박스를 배치한다.
본 실시예 중의 각 시계열 앵커 박스는 하나의 시간 길이 범위 내의 특징 정보에 대응된다. 본 실시예의 구성 방식에 따르면, 검출 대기 비디오로부터 가능한 많은 비디오 세그먼트를 취득하도록, 시간 입도(time granularity)가 다른 시계열 특징 시퀀스에 대해 다른 스케일로 시계열 앵커 박스를 배치하는 것으로써, 후속으로 특정 동작을 포함한 비디오 세그먼트의 검출을 용이하게 할 수 있다.
(c2)에 있어서, 각 시계열 앵커 박스의 암시적 특징을 대응하는 기준 시계열 특징 시퀀스 중의 대응하는 시계열 위치의 특징으로 배치한다.
예를 들면, 도 2는 본 발명의 서로 다른 스케일의 시계열 앵커 박스의 모식도이다. 도 2에 나타낸 바와 같이, 각 시계열 위치에 동일한 중심과 서로 다른 스케일을 갖는 D개의 시계열 앵커 박스를 배치하는 예를 드는 바, 도 2에서 D는 3이다. 또한, 동일한 중심과 서로 다른 스케일을 갖는 D개의 시계열 앵커 박스는 대응하는 시계열 위치의 특징을 공유한다. 길이가 T인 시계열 특징 시퀀스의 크기가 TxC이고, 여기서 C가 특징의 채널 수이면, t번째 시계열 위치의 특징의 크기는 1xC이다.
서로 다른 기준 시계열 특징 시퀀스의 길이는 서로 다르며, 대응하는 시계열 앵커 박스의 수량도 서로 다르다. 그러나 각 시계열 앵커 박스에 대응하는 암시적 특징 크기는 동일하다.
예를 들면, 도 2에 나타낸 바와 같이, 길이가 T인 하나의 시계열 특징 시퀀스 F∈R^(T×C)의 경우, ti 번째 시계열 위치의 특징이 이고, 정규화된 중심점 위치가 이며, 인접한 두개의 시계열 특징의 간격이 1/T 일 수 있다. 암시적 특징을 취득하는 과정에서, 어느 한 시계열 특징 시퀀스 중의 ti 번째 시계열 위치의 경우, 모두 D개의 시계열 앵커 박스가 연관되고, 각 시계열 앵커 박스의 중심이 모두 당해 시계열 위치의 중심이며, 시계열 앵커 박스의 길이가 시계열 간격 1/T의 배수인 바, 예를 들면 {0.5,0.75,1.0,1.25,1.5}이다. D개의 시계열 앵커 박스에 대응하는 특징이 동일함을 알 수 있다. 본 발명에 있어서, 네트워크 학습 즉 네트워크 모델의 훈련 과정를 통해 서로 다른 시계열 앵커 박스에 대해 서로 다른 예측을 할 수 있으며, 따라서 이 곳의 특징의 연관 과정을 암시적 특징 샘플링이라고 칭할 수 있는 바, 즉 시계열 앵커 박스 및 시계열 특징 사이의 대응 관계는 암시적인 것으로, 이에 대응하는 스케일 중심 위치의 특징만 얻는다. 하나의 시계열 앵커 박스 의 경우, 이용할 때 암시적(implicit) 특징을 로 표기할 수 있다.
또한, 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 초기 시계열 특징 시퀀스에 기반하여 복수의 시계열 앵커 박스의 명시적 특징을 취득하는 단계는, 구체적으로 복수 종류의 기준 시계열 특징 시퀀스 중의 길이가 제일 긴 기준 시계열 특징 시퀀스를 샘플링 샘플로 간주하여, 각 시계열 앵커 박스에 대해 구성한 샘플링 특징에 따라, 샘플링 특징에 샘플링 샘플을 곱하는 방식을 통해 각 시계열 앵커 박스의 명시적 특징을 취득하는 단계를 포함할 수 있다. 구체적으로, 당해 단계도 비디오 시계열 동작 검출 모듈 중의 특징 취득 유닛에 의해 수행될 수 있다.
예를 들면, 도 3은 본 발명의 시계열 앵커 박스의 명시적 특징을 취득하는 모식도이다. 도 3에 나타낸 바와 같이, 길이가 T인 하나의 시계열 특징 시퀀스 및 미리 설정된 하나의 시계열 앵커 박스 의 경우, 우선 시계열 앵커 박스의 시계열 범위를 로 확장하며, 여기서 이다. 이어서, 각 시계열 앵커 박스에 대해 하나의 샘플링 특징을 배치한다. 구체적으로 벡터의 형태를 이용하는 바, 샘플링 벡터라고도 칭할 수 있고, 로 나타낼 수 있으며, 또한 당해 샘플링 벡터는 학습 가능한 벡터이다. 모델을 훈련할 경우, 각 시계열 앵커 박스에 대응하는 제일 좋은 특징 표현을 조정하여 학습할 수 있다. 여기서 시계열 앵커 박스의 시계열 범위 내의 모든 값을 (0,1] 범위 내의 랜덤 수로 간주하며, 경사 하강을 통해 최적화할 수 있다. 당해 시계열 범위 외의 값은 0으로서 최적화할 수 없는바, 도 3에 나타낸 바와 같다. 시계열 앵커 박스 의 명시적 특징을 구체적으로 하나의 형태로 얻을 수 있으며, 로 표현할 수 있다. 당해 샘플링 특징 및 시계열 특징 시퀀스 F를 시계열 차원 상에서 내적(dot product; scalar product)하여, 샘플링 후의 명시적 (explicit) 샘플링 특징을 얻을 수 있으며, 로 표현할 수 있다.
샘플링 특징의 정확성을 보증하기 위하여, 서로 다른 스케일의 시계열 특징 시퀀스외 관련된 시계열 앵커 박스의 경우, 명시적 특징 샘플링 모듈은 모두 해상도가 제일 높은 시계열 특징 시퀀스 즉 시계열 길이가 제일 긴 시계열 특징 시퀀스 중에서 샘플링을 실행한다.
S103에 있어서, 비디오 시계열 동작 검출 모듈을 이용하여 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여, 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 지정된 동작의 유형 및 지정된 동작이 속하는 유형의 확률을 취득한다.
예를 들면, 당해 단계는 구체적으로 비디오 시계열 동작 검출 모듈 중의 동작 분류기 및 경계 회귀기에 의해 실현된다. 예를 들면, 아래와 같은 단계를 포함할 수 있다.
(a3)에 있어서, 비디오 시계열 동작 검출 모듈을 이용하여 각 시계열 앵커 박스의 명시적 특징 및 암시적 특징을 이어 맞추어 각 시계열 앵커 박스의 종합적 특징을 얻는다.
당해 단계는 비디오 시계열 동작 검출 모듈 중의 특징 취득 유닛에 의해 실현된다.
(b3)에 있어서, 각 시계열 앵커 박스의 종합적 특징에 기반하여, 각 시계열 앵커 박스에 대해 검출을 실행하여 지정된 동작이 포함되어 있는 목표 시계열 앵커 박스, 지정된 동작의 유형 및 지정된 동작이 속하는 유형의 확률을 선별한다.
당해 단계는 비디오 시계열 동작 검출 모듈 중의 동작 분류기에 의해 실현된다.
(c3)에 있어서, 초기 시계열 특징 시퀀스 중에서 지정된 동작을 포함하는 목표 시계열 앵커 박스의 경계에 대해 검출을 실행하여 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득한다.
당해 단계는 비디오 시계열 동작 검출 모듈 중의 경계 회귀기에 의해 실현된다.
또한, 예를 들면, 당해 단계 (c3)에 있어서, 초기 시계열 특징 시퀀스 중에서 지정된 동작을 포함하는 목표 시계열 앵커 박스의 경계에 대해 검출을 실행한 단계의 뒤, 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득하는 단계 전에, 초기 시계열 특징 시퀀스 중의, 검출된 목표 시계열 앵커 박스의 경계 전후의 복수의 시계열 특징을 결합하여, 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치에 대해 로지스틱 회귀 분석을 실행하는 단계를 더 포함한다.
다시 말하면, 목표 시계열 앵커 박스의 경계 전후의 시계열 특징에 대해 분석을 실행하며, 목표 시계열 앵커 박스의 특징과의 유사도 매우 높으면, 당해 시계열 특징이 당해 목표 시계열 앵커 박스에 포함된 지정된 동작을 포함할 가능성이 있는 것으로 간주할 수 있으며, 이 경우, 이러한 일부의 시계열 특징도 지정된 동작의 비디오 세그먼트 중에 융합시킴으로써, 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치 및 종료 위치를 조정할 수 있다. 당해 방안의 실현은 구체적으로 경계 회귀기에 설정하여 실현될 수도 있다.
예를 들면, 도 4는 본 발명의 비디오 시계열 동작 검출 모듈의 작업 원리도이다. 도 4에 나타낸 바와 같다. 우선 일 세그먼트의 비디오에 대해 일정 간격(예를 들면 5FPS)에 따라 이미지 특징을 추출하여, 와 같은 비디오 특징 시퀀스를 구성한 후, 비디오 시계열 동작 검출 모듈에 입력한다. 당해 비디오 시계열 동작 검출 모듈에서 우선 기초 컨볼루션 모듈을 통해 시계열 길이를 감소시켜, 수용 필드를 강화시켜 첫번째 시계열 특징 시퀀스 를 생성한 후, 계속하여 컨볼루션 층 및 풀링 층을 이용하여 시계열 길이를 감소시켜, , , 를 얻는다. 각 시계열 특징 시퀀스 상의 각 시계열 위치에 대해, 모두 D개의 시계열 앵커 박스가 연관되며, 합계 개의 시계열 앵커 박스가 연관된다. 상술한 암시적 특징 샘플링의 방식을 통해 모든 시계열 앵커 박스의 암시적 특징 을 얻을 수 있으며, 마찬가지로 명시적 특징 샘플링의 방식을 통해 명시적 특징 을 얻을 수 있다. 그 후, 양자를 이어 맞추어 완전한 시계열 앵커 박스 특징 을 얻을 수 있다. 마지막으로 이어 맞춘 후의 시계열 앵커 박스 특징에 기반하여 각 시계열 앵커 박스에 포함된 지정된 동작의 유형, 당해 유형에 속하는 확률 및 비디오 세그먼트의 경계 오프셋을 예측한다. 세부 사항은 상술한 실시예의 설명을 참고할 수 있는 바, 여기서 반복적으로 설명하지 않는다.
또한, 본 실시예의 비디오 시계열 동작 검출 모듈의 훈련 과정은 상술한 사용 과정 대체로 일치하며, 차이점은 단지 훈련할 때 각 훈련 비디오 중의 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 포함된 지정된 동작의 유형 및 당해 유형에 속하는 확률을 라벨링하는 것일 뿐이며, 훈련할 때 확률은 모두 1이다는 것을 설명할 필요가 있다. 이렇게 하여, 상술한 실시예의 사용 과정을 이용하여, 각 훈련 비디오 중의 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 포함된 지정된 동작의 유형 및 당해 유형에 속하는 확률을 예측한 후, 예측한 것과 라벨링한 것을 비교하며, 동일하지 않을 경우, 모델 중의 모든 학습할 필요가 있는 매개 변수를 조정하여, 훈련 결과가 라벨링 결과와 일치해지도록 한다. 상술한 방식에 따라, 예측 결과가 라벨링 결과와 항상 일치할 때까지, 복수의 훈련 샘플을 이용하여 끊임없이 비디오 시계열 동작 검출 모듈에 대해 훈련을 실행한다. 이때 모든 학습할 수 있는 매개 변수의 값을 확정함으로써, 당해 비디오 시계열 동작 검출 모듈을 확정한다.
본 실시예의 비디오 시계열 동작의 검출 방법에 따르면, 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 비디오의 시계열 동작을 검출함으로써, 종래 기술에서의 검출 과정을 시계열 지명 생성과 시계열 지명 분류 이러한 두 단계로 나누어 실현하는 것을 피면하여, 실현 과정이 비교적 간단하고, 비디오 시계열 동작의 검출 효율을 효과적으로 향상시킬 수 있다.
또한, 본 실시예에 있어서, 각 시계열 앵커 박스의 명시적 특징과 암시적 특징을 결합함으로써, 각 시계열 앵커 박스의 동작 유형 정보 및 시계열 경계의 오프셋을 더욱 정확하게 예측하여, 더욱 좋은 시계열 동작 검출 효과를 얻을 수 있다.
시계열 앵커 박스의 암시적 특징만 이용하여 예측하면, 상술한 실시예에 나타낸 바와 같이, 시계열 앵커 박스의 암시적 특징이 이용한 시계열 위치의 특징은 시계열 앵커 박스에 대응하는 정보에 대략적으로 대응할 수 있을 뿐, 정확하게 대응할 수 없다. 부정확한 특징 대응은 비디오 시계열 동작 검출 모듈이 동작 유형의 분류 및 시계열 에지의 회귀를 매우 정확하게 실행할 수 없게 한다. 따라서, 본 실시예에서는 또한 시계열 앵커 박스의 명시적 특징을 효율적이고 정확하게 배치하며, 각 시계열 앵커 박스의 명시적 특징과 암시적 특징을 결합하는 방식을 통해 시계열 동작을 검출함으로써 시계열 동작의 검출의 정확성을 더 한층 향상시킬 수 있다.
도 5는 본 발명의 제2 실시예에 의해 제공되는 비디오 시계열 동작의 검출 장치의 구조도이다. 도 5에 나타낸 바와 같이, 본 실시예의 비디오 시계열 동작의 검출 장치(500)는,
검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하기 위한 특징 시퀀스 취득 모듈(501); 및
초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득하기 위한 비디오 시계열 동작 검출 모듈(502)을 구비하며, 여기서, 비디오 시계열 동작 검출 모듈은 사전 훈련된 것이며;
비디오 시계열 동작 검출 모듈(502)은, 또한 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여, 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 지정된 동작의 유형 및 지정된 동작이 속하는 유형의 확률을 취득한다.
또한 선택적으로, 특징 시퀀스 취득 모듈(501)은,
검출 대기의 비디오 중에서 앞에서부터 뒤로의 선택 순서에 따라 미리 설정된 샘플링 주기를 이용하여 복수의 이미지를 차례로 선택하여 이미지 시퀀스를 배치하며;
이미지 시퀀스 중의 각 이미지의 특징을 추출하여, 이미지 시퀀스 중의 선후 순서에 따라 초기 시계열 특징 시퀀스로 이어 맞춘다.
또한 선택적으로, 비디오 시계열 동작 검출 모듈(502)은,
미리 설정된 시계열 길이를 감소시키는 복수의 방식에 따라 감소 초기 시계열 특징 시퀀스의 시계열 길이, 복수 종류의 조정 후의 기준 시계열 특징 시퀀스를 얻고;
각 기준 시계열 특징 시퀀스에 대해, 각 시계열 위치에 대해 미리 설정된 수량의 서로 다른 스케일의 복수의 시계열 앵커 박스를 배치하며; 및
각 시계열 앵커 박스의 암시적 특징을 대응하는 기준 시계열 특징 시퀀스 중의 대응하는 시계열 위치의 특징으로 배치한다.
또한 선택적으로, 비디오 시계열 동작 검출 모듈(502)은,
복수 종류의 기준 시계열 특징 시퀀스 중의 길이가 제일 긴 기준 시계열 특징 시퀀스를 샘플링 샘플로 간주하여, 각 시계열 앵커 박스에 대해 구성한 샘플링 특징에 따라, 샘플링 특징에 샘플링 샘플을 곱하는 방식을 통해, 각 시계열 앵커 박스의 명시적 특징을 취득한다.
또한 선택적으로, 비디오 시계열 동작 검출 모듈(502)은,
비디오 시계열 동작 검출 모듈을 이용하여 각 시계열 앵커 박스의 명시적 특징 및 암시적 특징을 이어 맞추어, 각 시계열 앵커 박스의 종합적 특징을 얻고;
각 시계열 앵커 박스의 종합적 특징에 기반하여, 각 시계열 앵커 박스에 대해 검출을 실행하여 지정된 동작이 포함되어 있는 목표 시계열 앵커 박스, 지정된 동작의 유형 및 지정된 동작이 속하는 유형의 확률을 선별하며; 및
초기 시계열 특징 시퀀스 중에서 지정된 동작을 포함하는 목표 시계열 앵커 박스의 경계에 대해 검출을 실행하여 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득한다.
또한 선택적으로, 비디오 시계열 동작 검출 모듈(502)은,
초기 시계열 특징 시퀀스 중의, 검출된 목표 시계열 앵커 박스의 경계의 전후 복수의 시계열 특징을 결합하여, 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치에 대해 로지스틱 회귀 분석을 실행한다.
본 실시예의 비디오 시계열 동작의 검출 장치(500)는, 상술한 모듈을 이용하여 본 실시예의 비디오 시계열 동작의 검출의 실현 원리 및 기술 효과를 실현하는 바, 상술한 관련되는 방법 실시예의 실현과 동일하기에, 세부 사항은 상술한 관련 방법 실시예의 설명을 참고할 수 있으며, 여기서 반복적으로 설명하지 않는다.
본 발명에 따른 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능 기록 매체를 더 제공한다.
도 6은 본 발명에 따른 실시예의 비디오 시계열 동작의 검출 방법을 실현하는 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 설명하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다.
도 6에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(601), 메모리(602) 및 각 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 (예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 6에서는 하나의 프로세서(601)의 예를 들었다.
메모리(602)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 비디오 시계열 동작의 검출 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 기억하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 비디오 시계열 동작의 검출 방법을 수행하도록 한다.
메모리(602)는 일종의 비 일시적 컴퓨터 판독 가능 기록 매체로서, 비 일시적 소프트웨어 프로그램을 기억하는데 사용될 수 있는 바, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예 중의 비디오 시계열 동작의 검출 방법 대응하는 프로그램 명령/모듈 (예를 들면, 도 5에 나타낸 관련 모듈)을 기억하는데 사용될 수 있다. 프로세서(601)는 메모리(602) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예 중의 비디오 시계열 동작의 검출 방법을 실현한다.
메모리(602)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 비디오 시계열 동작의 검출 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(602)는 선택적으로 프로세서(601)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 비디오 시계열 동작의 검출 방법을 실현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
비디오 시계열 동작의 검출 방법을 실현하는 전자 기기는 입력 장치(603) 및 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 6에서는 버스를 통해 연결하는 예를 들었다.
입력 장치(603)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 비디오 시계열 동작의 검출 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(604)는 디스플레이 기기, 보조 조명 장치 (예를 들면 LED) 및 촉각 피드백 장치 (예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실시 예는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기록 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기록 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 계산 프로그램 (프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 (예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치 (PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 (예를 들면 CRT (음극선관) 또는 LCD (액정 디스플레이) 모니터) 및 키보드와 포인팅 장치 (예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 (예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.
여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템 (예를 들면 응용 서버), 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 (예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망 (LAN), 광역 통신망 (WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.
본 발명에 따른 실시예의 기술 방안에 따르면, 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 비디오의 시계열 동작을 검출함으로써, 종래 기술에서의 검출 과정을 시계열 지명 생성과 시계열 지명 분류 이러한 두 단계로 나누어 실현하는 것을 피면하여, 실현 과정이 비교적 간단하고, 비디오 시계열 동작의 검출 효율을 효과적으로 향상시킬 수 있다.
뿐만 아니라, 본 발명에 따른 실시예의 기술 방안에 따르면, 또한 시계열 앵커 박스의 명시적 특징을 효율적이고 정확하게 구성하며, 각 시계열 앵커 박스의 명시적 특징과 암시적 특징을 결합하는 방식을 통해 시계열 동작을 검출함으로써 시계열 동작의 검출의 정확성을 더 한층 향상시킬 수 있다.
상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 단계는 병렬로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (14)

  1. 비디오 시계열 동작의 검출 방법에 있어서,
    검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하는 단계 - 상기 검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하는 단계는, 상기 검출 대기의 비디오 중에서 미리 설정된 샘플링 주기를 이용하여 앞에서부터 뒤로의 선택 순서에 따라 복수의 이미지를 차례로 선택하여 이미지 시퀀스를 구성하는 단계, 및 상기 이미지 시퀀스 중의 각각의 상기 이미지의 특징을 추출하여, 상기 이미지 시퀀스 중의 선후 순서에 따라 이어 맞춰 상기 초기 시계열 특징 시퀀스를 얻는 단계를 포함함 -;
    사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득하는 단계 - 상기 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 암시적 특징을 취득하는 단계는, 상기 비디오 시계열 동작 검출 모듈에 의해, 미리 설정된 시계열 길이를 감소시키는 복수의 종류의 방식에 따라 상기 초기 시계열 특징 시퀀스의 시계열 길이를 감소시켜 복수 종류의 조정 후의 기준 시계열 특징 시퀀스를 얻는 단계, 각각의 상기 기준 시계열 특징 시퀀스에 대해, 각각의 시계열 위치에 대해 미리 설정된 수량의 서로 다른 스케일의 복수의 시계열 앵커 박스를 배치하는 단계, 및 각각의 상기 시계열 앵커 박스의 암시적 특징을 대응하는 상기 기준 시계열 특징 시퀀스 중의 대응하는 상기 시계열 위치의 특징으로 배치하는 단계를 포함하고, 상기 사전 훈련된 비디오 시계열 동작 검출 모듈을 이용하여 상기 초기 시계열 특징 시퀀스에 기반하여, 배치된 복수의 시계열 앵커 박스의 명시적 특징을 취득하는 단계는, 복수 종류의 상기 기준 시계열 특징 시퀀스 중의 길이가 제일 긴 기준 시계열 특징 시퀀스를 샘플링 샘플로 간주하여, 벡터의 형태로 각각의 상기 시계열 앵커 박스에 대해 구성된 샘플링 특징에 따라, 상기 샘플링 특징에 상기 샘플링 샘플을 곱하는 방식을 이용하여, 각각의 상기 시계열 앵커 박스의 명시적 특징을 취득하는 단계를 포함하되, 상기 미리 설정된 시계열 길이를 감소시키는 복수의 종류의 방식은 상기 초기 시계열 특징 시퀀스의 길이가 T를 가지는 경우 서로 다른 시계열 길이들 즉, T/4, T/8, T/16 및 T/32를 가지는 4개의 기준 시계열 특징 시퀀스를 포함함 -; 및
    상기 비디오 시계열 동작 검출 모듈을 이용하여 상기 복수의 시계열 앵커 박스의 명시적 특징(explicit characteristics) 및 암시적 특징(implicit characteristics)에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득하는 단계 - 상기 비디오 시계열 동작 검출 모듈을 이용하여 상기 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득하는 단계는, 상기 비디오 시계열 동작 검출 모듈을 이용하여 각각의 상기 시계열 앵커 박스의 명시적 특징 및 암시적 특징을 이어 맞추어 각각의 상기 시계열 앵커 박스의 종합적 특징을 얻는 단계, 각각의 상기 시계열 앵커 박스의 종합적 특징에 기반하여 각각의 상기 시계열 앵커 박스에 대해 검출을 실행하여 상기 지정된 동작이 포함되어 있는 목표 시계열 앵커 박스, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 선별하는 단계, 및 상기 초기 시계열 특징 시퀀스 중에서 상기 지정된 동작을 포함하는 상기 목표 시계열 앵커 박스의 경계에 대해 검출을 실행하여 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득하는 단계를 포함함 -;
    를 포함하는
    것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 초기 시계열 특징 시퀀스 중에서 상기 지정된 동작을 포함하는 상기 목표 시계열 앵커 박스의 경계에 대해 검출을 실행한 단계의 뒤, 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득하는 단계 전에,
    상기 초기 시계열 특징 시퀀스 중의, 검출된 상기 목표 시계열 앵커 박스의 경계의 전후 복수의 시계열 특징을 결합하여, 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치에 대해 로지스틱 회귀 분석을 실행하는 단계;
    를 더 포함하는
    것을 특징으로 하는 방법.
  3. 비디오 시계열 동작의 검출 장치에 있어서,
    검출 대기 비디오의 초기 시계열 특징 시퀀스를 취득하기 위한 특징 시퀀스 취득 모듈 - 상기 특징 시퀀스 취득 모듈은, 상기 검출 대기의 비디오 중에서 미리 설정된 샘플링 주기를 이용하여 앞에서부터 뒤로의 선택 순서에 따라 복수의 이미지를 차례로 선택하여 이미지 시퀀스를 구성하고, 상기 이미지 시퀀스 중의 각각의 상기 이미지의 특징을 추출하여, 상기 이미지 시퀀스 중의 선후 순서에 따라 이어 맞춰 상기 초기 시계열 특징 시퀀스를 얻음 -; 및
    상기 초기 시계열 특징 시퀀스에 기반하여 배치된 복수의 시계열 앵커 박스의 암시적 특징 및 명시적 특징을 취득하기 위한 사전 훈련된 비디오 시계열 동작 검출 모듈 - 상기 비디오 시계열 동작 검출 모듈은, 상기 비디오 시계열 동작 검출 모듈에 의해, 미리 설정된 시계열 길이를 감소시키는 복수의 종류의 방식에 따라 상기 초기 시계열 특징 시퀀스의 시계열 길이를 감소시켜 복수 종류의 조정 후의 기준 시계열 특징 시퀀스를 얻고, 각각의 상기 기준 시계열 특징 시퀀스에 대해, 각각의 시계열 위치에 대해 미리 설정된 수량의 서로 다른 스케일의 복수의 시계열 앵커 박스를 배치하며, 각각의 상기 시계열 앵커 박스의 암시적 특징을 대응하는 상기 기준 시계열 특징 시퀀스 중의 대응하는 상기 시계열 위치의 특징으로 배치하고, 상기 비디오 시계열 동작 검출 모듈은 또한, 복수 종류의 상기 기준 시계열 특징 시퀀스 중의 길이가 제일 긴 기준 시계열 특징 시퀀스를 샘플링 샘플로 간주하여, 벡터의 형태로 각각의 상기 시계열 앵커 박스에 대해 구성된 샘플링 특징에 따라, 상기 샘플링 특징에 상기 샘플링 샘플을 곱하는 방식을 이용하여, 각각의 상기 시계열 앵커 박스의 명시적 특징을 취득하고, 상기 미리 설정된 시계열 길이를 감소시키는 복수의 종류의 방식은 상기 초기 시계열 특징 시퀀스의 길이가 T를 가지는 경우 서로 다른 시계열 길이들 즉, T/4, T/8, T/16 및 T/32를 가지는 4개의 기준 시계열 특징 시퀀스를 포함함 -;
    을 구비하고,
    상기 비디오 시계열 동작 검출 모듈은 또한, 상기 복수의 시계열 앵커 박스의 명시적 특징 및 암시적 특징에 기반하여 상기 복수의 시계열 앵커 박스 중에서 지정된 동작을 포함하는 비디오 세그먼트의 시작 위치, 종료 위치, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 취득하고,
    상기 비디오 시계열 동작 검출 모듈은 또한,
    상기 비디오 시계열 동작 검출 모듈을 이용하여 각각의 상기 시계열 앵커 박스의 명시적 특징 및 암시적 특징을 이어 맞추어 각각의 상기 시계열 앵커 박스의 종합적 특징을 얻고;
    각각의 상기 시계열 앵커 박스의 종합적 특징에 기반하여 각각의 상기 시계열 앵커 박스에 대해 검출을 실행하여 상기 지정된 동작이 포함되어 있는 목표 시계열 앵커 박스, 상기 지정된 동작의 유형 및 상기 지정된 동작이 상기 유형에 속하는 확률을 선별하며;
    상기 초기 시계열 특징 시퀀스 중에서 상기 지정된 동작을 포함하는 상기 목표 시계열 앵커 박스의 경계에 대해 검출을 실행하여 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치를 취득하는
    것을 특징으로 하는 장치.
  4. 제3항에 있어서,
    상기 비디오 시계열 동작 검출 모듈은,
    상기 초기 시계열 특징 시퀀스 중의, 검출된 상기 목표 시계열 앵커 박스의 경계의 전후 복수의 시계열 특징을 결합하여, 상기 목표 시계열 앵커 박스에 대응하는 비디오 세그먼트의 시작 위치 및 종료 위치에 대해 로지스틱 회귀 분석을 실행하는
    것을 특징으로 하는 장치.
  5. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 또는 제2항에 기재된 상기 방법을 수행하도록 하는
    것을 특징으로 하는 전자 기기.
  6. 컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 또는 제2항에 기재된 상기 방법을 수행하도록 하는
    것을 특징으로 하는 기록 매체.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020210002763A 2020-01-10 2021-01-08 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체 KR102567161B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010026653.2A CN111222476B (zh) 2020-01-10 2020-01-10 视频时序动作的检测方法、装置、电子设备及存储介质
CN202010026653.2 2020-01-10

Publications (2)

Publication Number Publication Date
KR20210091057A KR20210091057A (ko) 2021-07-21
KR102567161B1 true KR102567161B1 (ko) 2023-08-14

Family

ID=70829414

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210002763A KR102567161B1 (ko) 2020-01-10 2021-01-08 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체

Country Status (5)

Country Link
US (1) US11600069B2 (ko)
EP (1) EP3848852B1 (ko)
JP (1) JP7059508B2 (ko)
KR (1) KR102567161B1 (ko)
CN (1) CN111222476B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723243B (zh) * 2020-06-15 2022-06-07 南京领行科技股份有限公司 一种动作片段检测方法、装置、设备及介质
CN111860289B (zh) * 2020-07-16 2024-04-02 北京思图场景数据科技服务有限公司 一种时序动作检测方法、装置及计算机设备
CN112990356B (zh) * 2021-04-16 2021-08-03 广东众聚人工智能科技有限公司 一种视频实例分割系统和方法
CN113392902A (zh) * 2021-06-15 2021-09-14 珠海格力电器股份有限公司 数据集处理方法、装置、存储介质及电子设备
CN113469109B (zh) * 2021-07-16 2022-09-13 阿波罗智联(北京)科技有限公司 交通灯识别结果处理方法、装置、路侧设备及云控平台
CN113642495B (zh) * 2021-08-20 2023-03-24 北京百度网讯科技有限公司 用于评价时序提名的模型的训练方法、设备、程序产品
WO2023073795A1 (ja) * 2021-10-26 2023-05-04 日本電気株式会社 クラス境界検出装置、制御方法、及び非一時的なコンピュータ可読媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134923A (ja) 2008-11-21 2010-06-17 Yissum Research Development Co Of The Hebrew Univ Of Jerusalem クラスタリングを使用したビデオ概要の生成方法とシステム
US10057651B1 (en) * 2015-10-05 2018-08-21 Twitter, Inc. Video clip creation using social media
KR101993001B1 (ko) 2019-01-16 2019-06-25 영남대학교 산학협력단 영상 하이라이트 제작 장치 및 방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3511278B2 (ja) * 1996-01-31 2004-03-29 三菱電機株式会社 動画アンカー設定装置
US8875025B2 (en) * 2010-07-15 2014-10-28 Apple Inc. Media-editing application with media clips grouping capabilities
CN103279759B (zh) * 2013-06-09 2016-06-01 大连理工大学 一种基于卷积神经网络的车辆前方可通行性分析方法
KR102278945B1 (ko) * 2015-01-27 2021-07-19 삼성전자주식회사 이미지 처리 방법 및 이를 지원하는 전자 장치
US9426543B1 (en) * 2015-12-18 2016-08-23 Vuclip (Singapore) Pte. Ltd. Server-based video stitching
CN106446847A (zh) * 2016-09-30 2017-02-22 深圳市唯特视科技有限公司 一种基于视频数据的人体动作分析方法
US10445565B2 (en) 2016-12-06 2019-10-15 General Electric Company Crowd analytics via one shot learning
GB2560387B (en) * 2017-03-10 2022-03-09 Standard Cognition Corp Action identification using neural networks
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN109271876B (zh) * 2018-08-24 2021-10-15 南京理工大学 基于时间演化建模和多示例学习的视频动作检测方法
CN109740499B (zh) * 2018-12-28 2021-06-11 北京旷视科技有限公司 视频分割方法、视频动作识别方法、装置、设备及介质
CN110263650B (zh) * 2019-05-22 2022-02-22 北京奇艺世纪科技有限公司 行为类别检测方法、装置、电子设备和计算机可读介质
CN110401873A (zh) * 2019-06-17 2019-11-01 北京奇艺世纪科技有限公司 视频剪辑方法、装置、电子设备和计算机可读介质
CN110659572B (zh) * 2019-08-22 2022-08-12 南京理工大学 基于双向特征金字塔的视频动作检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134923A (ja) 2008-11-21 2010-06-17 Yissum Research Development Co Of The Hebrew Univ Of Jerusalem クラスタリングを使用したビデオ概要の生成方法とシステム
US10057651B1 (en) * 2015-10-05 2018-08-21 Twitter, Inc. Video clip creation using social media
KR101993001B1 (ko) 2019-01-16 2019-06-25 영남대학교 산학협력단 영상 하이라이트 제작 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Rui Hou 등, Tube Convolutional Neural Network(T-CNN) for Action Detection in Videos, arXiv:1703.10664v3(2017.08.02.)*

Also Published As

Publication number Publication date
KR20210091057A (ko) 2021-07-21
US11600069B2 (en) 2023-03-07
EP3848852A1 (en) 2021-07-14
JP2021111401A (ja) 2021-08-02
EP3848852B1 (en) 2022-11-16
US20210216782A1 (en) 2021-07-15
CN111222476A (zh) 2020-06-02
JP7059508B2 (ja) 2022-04-26
CN111222476B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
KR102567161B1 (ko) 비디오 시계열 동작의 검출 방법, 장치, 전자 기기 및 기록 매체
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
JP7135143B2 (ja) キーポイント学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体
CN111539479B (zh) 生成样本数据的方法和装置
JP7317879B2 (ja) 映像を認識するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20210209446A1 (en) Method for generating user interactive information processing model and method for processing user interactive information
US11899710B2 (en) Image recognition method, electronic device and storage medium
KR102528748B1 (ko) 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체
CN111680517B (zh) 用于训练模型的方法、装置、设备以及存储介质
US11423907B2 (en) Virtual object image display method and apparatus, electronic device and storage medium
US11768873B2 (en) Method, apparatus, electronic device and readable storage medium for classifying video
CN111582477B (zh) 神经网络模型的训练方法和装置
JP2021192286A (ja) モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品
KR20210103423A (ko) 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP2024511171A (ja) 動作認識の方法および装置
CN110895718A (zh) 用于训练机器学习模型的方法及系统
EP2947584A1 (en) Multimodal search method and device
KR20210091055A (ko) 비디오 클립 설명의 생성 방법, 장치, 전자 기기 및 기록 매체
CN111582452B (zh) 生成神经网络模型的方法和装置
WO2023202543A1 (zh) 文字处理方法、装置、电子设备及存储介质
CN111340222B (zh) 神经网络模型搜索方法、装置以及电子设备
US20230072240A1 (en) Method and apparatus for processing synthetic features, model training method, and electronic device
CN116483692A (zh) 应用程序的性能测试方法、设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant