KR20220042467A - 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체 - Google Patents

동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체 Download PDF

Info

Publication number
KR20220042467A
KR20220042467A KR1020227008074A KR20227008074A KR20220042467A KR 20220042467 A KR20220042467 A KR 20220042467A KR 1020227008074 A KR1020227008074 A KR 1020227008074A KR 20227008074 A KR20227008074 A KR 20227008074A KR 20220042467 A KR20220042467 A KR 20220042467A
Authority
KR
South Korea
Prior art keywords
feature map
level
fusion
neural network
convolutional neural
Prior art date
Application number
KR1020227008074A
Other languages
English (en)
Inventor
세위안 양
잉하오 수
보 다이
지안핑 시
볼레이 조우
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20220042467A publication Critical patent/KR20220042467A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체를 제공하며, 상기 방법은 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하는 단계; 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계; 여기서 각기 다른 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며; 각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 단계, 여기서 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며; 제3 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정하는 단계;를 포함한다.

Description

동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체
본 출원은 2020년 02월 28일 중국 국가 지식재산권국에 제출된, 출원번호가 202010128428.X이고, 출원 명칭이 "동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체"인 중국 특허 출원의 우선권을 청구하며, 그 내용 전부를 인용을 통해 본 출원에 결합시켰다.
본 발명은 신경망 기술 분야에 관한 것으로서, 구체적으로는 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체에 관한 것이다.
동작 인식은 컴퓨터 비전 및 동영상 이해(video understanding)의 중요한 일환으로서, 동작 인식의 주요 목표는 동영상에서 대상의 행위 유형을 판단하는 것이다.
상이한 대상이 동일한 동작을 실행 시, 연령이나 신체적 소질 등의 요인으로 인해, 각기 다른 리듬으로 실행하고; 동일한 대상이 다른 동작을 실행 시에도 리듬에 차이가 존재하므로, 동작 인식이 비교적 복잡해진다.
이를 감안하여, 본 발명은 적어도 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체를 제공한다.
첫 번째 측면으로, 본 발명은 동작 정보 인식방법을 제공하며, 이는
인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하는 단계;
상기 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계; 여기서 각기 다른 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 단계; 여기서 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하는 단계;를 포함한다.
위와 같은 방법으로, 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하고, 각 레벨의 제2 특징맵의 시간 차원 값을 조정함으로써, 획득된 각 단계의 제2 특징맵에 대응되는 제3 특징맵의 시간 차원 값에 비율 관계가 존재하도록 하여, 시간 차원이 다른 제3 특징맵(다른 시간 차원을 통해 동작의 상이한 리듬을 체현하고, 나아가 상이한 리듬에서 동작 특징을 획득한다)을 바탕으로, 인식할 동영상 중의 동작 정보를 확정할 수 있으며, 원본 프레임 레이트(frame rate)의 인식할 동영상을 바탕으로, 인식할 동영상의 동작 정보를 확정할 수 있어, 인식할 동영상의 프레임 레이트를 조절할 필요가 없기 때문에, 인식의 정확도를 보장하는 동시에, 인식의 연산량을 감소시켜, 인식 효율이 높아진다.
두 번째 측면으로, 본 발명은 동작 정보 인식 장치를 제공하며, 이는
인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하기 위한 특징 추출 모듈;
상기 제1 특징에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하기 위한 파라미터 조정 모듈; 여기서, 상이한 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하기 위한 시간 차원 조정 모듈; 여기서 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하기 위한 확정 모듈을 포함한다.
세 번째 측면으로, 본 발명은 전자 디바이스를 제공하며, 이는 프로세서, 메모리 및 버스를 포함하고, 상기 메모리에 상기 프로세서가 실행 가능한 머신 가독 명령이 저장되며, 전자 디바이스를 실행 시, 상기 프로세서와 상기 저장매체 사이는 버스를 통해 통신하고, 상기 프로세서는 상기 머신 가독 명령을 실행하여, 첫 번째 측면의 또는 어느 하나의 실시방식의 상기 동작 정보 인식 방법의 단계를 실행한다.
네 번째 측면으로, 본 발명은 컴퓨터 가독 저장매체를 제공하며, 상기 컴퓨터 가독 저장매체에 컴퓨터 프로그램이 저장되어, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 첫 번째 측면의 또는 어느 하나의 실시방식의 상기 동작 정보 인식 방법의 단계를 실행한다.
다섯 번째 측면으로, 본 발명은 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램 제품은 프로그램 명령을 포함하여, 상기 프로그램 명령이 프로세서에 의해 실행될 때 첫 번째 측면의 또는 어느 하나의 실시방식의 상기 동작 정보 인식 방법의 단계를 실행한다.
본 발명의 상기 목적, 특징과 장점이 더욱 명확하고 쉽게 이해될 수 있도록, 이하 바람직한 실시예를 들어 첨부 도면을 결합하여 아래와 같이 상세히 설명한다.
본 발명의 실시예의 기술방안을 보다 명확하게 설명하기 위하여, 이하 실시예에 사용해야 할 첨부도면에 대해 간단히 소개한다. 여기의 첨부도면은 명세서에 통합되어 본 명세서 중의 일부를 구성하며, 이러한 도면은 본 발명에 부합되는 실시예를 도시한 것으로서 명세서와 함께 본 발명의 기술방안을 설명하기 위한 것이다. 이하 첨부도면은 단지 본 발명의 일부 실시예를 도시한 것일 뿐이므로 범위를 한정하는 것으로 간주해서는 안 되며, 당업계의 보통 기술자는 창조적인 노동을 하지 않는 전제하에, 이러한 첨부도면에 따라 기타 관련 도면을 더 획득할 수도 있음을 이해하여야 한다.
도 1은 본 발명의 실시예가 제공하는 동작 정보 인식 방법의 흐름도이다.
도 2는 본 발명의 실시예가 제공하는 동작 정보 인식 방법 중, 제1 특징맵에 대한 파라미터 정보 조정을 통해, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 방식의 흐름도이다.
도 3은 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 방식의 흐름도이다.
도 4는 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 제3 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정하는 방식의 흐름도이다.
도 5a는 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 방식의 흐름도이다.
도 5b는 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 방식의 흐름도이다.
도 5c는 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 방식의 흐름도이다.
도 5d는 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 방식의 흐름도이다.
도 6은 본 발명의 실시예가 제공하는 동작 정보 인식방법 중, 매 회 융합 후의 중간 특징맵을 바탕으로, 제4 특징맵을 획득하는 방식의 흐름도이다.
도 7은 본 발명의 실시예가 제공하는 동작 정보 인식 장치 장치의 구성도이다.
도 8은 본 발명의 실시예가 제공하는 전자 디바이스의 구조도이다.
본 발명의 실시예의 목적, 기술방안과 장점이 더욱 명확해지도록 하기 위하여, 이하 본 발명의 실시예 중의 첨부도면을 결합하여, 본 발명의 실시예 중의 기술방안에 대해 명확하고 완전하게 기술할 것이며, 기술되는 실시예는 단지 본 발명의 일부 실시예일뿐, 실시예 전부가 아님은 자명하다. 통상적으로 본 첨부도면 중의 기재와 도시된 본 발명의 실시예의 어셈블리는 각종 상이한 구성으로 배치 및 설계될 수 있다. 따라서, 이하 첨부도면에서 제공하는 본 발명의 실시예의 상세한 설명은 보호받고자 하는 본 발명의 범위를 제한하기 위한 것이 아니라, 단지 본 발명의 선택된 실시예를 나타내기 위한 것이다. 본 발명의 실시예를 바탕으로, 당업자가 창조적인 노동을 하지 않은 전제하에 획득되는 모든 기타 실시예는 모두 본 발명의 보호 범위에 속한다.
인식할 동영상에는 동적 대상이 포함될 수 있다. 예를 들어 인식할 동영상에는 걸어가는 사람, 뛰어가는 사람, 포식하는 동물 등과 같은 동적 대상이 포함될 수 있으며, 인식할 동영상을 검출하여, 인식할 동영상에 포함된 동작의 유형을 판단 시, 설계된 컨볼루션 신경망을 통해 인식할 동영상을 인식하거나; 또는 다수의 인식할 동영상을 검출하고, 설계된 컨볼루션 신경망을 통해, 각 인식할 동영상에 포함된 동작의 유형을 바탕으로, 다수의 인식할 동영상을 클러스터링할 수도 있다.
예시적으로, 동작의 실행 과정에는 리듬 요소가 존재한다. 예를 들어 달리는 리듬은 걷는 리듬보다 빠르며, 즉 동일한 대상이 다른 동작을 실행 시 대응되는 리듬이 다르다. 이와 동시에, 동작을 실행하는 대상의 신체 상황, 연령 상황 등의 요인이 다르므로, 각기 다른 대상이 동일한 동작을 실행 시에도 리듬이 다를 수 있으며, 따라서 동작의 리듬은 동작의 검출에 대단히 중요한 역할을 한다.
일반적으로, 상이한 샘플링 주파수를 바탕으로, 인식할 동영상의 프레임 레이트를 조정하여, 인식할 동영상에 대응되는 다수의 상이한 프레임 레이트의 동영상을 획득할 수 있다. 예를 들어 인식할 동영상의 원본 프레임 레이트가 24프레임/초라면, 인식할 동영상의 원본 프레임 레이트를 조정하여, 인식할 동영상에 대응되는 다수의 상이한 프레임 레이트의 동영상, 즉 프레임 레이트가 24프레임/초인 동영상, 프레임 레이트가 18프레임/초인 동영상, 프레임 레이트가 12프레임/초인 동영상, 프레임 레이트가 6프레임/초인 동영상 등을 획득할 수 있다. 이후 인식할 동영상에 대응되는 다수의 상이한 프레임 레이트의 동영상을 각각 동작 인식 신경망에 입력하여, 각 동영상에 대응되는 검출 결과를 확정하고, 각 동영상에 대응되는 검출 결과를 바탕으로, 인식할 동영상에 포함된 동작 유형을 확정할 수 있다. 그러나, 각기 다른 프레임 레이트의 동영상을 바탕으로 인식할 동영상에 포함된 동작의 유형을 확정 시, 인식 과정이 비교적 복잡하고, 연산량이 높아 인식 효율이 떨어진다. 따라서, 본 발명의 실시예는 동작 정보 인식 방법을 제시하며, 특징맵의 파라미터 정보 및 시간 차원 값을 조절하고, 조정 후의 특징맵을 바탕으로 인식할 동영상을 인식함으로써, 원본 프레임 레이트의 인식할 동영상만으로 인식할 동영상의 동작 정보를 확정할 수 있어, 인식의 연산량이 감소하고, 인식 효율이 향상된다.
본 발명의 실시예에 대한 이해를 돕기 위해, 먼저 본 발명의 실시예가 공개하는 동작 정보 인식 방법에 대해 상세히 소개한다.
도 1을 참조하면, 본 발명의 실시예가 제공하는 동작 정보 인식 방법의 흐름도로서, 상기 방법은 S101-S104를 포함한다.
S101: 인식할 동영상에 대해 특징 추출을 수행하여, 다중 레벨 제1 특징맵을 획득하는 단계;
S102: 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계; 여기서 상이한 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
S103: 각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 단계; 여기서, 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
S104: 제3 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정하는 단계.
상기 단계에서, 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하고, 각 레벨의 제2 특징맵의 시간 차원 값을 조정하여, 획득된 각 레벨의 제2 특징맵에 대응되는 제3 특징맵의 시간 차원 값에 비율 관계가 존재하도록 함으로써, 시간 차원이 다른 제3 특징맵을 바탕으로(상이한 시간 차원을 통해 동작의 상이한 리듬을 구현하고, 나아가 상이한 리듬 하의 동작 특징을 획득한다), 인식할 동영상 중의 동작 정보를 확정할 수 있으며, 원본 프레임 레이트의 인식할 동영상을 바탕으로, 인식할 동영상의 동작 정보를 확정할 수 있어, 인식할 동영상의 프레임 레이트를 조절할 필요가 없기 때문에, 인식의 정확도를 보장하는 동시에, 인식의 연산량을 감소시켜, 인식 효율이 높아진다.
이하 S101-S104에 대해 상세히 설명한다.
S101에 대하여:
본 발명의 실시예에서, 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하며, 여기서 제1 레벨의 제1 특징맵은 인식할 동영상에 대해 특징 추출을 수행하여 획득된 것이고, 이웃한 두 레벨의 제1 특징맵 중, 후 단계의 제1 특징맵은 이웃한 두 단계의 제1 특징맵 중의 전 단계의 제1 특징맵에 대해 특징 추출을 수행하여 획득된 것이다.
본 발명의 실시예에서, 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득 시, 다중 레벨의 제1 컨볼루션 신경망을 통해 인식할 동영상에 대해 특징 추출을 수행하여, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득할 수 있다. 여기서, 다중 레벨의 제1 컨볼루션 신경망이 구성하는 신경망은 인식할 동영상에 포함된 동작 정보를 인식하는 어느 하나의 신경망일 수 있으며, 구체적으로, 검출할 동영상에 포함된 동작 정보를 인식하는 신경망은 여러 단계의 컨볼루션 신경망으로 구분될 수 있고, 각 단계의 컨볼루션 신경망마다 하나의 레벨의 제1 컨볼루션 신경망이 대응된다. 여기서, 다중 레벨의 제1 컨볼루션 신경망의 구조는 실제 필요에 따라 설치할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
예시적으로, 다중 레벨의 제1 컨볼루션 신경망이 제1 레벨의 제1 컨볼루션 신경망, 제2 레벨의 제1 컨볼루션 신경망, 제3 레벨의 제1 컨볼루션 신경망을 포함한다면, 즉 제1 레벨의 제1 컨볼루션 신경망은 인식할 동영상에 대해 컨볼루션 처리를 수행하여 제1 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하고; 제1 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 제2 레벨의 제1 컨볼루션 신경망으로 전송하며, 제2 레벨의 제1 컨볼루션 신경망이 수신된 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 제2 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하며; 다시 제2 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 제3 레벨의 제1 컨볼루션 신경망으로 전송하여, 제3 레벨의 제1 컨볼루션 신경망이 수신된 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 제3 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득함으로써, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득할 수 있다. 여기서, 제1 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵이 거치는 컨볼루션 처리 횟수가 비교적 적기 때문에, 제1 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵은 상세 특징이 비교적 많고, 공간 의미 특징이 적은 반면, 제3 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵이 거치는 컨볼루션 처리 횟수가 비교적 많기 때문에, 제3 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵은 공간 의미 특징이 비교적 많고(즉 제1 특징맵에 포함된 동작 정보와 관련된 특징이 많다), 상세 특징은 비교적 적다.
본 발명의 실시예에서, 인식할 동영상은 동작 정보를 포함하는 어느 하나의 동영상일 수 있으며, 여기서, 인식할 동영상의 시간길이는 어느 하나의 시간길이, 예를 들어, 인식할 동영상의 시간 길이는 10초, 20초 등일 수 있다. 구체적으로, 다중 레벨의 제1 컨볼루션 신경망을 바탕으로 동영상 검출 시간길이를 확정할 수 있으며, 인식할 동영상의 시간길이가 동영상 검출 시간길이보다 긴 경우, 인식할 동영상을 다수의 동영상으로 분할하여, 분할 후의 각 동영상의 시간길이가 동영상 검출 시간 길이와 같아지도록 할 수 있다. 예를 들어, 인식할 동영상의 시간길이가 1분이고, 확정된 동영상 검출 시간길이가 10초라면, 즉 인식할 동영상을 6개의 10초 길이의 동영상으로 분할하고, 다중 레벨의 제1 컨볼루션 신경망이 동영상에 대해 10초마다 각각 특징 추출을 수행하여, 각 10초마다 동영상에 대응하는 동작 정보를 확정함으로써, 상기 인식할 동영상의 동작 정보를 획득할 수 있다.
본 발명의 실시예에서, 제1 특징맵은 4차원 파라미터 정보를 포함할 수 있으며, 상기 4차원 파라미터 정보는 길이 값 × 폭 값 × 시간 차원 값 × 채널 수를 포함할 수 있다. 여기서, 길이 값 × 폭 값은 제1 특징맵의 크기이고, 신경망의 시간 차원 값은 신경망이 한 번에 처리할 수 있는 이미지의 수량을 나타낸다. 예시적으로, 다중 레벨의 제1 컨볼루션 신경망이 3차원 컨볼루션 신경망이면, 즉 인식할 동영상의 제1 특징맵을 획득할 수 있고, 상기 제1 특징맵은 4차원 파라미터 정보를 포함할 수 있으며; 다중 레벨의 제1 컨볼루션 신경망이 2차원 컨볼루션 신경망이면, 즉 다중 레벨의 제1 컨볼루션 신경망을 통해 특징 추출을 수행하여, 인식할 동영상 중 각 프레임의 이미지에 대응하는 특징맵을 획득하고, 획득된 인식할 동영상 중 각 프레임의 이미지 대상의 특징맵을 시간 차원에 따라 조합하여, 인식할 동영상에 대응되는 제1 특징맵을 획득할 수 있다.
S102에 대하여:
본 발명의 실시예에서, 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득할 수 있다. 예를 들어 제1 레벨의 제1 특징맵의 파라미터 정보, 제2 레벨의 제1 특징맵의 파라미터 정보, 및 제3 레벨의 제1 특징맵의 파라미터 정보가 일치하도록 조정하며, 즉 각 레벨의 제1 특징맵의 길이 값, 및/또는 폭 값, 및/또는 시간 차원 값, 및/또는 채널 수를 조정하여, 획득된 각 레벨의 제2 특징맵의 길이 값, 폭 값, 시간 차원 값, 및 채널 수가 모두 같아지도록 한다.
일종의 가능한 실시방식에서, 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계는,
각 레벨의 제1 특징맵에 대응되는 파라미터 정보 중 크기가 가장 작은 제1 특징맵을 확정하고, 크기가 가장 작은 제1 특징맵을 제외한 기타 제1 특징맵을 상기 크기가 가장 작은 제1 특징맵과 동일한 파라미터 정보의 특징맵으로 조정하여, 크기가 가장 작은 제1 특징맵, 및 조정 후 상기 크기가 가장 작은 제1 특징맵과 동일해진 파라미터 정보의 특징맵을 제2 특징맵으로 삼거나; 또는
각 레벨의 제1 특징맵을 사전 설정 파라미터 정보 하의 특징맵으로 조정하여, 상기 사전 설정 파라미터 정보 하의 특징맵을 제2 특징맵으로 삼는 단계를 포함한다.
예시적으로, 다중 레벨의 제1 특징맵에 제1 레벨의 제1 특징맵, 제2 레벨의 제1 특징맵, 제3 레벨의 제1 특징맵이 포함된 경우, 즉 제1 레벨의 제1 특징맵, 제2 레벨의 제1 특징맵, 제3 레벨의 제1 특징맵 중, 크기가 가장 작은 제1 특징맵을 확정하며(즉 길이 값 × 폭 값이 가장 작은 제1 특징맵을 확정한다), 예를 들어, 제1 레벨의 제1 특징맵의 파라미터 정보는 200 × 200 × 24 × 256일 수 있고, 제2레벨의 제1 특징맵의 파라미터 정보는 100 × 100 × 24 × 512일 수 있고, 제3레벨의 제1 특징맵의 파라미터 정보는 50 × 50 × 24 × 1024일 수 있으며, 즉 제3 레벨의 제1 특징맵에 대응되는 파라미터 정보 중 크기가 가장 작은 맵을 확정하고, 제1 레벨의 제1 특징맵 및 제2 레벨의 제1 특징맵의 파라미터 정보를 각각 조정함으로써, 조정 후의 각 레벨의 제2 특징맵의 파라미터 정보가 모두 50 × 50 × 24 × 1024가 되도록 한다.
또는, 하나의 사전 설정 파라미터 정보를 확정하고, 각 레벨의 제1 특징맵을 사전 설정 파라미터 정보 하의 특징맵으로 조정하여, 상기 사전 설정 파라미터 정보 하의 특징맵을 제2 특징맵으로 삼을 수 있다. 일반적으로 사전 설정 파라미터 정보의 크기는 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵에 대응되는 파라미터 정보 중의 크기가 가장 작은 제1 특징맵보다 작거나 또는 같다. 상기 실시예에 이어서 계속 설명하면, 제3 레벨의 제1 특징맵(즉 상기 제1 특징맵에 대응되는 파라미터 정보 중 크기가 가장 작은)의 파라미터 정보가 50 × 50 × 24 × 1024라면, 즉 사전 설정 파라미터 정보는 25 × 25 × 24 × 1024이거나, 또는 사전 설정 파라미터 정보는 50 × 50 × 24 × 1024일 수 있다. 여기서 사전 설정 파라미터 정보는 실제 상황에 따라 설정할 수 있다.
상기 실시방식에서, 각 레벨의 제1 특징맵을 비교적 작은 크기로 조정함으로써, 인식할 동영상에 포함된 동작 정보를 인식 시, 인식의 연산량을 감소시켜, 인식 효율이 높아진다.
일종의 가능한 실시방식에서, 인식할 동영상에 대해 특징 추출을 수행하여, 다중 레벨의 제1 특징맵을 획득하는 단계는,
다중 레벨의 제1 컨볼루션 네트워크를 통해 인식할 동영상에 대해 특징 추출을 수행하여, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하는 단계를 포함한다.
도 2를 참조하면, 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계는,
S201: 확정된 조정 후의 파라미터 정보, 및 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵의 파라미터 정보를 바탕으로, 상기 레벨의 제1 컨볼루션 신경망에 대응되는 제2 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하는 단계;
S202: 확정된 네트워크 파라미터 정보를 휴대한 각 레벨의 제2 컨볼루션 신경망을 바탕으로, 상기 레벨의 제2 컨볼루션 신경망에 대응되는 제1 컨볼루션 신경망에서 출력된 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제2 컨볼루션 신경망에서 출력된 제2 특징맵을 획득하는 단계;를 포함한다.
상기 실시예에 이어서 계속 설명하면, 확정된 조정 후의 파라미터 정보는 50 × 50 × 24 × 1024일 수 있고, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제1 특징맵의 파라미터 정보는 200 × 200 × 24 × 256일 수 있으며, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제1 특징맵의 파라미터 정보는 100 × 100 × 24 × 512일 수 있고, 제3 레벨의 제1 컨볼루션 신경망에 대응되는 제1 특징맵의 파라미터 정보는 50 × 50 × 24 × 1024일 수 있으며; 즉 확정된 조정 후의 파라미터 정보, 및 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵의 파라미터 정보를 바탕으로, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제2 컨볼루션 신경망의 네트워크 파라미터 정보, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제2 컨볼루션 신경망의 네트워크 파라미터 정보, 제3 레벨의 제1 컨볼루션 신경망에 대응되는 제2 컨볼루션 신경망의 네트워크 파라미터 정보를 각각 확정하며, 즉 각 레벨의 제2 컨볼루션 신경망 중 컨볼루션 커널의 길이 × 폭 이동 스텝 사이즈 × 시간 차원 이동 스텝 사이즈(step size) 등의 정보를 확정한다.
예시적으로, 제1 특징맵의 파라미터 정보, 제2 컨볼루션 신경망에 대응되는 네트워크 파라미터 정보, 및 제2 특징맵에 대응되는 파라미터 정보 간에 존재하는 관계는 하기 공식(1)과 같다:
Figure pct00001
여기서, O는 제2 특징맵의 파라미터 정보이고, I는 제1 특징맵의 파라미터 정보이며, K는 제2 컨볼루션 신경망에 대응되는 컨볼루션 커널의 네트워크 파라미터 정보이고, S는 이동 스텝 사이즈이며, P는 채움 수(filling number)이다. 따라서, 제1 특징맵의 파라미터 정보, 제2 특징맵의 파라미터 정보를 확정한 후, 제2 컨볼루션 신경망에 대응되는 네트워크 파라미터를 확정할 수 있다. 예를 들어, 각 레벨의 제2 컨볼루션 신경망에 상이한 길이의 이동 스텝 사이즈, 및/또는 폭 이동 스텝 사이즈를 설정함으로써, 각 레벨의 제2 컨볼루션 신경망에서 출력된 제2 특징맵의 파라미터 정보를 같아지게 할 수 있다.
예시적으로, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 네트워크 파라미터 정보를 휴대한 제2 컨볼루션 신경망은 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제2 컨볼루션 신경망에서 출력된 제2 특징맵을 획득한다. 순차적으로 유추하여, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 네트워크 파라미터 정보를 휴대한 제2 컨볼루션 신경망은, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제2 컨볼루션 신경망에서 출력된 제2 특징맵을 획득한다. 제3 레벨의 제1 컨볼루션 신경망에 대응되는 네트워크 파라미터 정보를 휴대한 제2 컨볼루션 신경망은, 제3 레벨의 제1 컨볼루션 신경망에 대응되는 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제2 컨볼루션 신경망에서 출력된 제2 특징맵을 획득한다.
상기 실시방식에서, 각 레벨의 제2 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하여, 확정된 네트워크 파라미터 정보를 휴대한 각 레벨의 제2 컨볼루션 신경망을 바탕으로, 대응되는 제1 특징맵에 대해 컨볼루션 처리를 수행함으로써, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵의 파라미터 정보 중의 크기를 비교적 작은 크기로 조정하며, 이에 따라 인식할 동영상을 인식 시, 연산량을 감소시켜, 인식 효율이 향상된다.
S103에 대하여:
본 발명의 실시예에서, 각 레벨의 제2 특징맵의 파라미터 정보를 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하며, 획득된 각 레벨의 제3 특징맵의 시간 차원 값의 비율을 사전 설정 비율과 일치시킬 수 있다. 여기서, 각 레벨의 제3 특징맵의 시간 차원값은 그 수용영역(receptive field)과 관련이 있다. 구체적으로, 특징맵이 컨볼루션 처리를 거치는 횟수가 적을수록, 수용영역이 작아지며, 즉 대응되는 시간 차원 값이 비교적 크게 설정되어야만 비로소 인식할 동영상 중의 동작 정보를 정확하게 확정할 수 있고; 반대로, 특징맵이 컨볼루션 처리를 거치는 횟수가 많을수록, 수용영역이 커진다. 즉 연산량을 줄이기 위해서는 대응되는 시간 차원 값을 작게 하면 되며, 인식할 동영상의 인식의 정확도를 보장함과 동시에, 연산량을 감소시키고, 인식 효율을 높일 수 있다. 예를 들어 제1 레벨의 제3 특징맵과 제2 레벨의 제3 특징맵 사이의 시간 차원 값의 비율은 1 : 2, 또는 2 : 4, 또는 3 : 9 등으로 설정할 수 있다.
일종의 가능한 실시방식에서, 도 3을 참조하면, 각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 단계는,
S301: 각기 다른 레벨의 제1 컨볼루션 신경망 사이의 시간 차원 값의 비율, 및 각 레벨의 제1 컨볼루션 신경망에 대응되는 제2 특징맵의 시간 차원 값을 바탕으로, 각 레벨의 제1 컨볼루션 신경망이 각각 대응되는 제3 특징맵의 시간 차원 값을 확정하는 단계;
S302: 확정된 각 레벨의 제1 컨볼루션 신경망에 각각 대응되는 제3 특징맵의 시간 차원 값, 및 각 레벨의 제1 컨볼루션 신경망에 대응되는 제2 특징맵의 시간 차원 값을 바탕으로, 상기 레벨의 제1 컨볼루션 신경망에 대응되는 제3 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하는 단계;
S303: 확정된 네트워크 파라미터 정보를 휴대한 각 레벨의 제3 컨볼루션 신경망을 바탕으로, 상기 레벨의 제3 컨볼루션 신경망에 대응되는 제2 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵을 획득하는 단계;를 포함한다.
본 발명의 실시예에서, 상이한 레벨의 제1 컨볼루션 신경망 사이의 시간 차원 값의 비율은 실제 필요에 따라 설정할 수 있다. 예를 들어 다중 레벨의 제1 컨볼루션 신경망에 제1 레벨의 제1 컨볼루션 신경망, 제2 레벨의 제1 컨볼루션 신경망, 제3 레벨의 제1 컨볼루션 신경망이 포함된다면, 즉 상이한 레벨의 제1 컨볼루션 신경망 사이의 시간 차원 값의 비율은 1 : 2 : 4일 수도 있고, 1 : 3 : 9 등일 수도 있다. 또한, 각 레벨의 제1 컨볼루션 신경망에 대응되는 제2 특징맵의 시간 차원 값이 24이고, 시간 차원 값의 비율이 1 : 2 : 4라면, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵의 시간 차원 값은 6이고, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵의 시간 차원 값은 12이며, 제3 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵의 시간 차원 값은 24로 확정할 수 있다.
본 발명의 실시예에서, 상기 공식 (1)에 따라 각 레벨의 제1 컨볼루션 신경망에 대응되는 제3 컨볼루션 신경망의 네트워크 파라미터 정보를 확정할 수 있다. 예를 들어 각 레벨의 제3 컨볼루션 신경망에 상이한 시간 차원 이동 스텝 길이를 설정함으로써, 각 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵의 시간 차원 값을 설정된 비율과 같아지도록 할 수 있다.
예시적으로, 제1 레벨의 제1 컨볼루션 신경망에 대응되며 네트워크 파라미터 정보를 휴대한 제3 컨볼루션 신경망은, 상기 레벨의 대응되는 제2 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵을 획득한다. 순차적으로 유추하여, 제2 레벨의 제1 컨볼루션 신경망에 대응되며 네트워크 파라미터 정보를 휴대한 제3 컨볼루션 신경망은, 상기 레벨의 대응되는 제2 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵을 획득한다. 제3 레벨의 제1 컨볼루션 신경망에 대응되며 네트워크 파라미터 정보를 휴대한 제3 컨볼루션 신경망은, 상기 레벨의 대응되는 제2 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵을 획득한다.
상기 실시방식에서, 각 레벨의 제1 컨볼루션 신경망에 대응되는 제2 특징맵의 시간 차원 값을 조절함으로써, 획득된 각 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵의 시간 차원 값을 설정된 비율과 일치시키며(인식할 동영상에 포함된 동작 정보의 리듬을 조절하는 것에 해당), 시간 차원 값을 조정한 후의 제3 특징맵을 바탕으로, 인식할 동영상에 포함된 동작 정보를 비교적 정확하게 인식할 수 있어, 인식의 정확도가 향상된다.
S104에 대하여:
본 발명의 실시예에서, 각 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵을 융합하고, 제3 특징맵을 융합 후 획득된 특징맵을 예측 신경망에 입력하여, 인식할 동영상에 포함된 동작 정보를 획득할 수 있다. 인식할 동영상에 다수의 동작 정보가 포함되어 있다면, 인식할 동영상에 포함된 각각의 동작 정보를 획득할 수 있다.
일종의 가능한 실시방식에서, 도 4를 참조하면, 제3 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정하는 단계는,
S401: 각 레벨의 제2 특징맵에 대응되는 제3 특징맵에 대해 융합 처리를 수행하여, 융합 후의 제4 특징맵을 획득하는 단계;
S402: 제4 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정하는 단계;를 포함한다.
본 발명의 실시예에서, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득한 후, 각 레벨의 제3 특징맵을 융합 처리하여, 융합 후의 제4 특징맵을 획득하고, 제4 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정할 수 있다.
상기 실시방식에서, 획득된 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 융합 처리함으로써, 획득된 제4 특징맵에 시간 차원 값이 다른 제3 특징맵의 특징이 포함될 수 있으며, 따라서 제4 특징맵을 바탕으로 인식할 동영상 중의 동작 정보를 확정 시, 인식의 정확도를 높일 수 있다.
일종의 가능한 실시방식에서, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵에 대해 융합 처리를 수행하여 융합 후의 제4 특징맵을 획득하는 단계는,
설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 단계;
매 회 융합 후의 중간 특징맵을 바탕으로, 제4 특징맵을 획득하는 단계;를 포함한다.
본 발명의 실시예에서, 제3 특징맵의 융합 순서를 설정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 설정된 융합 순서에 따라, 순차적으로 융합 처리를 수행하여, 매 회 융합 후의 중간 특징맵을 획득할 수 있다.
예를 들어, 설정된 융합 순서가, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵, 제3 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵이면, 즉 먼저 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵을 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵과 융합하여, 첫 번째 융합 후의 중간 특징맵을 획득하고; 획득된 융합 후의 중간 특징맵을 제3 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵과 융합하여, 두 번째 융합 후의 중간 특징맵을 획득한다. 매 회 융합 후의 중간 특징맵을 바탕으로 제4 특징맵을 획득할 수 있다.
예시적으로, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵과 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵을 융합 시, 먼저 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵에 대해 이미지 보간(image interpolation) 처리를 수행하고, 이미지 보간 처리 후의 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵을 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵과 융합시켜, 첫 번째 융합 후의 중간 특징맵을 획득한다. 매 회 융합 과정은 상기 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵과 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵을 융합하는 과정을 참고하면 되므로, 본 발명의 실시예는 이에 대해 중복 설명을 생략한다.
예를 들어, 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵의 파라미터 정보가 7 × 7 × 1 × 512이고, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵의 파라미터 정보가 7 × 7 × 2 × 512라면, 즉 먼저 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵에 대해 이미지 보간 처리를 수행하여, 보간 처리 후의 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵의 파라미터 정보는 7 Х 7 × 2 × 512이며; 이후 보간 처리 후의 제1 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵 중의 각 특징점의 값과, 제2 레벨의 제1 컨볼루션 신경망에 대응되는 제3 특징맵 중 대응되는 특징점의 값의 합을 구하여, 첫 번째 융합 후의 중간 특징맵을 획득하며, 여기서, 상기 첫 번째 융합 후의 중간 특징맵의 파라미터 정보는 7 × 7 × 2 × 512이다.
일종의 가능한 실시방식에서, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 제1 레벨의 제3 특징맵 내지 제N 레벨의 제3 특징맵으로 삼으며, 여기서 제N 레벨의 제3 특징맵의 시간 차원 값은 제N-1 레벨의 제3 특징맵의 시간 차원 값보다 크고, N은 1보다 큰 양의 정수이며, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 방법은 하기의 몇 가지 방식을 포함한다:
방식 1: 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제1 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵을 획득된 중간 특징맵으로 삼는다.
방식 2: 제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제N 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵을 획득된 중간 특징맵으로 삼는다.
방식 3: 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 제3 특징맵을 융합 처리하여, 각각 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 획득하고, 각각 제1 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵에 대해 컨볼루션 처리를 수행하여, 제1 레벨의 융합 특징맵 내지 제N 레벨의 융합 특징맵을 획득하며, 여기서, 각 레벨의 융합 특징맵의 파라미터 정보는 컨볼루션 처리 전에 대응되는 특징맵의 파라미터 정보와 동일하며; 제N 레벨의 융합 특징맵으로부터 제1 레벨의 융합 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 융합 특징맵에 대해 융합 처리를 수행하여, 제N 레벨의 융합 특징맵으로부터 제1 레벨의 융합 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 각각 획득하여, 매 회 융합 후의 특징맵 및 제N 레벨의 융합 특징맵을 획득된 중간 특징맵으로 삼는다.
방식 4: 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제1 레벨의 제3 특징맵 및 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을 획득된 제1 중간 특징맵으로 삼으며, 제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 제3 특징맵에 대해 융합 처리를 수행하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제N 레벨의 제3 특징맵 및 제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을 획득된 제2 중간 특징맵으로 삼으며; 제1 중간 특징맵과 제2 중간 특징맵을 획득된 중간 특징맵으로 삼는다.
도 5a를 참조하면, 본 발명의 실시예는 상기 방식 1에 대해 설명한다. 각 레벨의 제3 특징맵을 융합 시, 먼저 제1 레벨의 제3 특징맵(501)을 제2 레벨의 제3 특징맵(502)과 융합하여, 첫 번째 융합 후의 특징맵을 획득한 다음; 첫 번째로 획득된 융합 후의 특징맵을 제3 레벨의 제3 특징맵(503)과 융합하여, 두 번째 융합 후의 특징맵을 획득할 수 있으며, N-2번째 융합 후의 특징맵을 제N 레벨의 제3 특징맵(504)과 융합하여 N-1번째 융합 후의 특징맵을 획득할 때까지 이와 같이 유추하며, 첫 번째 융합 후의 특징맵(제1 레벨의 제3 특징맵과 제2 레벨의 제3 특징맵을 융합 후 획득된 특징맵), 두 번째 융합 후의 특징맵, ????, N-1번째 융합 후의 특징맵 및 제1 레벨의 제3 특징맵을 획득된 중간 특징맵으로 삼는다.
도 5b를 참조하면, 본 발명의 실시예는 상기 방식 2에 대해 설명한다. 각 레벨의 제3 특징맵을 융합 시, 먼저 제N 레벨의 제3 특징맵(504)을 제N-1 레벨의 제3 특징맵과 융합하여, 첫 번째 융합 후의 특징맵을 획득한 다음; 첫 번째 융합 후 획득된 특징맵을 제N-2 레벨의 제3 특징맵과 융합하여, 두 번째 융합 후의 특징맵을 획득할 수 있으며, N-2번째 융합 후의 특징맵을 제1 레벨의 제3 특징맵(501)과 융합하여, N-1번째 융합 후의 특징맵을 획득할 때까지 이와 같이 유추하며; 첫 번째 융합 후의 특징맵(제N 레벨의 제3 특징맵과 제N-1 레벨의 제3 특징맵을 융합 후 획득된 특징맵), 두 번째 융합 후의 특징맵, ????, N-1번째 융합 후의 특징맵 및 제N 레벨의 제3 특징맵을 획득된 중간 특징맵으로 삼는다.
도 5c를 참조하면, 본 발명의 실시예는 상기 방식 3에 대해 설명한다. 각 레벨의 제3 특징맵을 융합 시, 먼저 제1 레벨의 제3 특징맵을 제2 레벨의 제3 특징맵과 융합하여, 첫 번째 융합 후의 특징맵을 획득한 다음; 첫 번째 획득된 융합 후의 특징맵을 제3 레벨의 제3 특징맵과 융합하여, 두 번째 융합 후의 특징맵을 획득할 수 있고, 이와 같이 유추하여 N-1번째 융합 후의 특징맵을 획득할 수 있으며; 각각 제1 레벨의 제3 특징맵, 첫 번째 융합 후의 특징맵, 두 번째 융합 후의 특징맵, ????, N-1번째 융합 후의 특징맵을 대응되는 중간 컨볼루션 신경망(505)에 입력하여 컨볼루션 처리를 수행함으로써, 제1 레벨의 제3 특징맵에 대응되는 제1 레벨의 융합 특징맵, 첫 번째 융합 후의 특징맵에 대응되는 제2 레벨의 융합 특징맵, 두 번째 융합 후의 특징맵에 대응되는 제3 레벨의 융합 특징맵, ????, N-1번째 융합 후의 특징맵에 대응되는 제N 레벨의 융합 특징맵을 획득한다. 여기서, 각 레벨의 융합 특징맵의 파라미터 정보는 컨볼루션 처리 전에 대응되는 특징맵의 파라미터 정보와 동일하며, 예컨대, 제1 레벨의 제3 특징맵의 파라미터 정보가 7 × 7 × 1 × 512이면, 제1 레벨의 제3 특징맵에 대응되는 중간 컨볼루션 신경망(505)이 제1 레벨의 제3 특징맵에 대해 컨볼루션 처리를 수행 후, 획득된 제1 레벨의 융합 특징맵의 파라미터 정보 역시 7 × 7 × 1 × 512이고; 첫 번째 융합 후의 특징맵의 파라미터 정보가 7 × 7 × 2 × 512라면, 즉 첫 번째 융합 후의 특징맵에 대응되는 중간 컨볼루션 신경망이 첫 번째 융합 후의 특징맵에 대해 컨볼루션 처리를 수행 후, 획득된 제2 레벨의 융합 특징맵의 파라미터 정보 역시 7 × 7 × 2 × 512이다.
계속 상기 방식 3에 대해 설명하면, 제N 레벨의 융합 특징맵으로부터 제1 레벨의 융합 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 융합 특징맵에 대해 융합 처리를 수행하여, 제N 레벨의 융합 특징맵으로부터 제1 레벨의 융합 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 각각 획득하여, 매 회 융합 후의 특징맵 및 제N 레벨의 융합 특징맵을 획득된 중간 특징맵으로 삼는다.
도 5d를 참조하면, 본 발명의 실시예는 상기 방식 4에 대해 설명한다. 각 레벨의 제3 특징맵을 융합 시, 상기 방식 1을 통해 각 레벨의 제3 특징맵에 대해 융합 처리를 수행하여, 제1 레벨의 제3 특징맵 및 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을, 획득된 제1 중간 특징맵으로 삼을 수 있고; 이와 동시에, 상기 방식 2를 통해 각 레벨의 제3 특징맵에 대해 융합 처리를 수행하여, 제N 레벨의 제3 특징맵 및 제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을, 획득된 제2 중간 특징맵으로 삼을 수 있으며; 여기서, 제1 중간 특징맵 및 제2 중간 특징맵은 방식 4를 통해 획득된 중간 특징맵을 구성한다.
상기 실시방식에서, 다양한 융합 순서를 설정하여, 순차적으로 각 레벨의 제3 특징맵을 융합 처리할 수 있어, 특징맵의 융합 방식이 풍부해진다.
일종의 가능한 실시방식에서, 도 6을 참조하면, 매 회 융합 후의 중간 특징맵을 바탕으로, 제4 특징맵을 획득하는 단계는,
S601: 매 회 융합 후의 중간 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 중간 특징맵에 대응되는 제5 특징맵을 획득하는 단계; 여기서, 각각의 중간 특징맵에 대응되는 제5 특징맵의 시간 차원 값은 동일하다.
S602: 각 중간 특징맵에 대응되는 제5 특징맵을 병합하여, 제4 특징맵을 획득하는 단계;를 포함한다.
예시적으로, 매 회 융합 후의 중간 특징맵에 파라미터 정보가 7 × 7 × 1 × 512인 중간 특징맵, 7 × 7 × 2 × 512인 중간 특징맵, 7 × 7 × 4 × 512인 중간 특징맵이 포함되고, 확정된 융합 후의 시간 차원 값이 1이라면, 여기서 융합 후의 시간 차원 값은 실제 필요에 따라 설정할 수 있으며, 즉 각 중간 특징맵에 대응되는 제4 컨볼루션 신경망의 네트워크 파라미터 정보를 확정할 수 있다. 즉 파라미터 정보가 7 × 7 × 1 × 512인 중간 특징맵에 대응되는 제4 컨볼루션 신경망 A의 네트워크 파라미터를 확정하고, 파라미터 정보가 7 × 7 × 2 × 512인 중간 특징맵에 대응되는 제4 컨볼루션 신경망 B의 네트워크 파라미터를 확정하며, 파라미터 정보가 7 × 7 × 4 × 512인 중간 특징맵에 대응되는 제4 컨볼루션 신경망 C의 네트워크 파라미터를 확정할 수 있으며; 네트워크 파라미터 정보를 휴대한 제4 컨볼루션 신경망 A를 바탕으로 파라미터 정보가 7 × 7 × 1 × 512인 중간 특징맵에 대해 컨볼루션 처리를 수행하여, 파라미터 정보가 7 × 7 × 1 × 512인 중간 특징맵에 대응되는 제5 특징맵을 획득하고; 나아가 파라미터 정보가 7 × 7 × 2 × 512인 중간 특징맵에 대응되는 제5 특징맵, 및 파라미터 정보가 7 × 7 × 4 × 512인 중간 특징맵에 대응되는 제5 특징맵을 획득할 수 있으며, 여기서, 각 중간 특징맵에 대응되는 제5 특징맵의 파라미터 정보는 모두 7 × 7 × 1 × 512이다.
또한, 각 중간 특징맵에 대응되는 제5 특징맵을 병합하여 제4 특징맵을 획득하며, 즉 획득되는 제4 특징맵의 파라미터 정보는 7 × 7 × 4 × 1536이다. 여기서, 각 중간 특징맵에 대응되는 제5 특징맵을 병합 시, Concatenate 연산을 통해 제5 특징맵을 병렬 연결하여 제4 특징맵을 획득할 수 있다.
상기 실시방식에서, 매 회 융합 후의 중간 특징맵에 대해 컨볼루션 처리를 수행하고, 컨볼루션 처리 후 획득된 제5 특징맵을 병합하여 제4 특징맵을 획득함으로써, 제4 특징맵에 의미 특징이 비교적 강한 특징 정보가 포함될 뿐만 아니라, 상세 특징이 비교적 강한 특징 정보도 포함되며, 또한 획득된 제4 특징맵에 상이한 시간 차원 값의 특징 정보가 더 포함되어 있어, 제4 특징맵을 바탕으로 인식할 동영상에 포함된 동작 정보를 인식 시, 인식의 정확도가 향상될 수 있다.
당업자라면, 구체적인 실시방식의 상기 방법 중, 각 단계의 기재 순서가 엄격한 실행 순서로 실시과정을 한정하는 것을 의미하지 않는다는 것을 이해할 수 있을 것이며, 각 단계의 구체적인 실행 순서는 마땅히 그 기능과 가능한 내재 논리에 의해 확정되어야 한다.
동일한 구상을 바탕으로, 본 발명의 실시예는 동작 정보 인식 장치를 더 제공하며, 도 7을 참조하면, 본 발명의 실시예가 제공하는 동작 정보 인식의 블록도로서, 특징 추출 모듈(701), 파라미터 조정 모듈(702), 시간 차원 조정 모듈(703), 확정 모듈(704)을 포함하며, 구체적으로 다음과 같다.
특징 추출 모듈(701)은 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하기 위한 것이고;
파라미터 조정 모듈(702)은, 상기 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하기 위한 것으로서; 여기서, 상이한 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
시간 차원 조정 모듈(703)은, 각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하기 위한 것으로서; 여기서, 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
확정 모듈(704)은, 상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하기 위한 것이다.
일종의 가능한 실시방식에서, 상기 파라미터 조정 모듈(702)은, 상기 제1 특징맵에 대한 파라미터 정보 조정을 통해, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득 시,
상기 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵에 대응되는 파라미터 정보 중 크기가 가장 작은 제1 특징맵을 확정하고, 크기가 가장 작은 제1 특징맵을 제외한 기타 제1 특징맵을 상기 크기가 가장 작은 제1 특징맵과 동일한 파라미터 정보의 특징맵으로 조정하여, 크기가 가장 작은 제1 특징맵, 및 조정 후 상기 크기가 가장 작은 제1 특징맵과 동일해진 파라미터 정보의 특징맵을 제2 특징맵으로 삼거나; 또는
상기 각 레벨의 제1 컨볼루션 신경망이 각각 출력한 제1 특징맵을 사전 설정 파라미터 정보 하의 특징맵으로 조정하여, 상기 사전 설정 파라미터 정보 하의 특징맵을 제2 특징맵으로 삼기 위한 것이다.
일종의 가능한 실시방식에서, 상기 특징 추출 모듈은, 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득 시,
다중 레벨의 제1 컨볼루션 신경망을 통해 인식할 동영상에 대해 특징 추출을 수행하여, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하기 위한 것이며;
상기 파라미터 조정 모듈(702)은, 상기 제1 특징맵에 대한 파라미터 정보 조정을 통해, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득 시,
확정된 조정 후의 파라미터, 및 각 레벨의 제1 컨볼루션 신경망에서 출력된 상기 제1 특징맵의 파라미터 정보를 바탕으로, 상기 레벨의 제1 컨볼루션 신경망에 대응되는 제2 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하고;
확정된 네트워크 파라미터 정보를 휴대한 상기 각 레벨의 제2 컨볼루션 신경망을 바탕으로, 상기 레벨의 제2 컨볼루션 신경망에 대응되는 제1 컨볼루션 신경망에서 출력된 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제2 컨볼루션 신경망에서 출력된 상기 제2 특징맵을 획득하기 위한 것이다.
일종의 가능한 구현방식에서, 상기 특징 추출 모듈은, 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득 시,
다중 레벨의 제1 컨볼루션 신경망이 인식할 동영상에 대해 특징 추출을 수행함으로써, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하기 위한 것이며;
상기 시간 차원 조정 모듈(703)은, 각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득 시,
상이한 레벨의 제1 컨볼루션 신경망 사이의 시간 차원 값의 비율, 및 각 레벨의 제1 컨볼루션 신경망에 대응되는 제2 특징맵의 시간 차원 값을 바탕으로, 각 레벨의 제1 컨볼루션 신경망이 각각 대응되는 제3 특징맵의 시간 차원 값을 확정하고;
확정된 각 레벨의 제1 컨볼루션 신경망에 각각 대응되는 제3 특징맵의 시간 차원 값, 및 각 레벨의 제1 컨볼루션 신경망에 대응되는 제2 특징맵의 시간 차원 값을 바탕으로, 상기 레벨의 제1 컨볼루션 신경망에 대응되는 제3 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하며;
확정된 네트워크 파라미터 정보를 휴대한 각 레벨의 제3 컨볼루션 신경망을 바탕으로, 상기 레벨의 제3 컨볼루션 신경망에 대응되는 제2 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제3 컨볼루션 신경망에서 출력된 제3 특징맵을 획득하기 위한 것이다.
일종의 가능한 실시방식에서, 상기 확정 모듈(704)은, 상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정 시,
각 레벨의 제2 특징맵에 대응되는 제3 특징맵에 대해 융합 처리를 수행하여, 융합 후의 제4 특징맵을 획득하고;
제4 특징맵을 바탕으로, 인식할 동영상 중의 동작 정보를 확정하기 위한 것이다.
일종의 가능한 실시방식에서, 상기 확정 모듈(704)은, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵에 대해 융합 처리를 수행하여, 융합 후의 제4 특징맵을 획득 시,
설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 상기 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하고;
매 회 융합 후의 중간 특징맵을 바탕으로, 상기 제4 특징맵을 획득하기 위한 것이다.
일종의 가능한 실시방식에서, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 제1 레벨의 제3 특징맵 내지 제N 레벨의 제3 특징맵으로 삼으며, 여기서 제N 레벨의 제3 특징맵의 시간 차원 값은 제N-1레벨의 제3 특징맵의 시간 차원 값보다 크고, N은 1보다 큰 양의 정수이며, 즉 상기 확정 모듈(704)은, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득 시,
제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제1 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵을 획득된 중간 특징맵을 삼거나; 또는,
제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제N 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵을 획득된 중간 특징맵을 삼거나; 또는,
제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 제3 특징맵을 융합 처리하여, 각각 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 획득하며, 각각 제1 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵에 대해 컨볼루션 처리를 수행하여, 제1 레벨의 융합 특징맵 내지 제N 레벨의 융합 특징맵을 획득하며, 여기서, 각 레벨의 융합 특징맵의 파라미터 정보는 컨볼루션 처리 전에 대응되는 특징맵의 파라미터 정보와 동일하며; 제N 레벨의 융합 특징맵으로부터 제1 레벨의 융합 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 융합 특징맵에 대해 융합 처리를 수행하여, 제N 레벨의 융합 특징맵으로부터 제1 레벨의 융합 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 각각 획득하여, 매 회 융합 후의 특징맵 및 제N 레벨의 융합 특징맵을 획득된 중간 특징맵으로 삼거나;
제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제1 레벨의 제3 특징맵 및 제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을 획득된 제1 중간 특징맵으로 삼으며, 제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 제3 특징맵에 대해 융합 처리를 수행하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제N 레벨의 제3 특징맵 및 제N 레벨의 제3 특징맵으로부터 제1 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을 획득된 제2 중간 특징맵으로 삼으며; 제1 중간 특징맵과 제2 중간 특징맵을 획득된 중간 특징맵으로 삼기 위한 것이다.
일종의 가능한 실시방식에서, 상기 확정 모듈(704)은, 매 회 융합 후의 중간 특징맵을 바탕으로, 상기 제4 특징맵을 획득 시,
매 회 융합 후의 중간 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 중간 특징맵에 대응되는 제5 특징맵을 획득하고; 여기서, 각 중간 특징맵에 대응되는 제5 특징맵의 시간 차원 값은 동일하며;
각 중간 특징맵에 대응되는 제5 특징맵을 병합하여, 상기 제4 특징맵을 획득하기 위한 것이다.
일부 실시예에서, 본 발명의 실시예가 제공하는 장치에 구비된 기능 또는 포함된 탬플릿은 상기 방법 실시예에 기재된 방법을 실행하는데 사용될 수 있으며, 그 구체적인 구현은 상기 방법 실시예의 기재를 참조할 수 있으므로, 간결함을 위해 여기서는 중복 설명을 생략한다.
동일한 기술 구상을 바탕으로, 본 발명의 실시예는 전자 디바이스를 더 제공한다. 도 8을 참조하면, 본 발명의 실시예가 제공하는 전자장치의 구조도로서, 프로세서(801), 메모리(802), 및 버스(803)를 포함한다. 여기서, 메모리(802)는 실행 명령을 저장하기 위한 것으로서, 메모리(8021)와 외부 메모리(8022)를 포함하고; 여기서의 메모리(8021)는 내부 메모리라고도 칭하며, 프로세서(801) 중의 연산 데이터, 및 하드디스크 등 외부 메모리(8022)와 교환되는 데이터를 임시로 저장하기 위한 것이며, 프로세서(801)는 메모리(8021)를 통해 외부 메모리(8022)와 데이터를 교환한다. 전자 디바이스(800)가 실행 시, 프로세서(801)와 메모리(802) 사이는 버스(803)를 통해 통신하며, 프로세서(801)는
인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨 제1 특징맵을 획득하고;
상기 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하며; 여기서 상이한 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하고, 여기서 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하도록 하는 명령을 실행한다.
이밖에, 본 발명의 실시예는 컴퓨터 가독 저장매체를 더 제공하며, 상기 컴퓨터 가독 저장매체에 컴퓨터 프로그램이 저장되어, 상기 컴퓨터 프로그램이 프로세서에 의해 실행 시, 상기 방법 실시예 중의 상기 동작 정보 인식 방법의 단계를 실행한다.
본 발명의 실시예가 제공하는 동작 정보 인식 방법의 컴퓨터 프로그램 제품은, 프로그램 코드가 저장된 컴퓨터 가독 저장매체를 포함하며, 상기 프로그램 코드에 포함되는 명령은 상기 방법 실시예 중의 상기 동작 정보 인식 방법의 단계를 실행하기 위한 것일 수 있으며, 구체적으로는 상기 방법 실시예를 참고하면 되므로, 여기서는 중복 설명을 생략한다.
당업자라면 기재의 편의와 간결함을 위해, 상기 기재된 시스템과 장치의 구체적인 작동 과정은 전술한 방법 실시예 중의 해당 과정을 참고할 수 있음을 분명하게 이해할 수 있을 것이므로, 여기서는 중복 설명을 생략한다. 본 발명이 제공하는 일부 실시예에 공개된 시스템, 장치와 방법은 기타 방식을 통해 구현될 수 있음을 이해하여야 한다. 이상의 장치 실시예는 단지 설명적인 것일 뿐, 예를 들어 유닛의 구분은 단지 논리 기능의 구분일 뿐이며, 실제 구현할 경우 별도의 구분 방식이 있을 수 있다. 또한, 예를 들어, 다수의 유닛 또는 어셈블리는 결합되거나 또는 다른 시스템에 집적되거나, 또는 일부 특징이 생략되거나 또는 실행되지 않을 수 있다. 또한, 표시하거나 토론한 상호 간의 결합은 직접적인 결합 또는 통신 연결이거나, 일부 통신 인터페이스, 장치 또는 유닛을 통한 간접 결합 또는 통신 연결일 수 있고, 전기적, 기계적 또는 기타 형식일 수 있다.
상기 분리 부재로서 설명한 유닛은 물리적으로 분리된 것일 수도 있고 아닐 수도 있으며, 유닛으로서 표시된 부재는 물리 유닛일 수도 있고 아닐 수도 있으며, 즉 한 곳에 위치할 수도 있고, 또는 다수의 네트워크 유닛에 분포될 수도 있다. 실제 필요에 따라 그 중의 일부 또는 전체 유닛을 선택하여 본 실시예의 방안의 목적을 구현할 수 있다.
또한, 본 발명의 각 실시예 중의 각 기능 유닛은 하나의 처리유닛에 집적될 수도 있고, 각 유닛이 단독으로 물리적으로 존재할 수도 있으며, 2개 또는 2개 이상의 유닛이 하나의 유닛에 집적될 수도 있다.
상기 기능이 소프트웨어 기능 유닛의 형식으로 구현되어 독립된 제품으로 판매되거나 또는 사용되는 경우, 프로세서가 실행 가능한 비휘발성 컴퓨터 가독 저장 매체에 저장될 수 있다. 이러한 이해를 기반으로, 본 발명의 기술방안은 본질적으로 또는 종래 기술에 기여하는 부분 또는 상기 기술 방안의 일부가 소프트웨어 제품 형식으로 구현되며, 상기 컴퓨터 소프트웨어 제품은 하나의 저장매체에 저장되고, 컴퓨터 장치(개인용 컴퓨터, 서버, 또는 네트워크 장치 등일 수 있다)가 본 발명의 각 실시예의 상기 방법의 전부 또는 일부 단계를 실행하도록 하기 위한 약간의 명령을 포함한다. 전술한 저장매체는 U 디스크, 이동식 하드디스크, 리드 온리 메모리(Read-Only Memory, ROM), 랜덤액세스 메모리(Random Access Memory, RAM), 자기디스크 또는 광디스크 등 프로그램 코드를 저장할 수 있는 각종 매체를 포함한다.
이상의 설명은 단지 본 발명의 구체적인 실시방식일 뿐, 본 발명의 보호범위는 이에 국한되지 않으며, 본 기술 분야를 숙지하는 기술자가 본 발명이 공개하는 기술 범위 내에서, 용이하게 생각해낼 수 있는 변화 또는 교체는 모두 본 발명의 보호범위 내에 포함되어야 한다. 따라서, 본 발명의 보호범위는 상기 청구항의 보호범위를 기준으로 하여야 한다.

Claims (12)

  1. 동작 정보 인식 방법에 있어서,
    인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하는 단계;
    상기 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계; 여기서 각기 다른 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
    각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 단계; 여기서 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
    상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  2. 제1항에 있어서,
    상기 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계는,
    상기 각 레벨의 제1 특징맵에 대응되는 파라미터 정보 중 크기가 가장 작은 제1 특징맵을 확정하고, 상기 크기가 가장 작은 제1 특징맵을 제외한 기타 제1 특징맵을 상기 크기가 가장 작은 제1 특징맵과 동일한 파라미터 정보의 특징맵으로 조정하여, 상기 크기가 가장 작은 제1 특징맵, 및 조정 후 상기 크기가 가장 작은 제1 특징맵과 동일해진 파라미터 정보의 특징맵을 상기 제2 특징맵으로 삼거나; 또는
    상기 각 레벨의 제1 특징맵을 사전 설정 파라미터 정보 하의 특징맵으로 조정하여, 상기 사전 설정 파라미터 정보 하의 특징맵을 상기 제2 특징맵으로 삼는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  3. 제1항에 있어서,
    상기 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하는 단계는,
    다중 레벨의 제1 컨볼루션 네트워크를 통해 인식할 동영상에 대해 특징 추출을 수행하여, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하는 단계를 포함하고;
    상기 제1 특징맵에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하는 단계는,
    확정된 조정 후의 파라미터 정보, 및 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵의 파라미터 정보를 바탕으로, 상기 레벨의 제1 컨볼루션 신경망에 대응되는 제2 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하는 단계;
    확정된 네트워크 파라미터 정보를 휴대한 상기 각 레벨의 제2 컨볼루션 신경망을 바탕으로, 상기 레벨의 제2 컨볼루션 신경망에 대응되는 제1 컨볼루션 신경망에서 출력된 제1 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제2 컨볼루션 신경망에서 출력된 제2 특징맵을 획득하는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  4. 제1항 내지 제3항 중의 어느 한 항에 있어서,
    상기 인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하는 단계는,
    다중 레벨의 제1 컨볼루션 네트워크를 통해 인식할 동영상에 대해 특징 추출을 수행하여, 각 레벨의 제1 컨볼루션 신경망에서 출력된 제1 특징맵을 획득하는 단계를 포함하고;
    각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하는 단계는,
    각기 다른 레벨의 제1 컨볼루션 신경망 사이의 시간 차원 값의 비율, 및 각 레벨의 제1 컨볼루션 신경망에 대응되는 상기 제2 특징맵의 시간 차원 값을 바탕으로, 각 레벨의 제1 컨볼루션 신경망이 각각 대응되는 제3 특징맵의 시간 차원 값을 확정하는 단계;
    확정된 각 레벨의 제1 컨볼루션 신경망에 각각 대응되는 제3 특징맵의 시간 차원 값, 및 각 레벨의 제1 컨볼루션 신경망에 대응되는 상기 제2 특징맵의 시간 차원 값을 바탕으로, 상기 레벨의 제1 컨볼루션 신경망에 대응되는 제3 컨볼루션 신경망의 네트워크 파라미터 정보를 확정하는 단계;
    확정된 네트워크 파라미터 정보를 휴대한 각 레벨의 제3 컨볼루션 신경망을 바탕으로, 상기 레벨의 제3 컨볼루션 신경망에 대응되는 제2 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 레벨의 제3 컨볼루션 신경망에서 출력된 상기 제3 특징맵을 획득하는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  5. 제1항에 있어서,
    상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하는 단계는,
    각 레벨의 제2 특징맵에 대응되는 상기 제3 특징맵에 대해 융합 처리를 수행하여, 융합 후의 제4 특징맵을 획득하는 단계;
    상기 제4 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  6. 제5항에 있어서,
    각 레벨의 제2 특징맵에 대응되는 상기 제3 특징맵에 대해 융합 처리를 수행하여 융합 후의 제4 특징맵을 획득하는 단계는,
    설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 상기 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 단계;
    매 회 융합 후의 중간 특징맵을 바탕으로, 상기 제4 특징맵을 획득하는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  7. 제6항에 있어서,
    각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 제1 레벨의 제3 특징맵 내지 제N 레벨의 제3 특징맵으로 삼으며, 여기서 제N 레벨의 제3 특징맵의 시간 차원 값은 제N-1 레벨의 제3 특징맵의 시간 차원 값보다 크고, N은 1보다 큰 양의 정수이며, 설정된 융합 순서에 따라, 각 레벨의 제2 특징맵에 대응되는 상기 제3 특징맵을 순차적으로 융합 처리하여, 매 회 융합 후의 중간 특징맵을 획득하는 방법은
    제1 레벨의 제3 특징맵으로부터 상기 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 상기 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제1 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵을 획득된 상기 중간 특징맵으로 삼거나; 또는
    제N 레벨의 제3 특징맵으로부터 상기 제1 레벨의 제3 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 상기 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제N 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵을 획득된 상기 중간 특징맵으로 삼거나; 또는
    제1 레벨의 제3 특징맵으로부터 상기 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 상기 제3 특징맵을 융합 처리하여, 각각 제1 레벨의 제3 특징맵으로부터 상기 제N 레벨의 제3 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 획득하고, 각각 제1 레벨의 제3 특징맵 및 매 회 융합 후의 특징맵에 대해 컨볼루션 처리를 수행하여, 제1 레벨의 융합 특징맵 내지 제N 레벨의 융합 특징맵을 획득하며, 여기서, 각 레벨의 융합 특징맵의 파라미터 정보는 컨볼루션 처리 전에 대응되는 특징맵의 파라미터 정보와 동일하며; 제N 레벨의 융합 특징맵으로부터 상기 제1 레벨의 융합 특징맵으로의 융합 순서에 따라, 순차적으로 각 레벨의 상기 융합 특징맵에 대해 융합 처리를 수행하여, 제N 레벨의 융합 특징맵으로부터 상기 제1 레벨의 융합 특징맵으로 융합 처리 시 매 회 융합 후의 특징맵을 각각 획득하여, 매 회 융합 후의 특징맵 및 제N 레벨의 융합 특징맵을 획득된 상기 중간 특징맵으로 삼거나; 또는
    제1 레벨의 제3 특징맵으로부터 제N 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 상기 제3 특징맵을 융합 처리하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제1 레벨의 제3 특징맵 및 제1 레벨의 제3 특징맵으로부터 상기 제N 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을 획득된 제1 중간 특징맵으로 삼으며, 제N 레벨의 제3 특징맵으로부터 상기 제1 레벨의 제3 특징맵으로의 융합 순서에 따라, 각 레벨의 상기 제3 특징맵에 대해 융합 처리를 수행하여, 매 회 융합 후의 특징맵을 각각 획득하고, 제N 레벨의 제3 특징맵 및 제N 레벨의 제3 특징맵으로부터 상기 제1 레벨의 제3 특징맵으로 융합 처리를 수행 시 매 회 융합 후의 특징맵을 획득된 제2 중간 특징맵으로 삼으며; 상기 제1 중간 특징맵과 상기 제2 중간 특징맵을 획득된 상기 중간 특징맵으로 삼는 방식;을 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 매 회 융합 후의 중간 특징맵을 바탕으로, 제4 특징맵을 획득하는 단계는,
    매 회 융합 후의 중간 특징맵에 대해 컨볼루션 처리를 수행하여, 상기 중간 특징맵에 대응되는 제5 특징맵을 획득하는 단계; 여기서, 각각의 중간 특징맵에 대응되는 제5 특징맵의 시간 차원 값은 동일하다;
    각 중간 특징맵에 대응되는 제5 특징맵을 병합하여, 상기 제4 특징맵을 획득하는 단계;를 포함하는 것을 특징으로 하는 동작 정보 인식 방법.
  9. 동작 정보 인식 장치에 있어서,
    인식할 동영상에 대해 특징 추출을 수행하여 다중 레벨의 제1 특징맵을 획득하기 위한 특징 추출 모듈;
    상기 제1 특징에 대해 파라미터 정보 조정을 수행하여, 각 레벨의 제1 특징맵에 대응되는 제2 특징맵을 획득하기 위한 파라미터 조정 모듈; 여기서, 상이한 레벨의 제1 특징맵에 대응되는 제2 특징맵의 파라미터 정보는 동일하며;
    각 레벨의 제2 특징맵의 파라미터 정보를 각각 조정하여, 각 레벨의 제2 특징맵에 대응되는 제3 특징맵을 획득하기 위한 시간 차원 조정 모듈; 여기서 각 레벨의 제3 특징맵의 시간 차원 값의 비율은 사전 설정 비율과 일치하며;
    상기 제3 특징맵을 바탕으로, 상기 인식할 동영상 중의 동작 정보를 확정하기 위한 확정 모듈;을 포함하는 것을 특징으로 하는 동작 정보 인식 장치.
  10. 전자 디바이스에 있어서,
    프로세서, 메모리 및 버스를 포함하고, 상기 메모리에 상기 프로세서가 실행 가능한 머신 가독 명령이 저장되어, 전자 디바이스를 실행 시, 상기 프로세서와 상기 저장매체 사이는 버스를 통하여 통신하며, 상기 프로세서는 상기 머신 가독 명령을 실행하여, 제1항 내지 제8항 중의 어느 한 항에 따른 방법의 단계를 실행하는 것을 특징으로 하는 전자 디바이스.
  11. 컴퓨터 가독 저장매체에 있어서,
    상기 컴퓨터 가독 저장매체에 컴퓨터 프로그램이 저장되어, 상기 컴퓨터 프로그램이 프로세서에 의해 실행 시, 제1항 내지 제8항 중의 어느 한 항에 따른 방법의 단계를 실행하는 것을 특징으로 하는 컴퓨터 가독 저장매체.
  12. 컴퓨터 프로그램 제품에 있어서,
    상기 컴퓨터 프로그램 제품은 프로그램 명령을 포함하여, 상기 프로그램 명령이 프로세서에 의해 실행 시, 제1항 내지 제8항 중의 어느 한 항에 따른 방법의 단계를 실행하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020227008074A 2020-02-28 2020-12-31 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체 KR20220042467A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010128428.XA CN111353428B (zh) 2020-02-28 2020-02-28 动作信息识别方法、装置、电子设备及存储介质
CN202010128428.X 2020-02-28
PCT/CN2020/142510 WO2021169604A1 (zh) 2020-02-28 2020-12-31 动作信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
KR20220042467A true KR20220042467A (ko) 2022-04-05

Family

ID=71195824

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227008074A KR20220042467A (ko) 2020-02-28 2020-12-31 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체

Country Status (4)

Country Link
JP (1) JP2022525723A (ko)
KR (1) KR20220042467A (ko)
CN (1) CN111353428B (ko)
WO (1) WO2021169604A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353428B (zh) * 2020-02-28 2022-05-24 北京市商汤科技开发有限公司 动作信息识别方法、装置、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110304541A1 (en) * 2010-06-11 2011-12-15 Navneet Dalal Method and system for detecting gestures
US11144761B2 (en) * 2016-04-04 2021-10-12 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN108875931B (zh) * 2017-12-06 2022-06-21 北京旷视科技有限公司 神经网络训练及图像处理方法、装置、系统
CN108710847B (zh) * 2018-05-15 2020-11-27 北京旷视科技有限公司 场景识别方法、装置及电子设备
CN109086690B (zh) * 2018-07-13 2021-06-22 北京旷视科技有限公司 图像特征提取方法、目标识别方法及对应装置
CN109165562B (zh) * 2018-07-27 2021-06-04 深圳市商汤科技有限公司 神经网络的训练方法、横向控制方法、装置、设备及介质
CN109697434B (zh) * 2019-01-07 2021-01-08 腾讯科技(深圳)有限公司 一种行为识别方法、装置和存储介质
CN110324664B (zh) * 2019-07-11 2021-06-04 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN110533119B (zh) * 2019-09-04 2022-12-27 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子系统
CN110633700B (zh) * 2019-10-21 2022-03-25 深圳市商汤科技有限公司 视频处理方法及装置、电子设备和存储介质
CN111353428B (zh) * 2020-02-28 2022-05-24 北京市商汤科技开发有限公司 动作信息识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2022525723A (ja) 2022-05-19
CN111353428B (zh) 2022-05-24
CN111353428A (zh) 2020-06-30
WO2021169604A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
US11423695B2 (en) Face location tracking method, apparatus, and electronic device
CN111598026B (zh) 动作识别方法、装置、设备及存储介质
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
US11983926B2 (en) Video content recognition method and apparatus, storage medium, and computer device
CN110472516B (zh) 一种人物图像识别系统的构建方法、装置、设备及系统
US20200012887A1 (en) Attribute recognition apparatus and method, and storage medium
KR102476022B1 (ko) 얼굴검출 방법 및 그 장치
Wang et al. Neural video depth stabilizer
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN110309795A (zh) 视频检测方法、装置、电子设备及存储介质
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN112818955A (zh) 一种图像分割方法、装置、计算机设备以及存储介质
Wang et al. Less is more: Consistent video depth estimation with masked frames modeling
Li et al. Learning to fuse monocular and multi-view cues for multi-frame depth estimation in dynamic scenes
CN114359775A (zh) 关键帧检测方法、装置、设备及存储介质、程序产品
Roberto e Souza et al. Survey on digital video stabilization: Concepts, methods, and challenges
CN110096617A (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
JP2024511171A (ja) 動作認識の方法および装置
CN116757923A (zh) 一种图像生成方法、装置、电子设备及存储介质
US20210044864A1 (en) Method and apparatus for identifying video content based on biometric features of characters
KR20220042467A (ko) 동작 정보 인식 방법, 장치, 전자 디바이스 및 저장매체
CN111160251A (zh) 一种活体识别方法及装置
CN116030077B (zh) 基于多数据集协作学习的视频显著性区域检测方法
JP2017182210A (ja) 顔検出装置、顔検出方法及び顔認識システム
CN114299074A (zh) 一种视频分割方法、装置、设备及存储介质