KR20220122735A - 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체 - Google Patents

동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220122735A
KR20220122735A KR1020227026434A KR20227026434A KR20220122735A KR 20220122735 A KR20220122735 A KR 20220122735A KR 1020227026434 A KR1020227026434 A KR 1020227026434A KR 20227026434 A KR20227026434 A KR 20227026434A KR 20220122735 A KR20220122735 A KR 20220122735A
Authority
KR
South Korea
Prior art keywords
motion detection
feature
image
target object
target
Prior art date
Application number
KR1020227026434A
Other languages
English (en)
Inventor
페이 왕
첸 퀴안
Original Assignee
상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20220122735A publication Critical patent/KR20220122735A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 발명의 실시예는 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체를 개시하고, 상기 방법은, 제1 이미지를 획득하는 단계; 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 단계; 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 복수 개의 제1 동작 검출 결과를 얻는 단계 - 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이함 - ; 및 다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정하는 단계를 포함한다.

Description

동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체
관련 출원의 상호 참조
본 발명은 출원번호가 202010755553.3이고, 출원일이 2020년 07월 31일인 중국 특허 출원을 기반으로 제출되고, 해당 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 컴퓨터 시각 기술 분야에 관한 것으로, 구체적으로 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체에 관한 것이다.
현재 인터넷 교육 산업은 빠르게 발전되고 있어, 학생과 교사에게 편리하고 쾌적한 수업 환경을 제공한다. 교실에서의 인터랙션 스마트화는 현재 인터넷 교육의 중요한 방향이다. 교실에서의 인터랙션 스마트화는 주로 학생의 동작 인식과 표정 인식을 기반으로 하는 스마트화를 포함한다. 그러나 기존의 인터넷 교육은 주로 전자벨 등 방식으로 학생과 교사의 상호 작용을 완료하므로, 학생의 상태를 구별하기 어렵고 체험이 제한된다.
본 발명의 실시예는 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체를 적어도 제공한다.
제1 측면에서, 본 발명의 실시예는, 제1 이미지를 획득하는 단계; 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 단계; 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 복수 개의 제1 동작 검출 결과를 얻는 단계 - 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이함 - ; 및 다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정하는 단계를 포함하는 동작 인식 방법을 제공한다.
이로써, 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여 학생의 동작을 인식하고, 여기서 상이한 동작 검출 분기는 상이한 동작 유형을 검출할 수 있으므로, 한 번의 검출 처리 과정을 통해 학생이 다양한 동작 중 각 동작을 취하는 검출 결과를 얻을 수 있어, 학생의 동작을 전면적이고 정확하게 인식할 수 있다.
일 선택 가능한 실시형태에서, 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 단계는, 상기 제1 이미지에 대해 특징 추출 처리를 수행하여, 상기 제1 이미지의 제1 특징맵을 얻는 단계 - 상기 제1 특징맵은 다수의 특징 채널에 각각 대응되는 특징 서브맵을 포함하고, 상이한 상기 특징 서브맵에 포함되는 특징은 상이함 - ; 다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하고; 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보 및 상기 다수의 특징 서브맵 중의 제2 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 제1 크기 정보를 결정하는 단계; 및 상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계를 포함한다.
이로써, 제1 이미지로부터 목표 객체가 포함된 목표 이미지 영역을 정확하게 결정해낼 수 있다.
일 선택 가능한 실시형태에서, 상기 다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하는 단계는, 기설정된 풀링 크기 및 풀링 보폭 길이에 따라, 상기 제1 특징 서브맵에 대해 최대 풀링 처리를 수행하여, 다수의 풀링 값 및 다수의 상기 풀링 값 중의 각각의 풀링 값에 대응되는 위치 인덱스를 얻는 단계 - 상기 위치 인덱스는 상기 제1 특징 서브맵에서의 상기 풀링 값의 위치를 식별하기 위한 것임 - ; 상기 각각의 풀링 값 및 제1 임계값에 기반하여, 다수의 상기 풀링 값으로부터 상기 중심점에 속하는 목표 풀링 값을 결정하는 단계; 및 상기 목표 풀링 값에 대응되는 위치 인덱스에 기반하여, 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보를 결정하는 단계를 포함한다.
이로써, 제1 특징 서브맵에 대해 최대 풀링 처리를 수행하여, 다수의 풀링 값으로부터 목표 객체의 중심점에 속하는 목표 풀링 값을 보다 정확하게 결정할 수 있음으로써, 목표 객체의 위치를 제1 이미지로부터 보다 정확하게 결정해낼 수 있다.
일 선택 가능한 실시형태에서, 상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계는, 상기 제1 좌표 정보, 상기 제1 크기 정보 및 상기 제1 특징맵 중의 제1 특징점과 상기 제1 이미지 중 각 픽셀점 사이의 위치 맵핑 관계에 기반하여, 상기 제1 이미지에서의 상기 중심점의 제2 좌표 정보 및 상기 제1 이미지에서의 상기 목표 객체의 제2 크기 정보를 결정하는 단계; 및 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계를 포함한다.
일 선택 가능한 실시형태에서, 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계는, 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 제1 이미지로부터 상기 목표 객체를 포함하는 제1 영역 범위를 결정하는 단계; 상기 목표 객체를 포함하는 제1 영역 범위에 기반하여, 상기 목표 객체를 포함하는 제2 영역 범위를 결정하는 단계 - 상기 제2 영역 범위는 상기 제1 영역 범위보다 크고, 상기 제2 영역 범위는 상기 제1 영역 범위를 포함함 - ; 및 상기 제2 영역 범위에 기반하여, 상기 제1 이미지로부터 상기 목표 이미지 영역을 결정하는 단계를 포함한다.
이로써, 제1 영역 범위를 확장하여 제2 영역 범위를 얻음으로써, 목표 객체를 더욱 완전하게 포함할 수 있어, 목표 이미지 영역에 기반하여 목표 객체가 취한 동작을 검출할 경우, 보다 정확한 검출 결과를 얻을 수 있다.
일 선택 가능한 실시형태에서, 상기 동작 검출 네트워크는 특징 추출 네트워크 및 상기 특징 추출 네트워크에 연결되는 다수의 동작 검출 분기 네트워크를 포함하고; 상기 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 다양한 제1 동작 검출 결과를 얻는 단계는, 상기 특징 추출 네트워크를 이용하여 상기 목표 이미지 영역에 대해 특징 추출 처리를 수행하여, 상기 목표 이미지 영역의 제2 특징맵을 얻는 단계; 및 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻는 단계를 포함한다.
이로써, 다수의 동작 검출 분기 네트워크를 이용하여 목표 이미지 영역의 제2 특징맵에 대해 동작 검출 처리를 각각 수행함으로써, 각각의 목표 객체의 목표 이미지 영역에 대해 다양한 동작 유형의 검출을 수행하여, 각각의 목표 객체가 보다 전면적인 동작 검출 결과를 얻는다.
일 선택 가능한 실시형태에서, 상기 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻는 단계는, 다수의 동작 검출 분기 네트워크 중의 각각의 동작 검출 분기 네트워크에 대해, 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 목표 객체가 상기 동작 검출 분기 네트워크에 의해 검출된 동작 유형을 취하는 확률을 얻는 단계; 및 상기 확률 및 미리 결정된 제2 임계값에 기반하여, 상기 동작 검출 분기 네트워크에 대응되는 제1 동작 검출 결과를 결정하는 단계를 포함한다.
제2 측면에서, 본 발명의 실시예는, 제1 이미지를 획득하도록 구성되는 획득 모듈; 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하도록 구성되는 인식 모듈; 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 다양한 제1 동작 검출 결과를 얻도록 구성되는 검출 모듈 - 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이함 - ; 및 다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정하도록 구성되는 결정 모듈을 포함하는 동작 인식 장치를 더 제공한다.
일 선택 가능한 실시형태에서, 상기 인식 모듈은, 상기 제1 이미지에 대해 특징 추출 처리를 수행하여, 상기 제1 이미지의 제1 특징맵을 얻으며 - 상기 제1 특징맵은 다수의 특징 채널에 각각 대응되는 특징 서브맵을 포함하고, 상이한 상기 특징 서브맵에 포함되는 특징은 상이함 - ; 다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하고; 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보 및 상기 다수의 특징 서브맵 중의 제2 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 제1 크기 정보를 결정하며; 상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈은, 기설정된 풀링 크기 및 풀링 보폭 길이에 따라, 상기 제1 특징 서브맵에 대해 최대 풀링 처리를 수행하여, 다수의 풀링 값 및 다수의 상기 풀링 값 중의 각각의 풀링 값에 대응되는 위치 인덱스를 얻으며 - 상기 위치 인덱스는 상기 제1 특징 서브맵에서의 상기 풀링 값의 위치를 식별하기 위한 것임 - ; 상기 각각의 풀링 값 및 제1 임계값에 기반하여, 다수의 상기 풀링 값으로부터 상기 중심점에 속하는 목표 풀링 값을 결정하며; 상기 목표 풀링 값에 대응되는 위치 인덱스에 기반하여, 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보를 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈은, 상기 제1 좌표 정보, 상기 제1 크기 정보 및 상기 제1 특징맵 중의 제1 특징점과 상기 제1 이미지 중 각 픽셀점 사이의 위치 맵핑 관계에 기반하여, 상기 제1 이미지에서의 상기 중심점의 제2 좌표 정보 및 상기 제1 이미지에서의 상기 목표 객체의 제2 크기 정보를 결정하고; 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈은, 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 제1 이미지로부터 상기 목표 객체를 포함하는 제1 영역 범위를 결정하고; 상기 목표 객체를 포함하는 제1 영역 범위에 기반하여, 상기 목표 객체를 포함하는 제2 영역 범위를 결정하며 - 상기 제2 영역 범위는 상기 제1 영역 범위를 포함함 - ; 상기 제2 영역 범위에 기반하여, 상기 제1 이미지로부터 상기 목표 이미지 영역을 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 동작 검출 네트워크는 특징 추출 네트워크 및 상기 특징 추출 네트워크에 연결되는 다수의 동작 검출 분기 네트워크를 포함하고; 상기 검출 모듈은, 상기 특징 추출 네트워크를 이용하여 상기 목표 이미지 영역에 대해 특징 추출 처리를 수행하여, 상기 목표 이미지 영역의 제2 특징맵을 얻고; 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻도록 구성된다.
일 선택 가능한 실시형태에서, 상기 검출 모듈은, 다수의 동작 검출 분기 네트워크 중의 각각의 동작 검출 분기 네트워크에 대해, 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 목표 객체가 상기 동작 검출 분기 네트워크에 의해 검출된 동작 유형을 취하는 확률을 얻고; 상기 확률 및 미리 결정된 제2 임계값에 기반하여, 상기 동작 검출 분기 네트워크에 대응되는 제1 동작 검출 결과를 결정하도록 구성된다.
제3 측면에서, 본 발명의 선택 가능한 구현형태는 프로세서 및 메모리를 포함하는 컴퓨터 기기를 더 제공하며, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령어가 저장되고, 상기 프로세서는 상기 메모리에 저장된 기계 판독 가능 명령어를 실행하며, 상기 기계 판독 가능 명령어가 상기 프로세서에 의해 실행될 경우, 상기 제1 측면 또는 제1 측면 중 어느 한 가능한 실시형태의 단계가 수행된다.
제4 측면에서, 본 발명의 선택 가능한 구현형태는 컴퓨터 판독 가능 저장 매체를 더 제공하며, 상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 실행될 경우, 상기 제1 측면, 또는 제1 측면 중 어느 한 선택 가능한 실시형태의 단계가 수행된다.
제5 측면에서, 본 발명의 선택 가능한 구현형태는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램은 컴퓨터로 하여금 상기 제1 측면, 또는 제1 측면 중 어느 한 선택 가능한 실시형태의 단계를 수행하도록 한다.
본 발명의 상기 목적, 특징 및 장점이 보다 명확하고 이해되기 쉽도록 하기 위해, 아래에서는 바람직한 실시예를 첨부된 도면과 함께 상세하게 설명한다.
본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위해, 아래에서는 실시예에서 사용되어야 하는 도면을 간단히 소개하며, 여기서의 도면은 명세서에 포함되어 명세서의 일부분을 구성하고, 이러한 도면은 본 발명에 부합되는 실시예를 도시하며, 명세서와 함께 본 발명의 실시예의 기술적 해결수단을 설명한다. 이하, 도면은 본 발명의 일부 실시예를 도시하였을 뿐이므로, 범위를 제한하는 것으로 간주되어서는 아니되며, 본 기술분야의 통상의 기술자라면 진보성 창출에 힘쓰지 않은 전제 하에 이러한 도면에 따라 다른 관련되는 도면을 획득할 수도 있음을 이해해야 한다.
도 1은 본 발명의 실시예에서 제공되는 동작 인식 방법의 흐름도를 도시한다.
도 2는 본 발명의 실시예에서 제공되는 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 구체적인 방법의 흐름도를 도시한다.
도 3은 본 발명의 실시예에서 제공되는 동작 인식 네트워크의 구조의 모식도를 도시한다.
도 4는 본 발명의 실시예에서 제공되는 동작 인식 장치의 모식도를 도시한다.
도 5는 본 발명의 실시예에서 제공되는 컴퓨터 기기의 모식도를 도시한다.
본 발명의 실시예의 목적, 기술적 해결수단 및 장점을 보다 명확하게 하기 위해, 아래에서는 본 발명의 실시예의 도면을 결부하여 본 발명의 실시예의 기술적 해결수단을 명확하고 완전하게 설명하며, 물론, 설명되는 실시예는 본 발명의 일부 실시예일 뿐, 전부의 실시예가 아니다. 일반적으로, 여기서의 도면에서 설명되고 도시되는 본 발명의 실시예의 구성요소는 다양한 상이한 구성으로 배치되고 설계될 수 있다. 따라서, 이하의 도면에서 제공되는 본 발명의 실시예에 대한 상세한 설명은 보호하고자 하는 본 발명의 범위를 제한하려는 것이 아니라, 본 발명의 선택된 실시예를 나타내는 것에 불과하다. 본 발명의 실시예에 기반하여, 본 기술분야의 통상의 기술자가 진보성 창출에 힘쓰지 않은 전제 하에 획득한 모든 다른 실시예들은 모두 본 발명의 보호범위에 포함된다.
연구에 따르면, 컴퓨터 비전에 기반한 교실에서의 학생 동작 인식은 주로 인체 검출, 추적과 동작 분류 기술을 통해, 일어서기, 손 들기, 책상에 눕기 등과 같은 행동을 포함하는 교실에서의 학생의 동작을 분석하는 것으로 나타났다. 학생의 동작을 분류하고 인식할 경우, 모델 구조의 설계는 일반적으로 다중 분류의 설계이며, 예를 들어, 일어서기, 손 들기, 책상에 눕기의 세 가지 동작의 경우, 하나의 3분류의 신경 네트워크를 통해 학생이 일어서기, 손 들기 및 책상에 눕기의 세 가지 동작 중 각 동작을 취하는 확률을 예측해낸 다음, 확률이 가장 큰 동작을 학생이 취한 동작으로 결정한다. 그러나 실제 교실에서 학생은 동시에 다수의 동작을 취할 수 있으며, 예를 들어, 손 들기 및 일어서기가 동시에 발생되거나, 손 들기 및 책상에 눕기가 동시에 발생된다. 그러나 현재의 검출 방법으로는 학생이 동시에 취한 다양한 동작을 검출할 수 없어, 교실에서의 학생의 동작에 대한 인식이 전면적이지 못한 문제점이 존재한다.
상기 연구에 기반하여, 본 발명의 실시예는 동작 인식 방법을 제공하며, 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여 학생의 동작을 인식하고, 여기서 상이한 동작 검출 분기는 상이한 동작 유형을 검출할 수 있으므로, 한 번의 검출 처리 과정을 통해 학생이 다양한 동작 중 각 동작을 취하는 검출 결과를 얻을 수 있어, 학생의 동작을 전면적이고 정확하게 인식할 수 있다.
상기 수단에 존재하는 결함은 모두 발명자가 실천하고 세심한 연구를 거쳐 얻은 결과이므로, 상기 문제점의 발견 과정 및 아래에서 상기 문제점에 대해 제시한 본 발명의 해결수단은 모두 본 발명의 과정에서 본 발명에 기여하는 것으로 간주해야 한다.
유사한 부호 및 문자는 아래의 도면에서 유사한 항목을 나타내므로, 특정 항목이 하나의 도면에서 정의되기만 하면, 후속되는 도면에서는 이에 대해 더이상 정의하고 해석하지 않아도 된다는 점에 유의하여야 한다.
본 실시예에 대한 이해의 편의를 위해, 먼저 본 발명의 실시예에서 공개되는 동작 인식 방법을 상세하게 설명하며, 본 발명의 실시예에서 제공되는 동작 인식 방법의 수행 주체는 일반적으로 동작 인식 기기이고, 상기 동작 인식 기기는 예를 들어 단말 기기 또는 서버 또는 다른 처리 기기를 포함하며, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말기, 단말기, 셀룰러폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 구현형태에서, 상기 동작 인식 방법은 프로세서를 통해 메모리에 저장된 컴퓨터 판독 가능 명령어를 호출하는 방식으로 구현될 수 있다.
아래에서는 수행 주체가 동작 인식 기기인 것을 예로 들어 본 발명의 실시예에서 제공되는 동작 인식 방법을 설명한다. 본 발명의 실시예에서 제공되는 동작 인식 방법은 교실에서의 학생의 동작을 인식할 수 있을 뿐만 아니라, 다양한 동작을 동시에 취하는 다른 동작 검출의 시나리오에도 응용될 수 있다는 점에 유의해야 한다.
도 1을 참조하면, 이는 본 발명의 실시예에서 제공되는 동작 인식 방법의 흐름도이며, 상기 방법은 단계 S101 내지 단계 S104를 포함한다. 여기서,
단계 S101에 있어서, 제1 이미지를 획득한다.
단계 S102에 있어서, 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식한다.
단계 S103에 있어서, 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 복수 개의 제1 동작 검출 결과를 얻고, 여기서, 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이하다.
단계 S104에 있어서, 다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정한다.
본 발명의 실시예에서 제공되는 동작 인식 방법에서, 목표 객체는 예를 들어 사람, 동물, 기계 설비, 차량, 로봇 등 중 어느 하나를 포함한다.
동작 검출 네트워크는 예를 들어 신경 네트워크 모델이다. 예시적으로, 신경 네트워크를 트레이닝한 후, 제1 이미지에 포함된 목표 객체가 취한 동작을 검출할 수 있는 신경 네트워크 모델을 얻는다. 상기 신경 네트워크 모델에는 다수의 동작 검출 분기가 포함되고, 동작 검출 분기는 검출 헤드로도 지칭되며, 동작 검출 네트워크 중의 분기 네트워크이다. 각 검출 헤드는 목표 개체가 특정 유형의 동작을 수행하는 확률을 각각 얻을 수 있다. 상이한 검출 헤드에 의해 검출되는 동작 유형은 상이하다. 각각의 동작 검출 분기에 대응되는 제1 동작 검출 결과는 목표 객체가 대응 동작 검출 분기에 의해 검출된 동작 유형을 수행하는지 여부를 지시할 수 있다. 제2 동작 검출 결과는 목표 객체가 다수의 동작 검출 분기에 의해 각각 검출된 동작 유형을 수행하는지 여부를 지시할 수 있다.
본 발명의 실시예는 제1 이미지를 획득한 후, 제1 이미지에 포함된 목표 객체의 목표 이미지 영역을 인식하고, 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 목표 객체에 대응되는 다양한 제1 동작 검출 결과를 얻은 다음, 다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 목표 객체의 제2 동작 검출 결과를 결정함으로써, 한 번의 검출 처리 과정을 통해, 학생이 다양한 동작 중 각 동작을 취하는 검출 결과를 얻을 수 있어, 학생의 동작을 전면적이고 정확하게 인식할 수 있다.
본 발명의 실시예는 동작 인식 방법을 학생의 동작 검출에 응용하는 것을 예로 들어 상기 단계 S101 내지 단계 S104를 상세하게 설명한다.
I, 상기 단계 S101에서, 상이한 응용 시나리오에 따라, 제1 이미지를 획득하는 방식이 다소 구별된다.
예시적으로, 상기 방법을 교실 시나리오에 응용할 경우, 교사가 강의하는 교실에 동작 인식 기기를 설치할 수 있고, 상기 동작 인식 기기는 예를 들어 단말 기기이다. 동작 인식 기기는 강의하는 교실에 장착된 카메라를 통해 학생이 수업받을 때의 제1 이미지를 실시간으로 획득할 수 있다. 또는 동작 인식 기기에는 카메라가 설치되고, 동작 인식 기기는 자체에 설치된 카메라를 통해 학생이 수업받을 때의 제1 이미지를 획득할 수 있다.
네트워크 교실 시나리오에서, 동작 인식 기기는 예를 들어 교사 단말기, 학생 단말기, 또는 서버이다. 동작 인식 기기가 교사 단말기일 경우, 학생 단말기에는 카메라가 연결되고, 학생 단말기는 카메라를 통해 학생이 포함되어 있는 제1 이미지를 캡처하며, 상기 제1 이미지를 교사 단말기에 송신하고, 교사 단말기는 학생 단말기에 의해 송신된 제1 이미지를 수신하며, 상기 제1 이미지에 기반하여 학생이 취한 동작을 검출한다. 동작 인식 기기가 학생 단말기일 경우, 학생 단말기에는 카메라가 연결되고, 학생 단말기는 연결된 카메라를 통해 학생이 포함되어 있는 제1 이미지를 획득하며, 제1 이미지에 기반하여 학생이 취한 동작을 검출한 다음, 검출 결과를 교사 단말기에 송신함으로써, 교사로 하여금 교사 단말기를 통해 학생이 취한 동작을 실시간으로 획득할 수 있도록 한다. 동작 인식 기기가 서버일 경우, 서버는 학생 단말기에 의해 송신된 제1 이미지를 수신하고, 제1 이미지에 기반하여 학생이 취한 동작을 검출한 다음, 검출 결과를 교사 단말기에 송신한다.
II, 상기 단계 S102에서, 획득한 제1 이미지에는 목표 객체를 제외하고, 다른 이미지 배경 정보도 포함되며, 이미지 배경 정보는 목표 객체의 제2 동작 검출 결과에 일정한 간섭을 일으킬 수 있으므로, 먼저 제1 이미지에 포함된 목표 객체의 목표 이미지 영역을 검출한 다음, 목표 이미지 영역에 기반하여, 목표 객체에 대한 동작 검출을 구현할 수 있다.
일부 선택 가능한 실시예에서, 도 2를 참조하면, 본 발명의 실시예는 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 구체적인 방법을 제공하며, 하기와 같은 단계를 포함한다.
단계 S201에 있어서, 상기 제1 이미지에 대해 특징 추출 처리를 수행하여, 상기 제1 이미지의 제1 특징맵을 얻고, 상기 제1 특징맵은 다수의 특징 채널에 각각 대응되는 특징 서브맵을 포함하며, 상이한 상기 특징 서브맵에 포함되는 특징은 상이하다.
일부 선택 가능한 실시예에서, 컨볼루션 신경 네트워크를 이용하여 제1 이미지에 대해 특징 추출 처리를 수행하여, 제1 이미지의 제1 특징맵을 얻을 수 있다. 컨볼루션 신경 네트워크를 이용하여 제1 이미지에 대해 특징 추출 처리를 수행한 후, 제1 이미지의 제1 특징맵을 얻는다.
예시적으로, 제1 특징맵은 다수의 채널의 특징 서브맵으로 구성되고, 다수의 특징 서브맵은 오버랩된 후 제1 특징맵을 형성한다.
단계 S202에 있어서, 다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하고, 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보 및 상기 다수의 특징 서브맵 중의 제2 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 제1 크기 정보를 결정한다.
예시적으로, 제1 특징맵을 구성하는 다수의 특징 서브맵에서, i번째 채널의 특징 서브맵(즉 상기 제1 특징 서브맵)에 포함된 특징은 제1 특징맵 중의 각 제1 특징점이 목표 객체의 중심점인지 여부를 나타낸다. sigmoid 활성화 함수를 이용하여 제1 특징 서브맵에 대해 활성화 처리를 수행할 수 있고, 제1 특징 서브맵에서의 제1 특징맵 중의 각 제1 특징점의 특징값을 a1 내지 a2 사이의 수치로 변환한다. 예시적으로, a1은 예를 들어 0이고, a2는 예를 들어 1이다.
여기서, 특정된 제1 특징점의 경우, 제1 특징 서브맵에서의 상기 제1 특징점의 특징값이 0 내지 1 사이의 수치로 변환된 후, 대응되는 수치가 1에 가까울 수록 목표 객체의 중심점에 속하는 확률도 커진다.
더 나아가, 제1 특징 서브맵에서의 각 제1 특징점의 특징값이 0 내지 1 사이의 수치로 변환된 후의 수치에 기반하여, 각 목표 객체의 중심점이 제1 특징맵에서 대응되는 제1 특징점을 결정하고, 결정된 제1 특징점의 제1 좌표 정보를 제1 특징맵에서의 목표 객체의 중심점의 제1 좌표 정보로 결정할 수 있다.
다른 가능한 실시형태에서, 실제 예측 과정에서, 제1 특징 서브맵에서의 제1 특징맵 중의 각 제1 특징점의 특징값을 0 내지 1 사이의 수치로 변환한 후, 위치가 근접하는 제1 특징점에 대응되는 수치도 근접될 수 있다. 각각의 목표 객체에 유일한 중심점을 결정할 수 있도록, 본 발명의 실시예는 또한 하기 방식을 사용하여 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정할 수 있다.
기설정된 풀링 크기 및 풀링 보폭 길이에 따라, 상기 제1 특징 서브맵에 대해 최대 풀링 처리를 수행하여, 다수의 풀링 값 및 다수의 상기 풀링 값 중의 각각의 풀링 값에 대응되는 위치 인덱스를 얻으며, 상기 위치 인덱스는 상기 제1 특징 서브맵에서의 상기 풀링 값의 위치를 식별하기 위한 것이고, 상기 각각의 풀링 값 및 제1 임계값에 기반하여, 다수의 상기 풀링 값으로부터 상기 중심점에 속하는 목표 풀링 값을 결정하며, 상기 목표 풀링 값에 대응되는 위치 인덱스에 기반하여, 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보를 결정한다.
예시적으로, 예를 들어, 제1 특징 서브맵에 대해 3×3이고, 보폭 길이가 1인 최대 풀링 처리를 수행할 수 있다. 풀링 처리 시 제1 특징 서브맵에서의 각 3×3개의 제1 특징점의 특징값에 대해, 3×3개의 제1 특징점의 최대 응답값 및 제1 특징맵에서의 최대 응답값의 위치 인덱스를 결정한다. 이때, 최대 응답값의 개수는 제1 특징맵의 크기와 관련된다. 예를 들어, 제1 특징맵의 크기가 80×60×3이면, 제1 특징 서브맵에 대해 최대 풀링 처리를 수행한 후 얻은 최대 응답값은 총 80×60개이며, 각각의 최대 응답값의 경우, 위치 인덱스가 동일한 적어도 하나의 다른 최대 응답값이 존재할 수 있다. 다음, 위치 인덱스가 동일한 최대 응답값을 병합하여 M개의 최대 응답값 및 M개의 최대 응답값 중 각각의 최대 응답값에 대응되는 위치 인덱스를 얻는다. 나아가, M개의 최대 응답값 중의 각각의 최대 응답값과 제1 임계값을 비교하고, 어느 최대 응답값이 상기 제1 임계값보다 클 경우, 상기 최대 응답값을 목표 풀링 값으로 결정한다. 목표 풀링 값에 대응되는 위치 인덱스는 제1 특징맵에서의 목표 객체의 중심점의 제1 좌표 정보이다.
여기서, 제1 특징 서브맵에 대해 활성화 처리를 수행하고, 제1 특징 서브맵에서의 제1 특징맵 중의 각 제1 특징점의 특징값을 0 내지 1 사이의 수치로 변환한 다음, 최대 풀링 처리를 수행할 수 있으며, 제1 특징 서브맵에 대해 최대 풀링 처리를 직접 수행할 수도 있다.
제1 특징 서브맵에 대해 최대 풀링 처리를 직접 수행할 경우, 제1 특징 서브맵에 대해 최대 풀링 처리를 수행한 후, 각 풀링 값에 대해 활성화 함수를 이용하여 활성화 처리를 수행하고, 각 풀링 값을 0 내지 1 사이의 수치로 변환한 다음, 0 내지 1 사이의 수치로 변환된 제1 풀링 값 및 제1 임계값에 기반하여, 다수의 풀링 값으로부터 목표 객체의 중심점에 속하는 목표 풀링 값을 결정할 수 있다.
또한, 제1 특징 서브맵에 대해 최대 풀링 처리를 직접 수행할 경우, 제1 특징 서브맵에 대해 최대 풀링 처리를 수행한 후, 풀링 값 및 제1 임계값에 직접 기반하여, 다수의 풀링 값으로부터 목표 객체의 중심점에 속하는 목표 풀링 값을 결정할 수도 있으며, 이때, 제1 임계값과 활성화 처리를 수행해야 하는 상기 몇 가지 예의 제1 임계값의 값은 상이하다. 구체적으로, 실제 수요에 따라 구체적으로 선택할 수 있다.
다른 예에서, 제1 특징맵을 구성하는 다수의 특징 서브맵에서, j번째 채널 및 k번째 채널의 특징 서브맵(즉 상기 제2 특징 서브맵)에 포함된 특징은 제1 특징맵에서의 제1 이미지의 목표 객체의 제1 크기 정보를 나타낸다.
예시적으로, j번째 채널의 특징 서브맵에서의 제1 특징맵 중의 각 제1 특징점의 특징값은, 각 제1 특징점에 대응되는 제1 크기 정보 중의 길이 값을 나타내고, k번째 채널의 특징 서브맵에서의 각 제1 특징점의 특징값은 각 제1 특징점에 대응되는 제1 크기 정보 중의 폭 값을 나타낸다.
예를 들어, 특징 서브맵의 개수가 3일 경우, i는 예를 들어 0이고, j는 예를 들어 1이며, k는 예를 들어 2이다. 구체적인 i, j 및 k의 값은 실제의 신경 네트워크 처리 과정에 따라 설정된다.
제1 특징맵에서의 중심점의 제1 좌표 정보를 얻은 후, 상기 제1 좌표 정보에 기반하여, 중심점을 나타내는 제1 특징점이 제2 특징 서브맵에서의 특징값을 제2 특징 서브맵으로부터 판독하고, 판독된 특징값을 제1 특징맵에서의 목표 객체의 제1 크기 정보로 결정한다.
단계 S203에 있어서, 상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정한다.
일부 선택 가능한 실시예에서, 제1 이미지에 대해 특징 추출 처리를 수행하여, 제1 이미지의 제1 특징맵을 얻은 후, 본 발명의 실시예는 또한 하기 방식을 사용하여 상기 목표 이미지의 영역을 결정할 수 있다. 제1 이미지 중 각 픽셀점과 제1 특징맵 중의 제1 특징점 사이의 위치 맵핑 관계를 생성하고; 상기 제1 좌표 정보, 상기 제1 크기 정보 및 상기 위치 맵핑 관계에 기반하여, 제1 이미지에서의 중심점의 제2 좌표 정보(상기 위치 맵핑 관계 및 상기 제1 좌표 정보에 기반하여, 제1 이미지에서의 상기 중심점의 제2 좌표 정보를 결정할 수 있음) 및 제1 이미지에서의 상기 목표 객체의 제2 크기 정보(상기 제1 크기 정보에 기반하여, 제1 이미지에서의 상기 목표 객체의 제2 크기 정보를 결정함)를 결정한 다음, 제1 이미지에서의 중심점의 제2 좌표 정보 및 제1 이미지에서의 목표 객체의 제2 크기 정보에 따라, 목표 이미지 영역을 결정한다.
제2 좌표 정보 및 제2 크기 정보에 기반하여 목표 이미지 영역을 결정할 경우, 일 가능한 실시형태에서, 제2 좌표 정보 및 제2 크기 정보에 직접 기반하여 목표 이미지 영역을 결정할 수 있다. 다른 가능한 실시형태에서, 제2 좌표 정보 및 제2 크기 정보에 기반하여, 제1 이미지로부터 목표 객체를 포함하는 제1 영역 범위를 결정하고, 제1 영역 범위에 기반하여, 제1 이미지로부터 목표 객체를 포함하는 제2 영역 범위를 결정하며, 제2 영역 범위는 제1 영역 범위보다 크고, 상기 제2 영역 범위는 상기 제1 영역 범위를 포함하며, 제2 영역 범위에 기반하여, 제1 이미지로부터 목표 이미지 영역을 결정할 수도 있다.
예시적으로, 본 발명의 실시예에서는 상기 제1 영역 범위의 중심점 및 상기 제1 영역 범위의 네 개의 꼭짓점에 기반하여, 중심점에서 꼭짓점으로의 방향에 따라 이동하여(즉 각 꼭짓점 중 각각의 꼭짓점은 모두 중심점 및 다른 꼭짓점에서 멀어지는 방향으로 이동함), 제1 영역 범위를 기반으로 영역 범위를 확장하고, 각 꼭짓점이 이동된 후, 제2 영역 범위의 네 개의 꼭짓점의 위치를 얻음으로써, 제2 영역 범위의 네 개의 꼭짓점의 위치에 따라 상기 제2 영역 범위를 얻을 수 있다. 여기서, 각각의 꼭짓점의 이동 거리는 동일하거나 상이할 수 있으며, 즉 제1 영역 범위를 기반으로 영역 범위를 확장하는 과정에서, 각 꼭짓점 주변의 영역의 확장 폭/확장 크기는 동일하거나 상이할 수 있으며, 여기서 이에 대해 제한하지 않는다.
III, 상기 단계 S103에서, 동작 검출 네트워크는 예를 들어 특징 추출 네트워크 및 상기 특징 추출 네트워크에 연결되는 다수의 동작 검출 분기 네트워크를 포함한다. 여기서, 각각의 동작 검출 분기 네트워크는 하나의 동작 검출 분기에 대응되고, 상이한 동작 검출 분기 네트워크에 의해 검출되는 동작 유형은 상이하다.
다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 다양한 제1 동작 검출 결과를 얻을 경우, 일부 선택 가능한 실시형태에서, 예를 들어 하기 과정을 사용할 수 있다.
상기 특징 추출 네트워크를 이용하여 상기 목표 이미지 영역에 대해 특징 추출 처리를 수행하여, 상기 목표 이미지 영역의 제2 특징맵을 얻고, 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻는다.
일부 선택 가능한 실시예에서, 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻는 것은 예를 들어 하기와 같은 과정을 사용할 수 있다. 다수의 동작 검출 분기 네트워크 중의 각각의 동작 검출 분기 네트워크에 대해, 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 목표 객체가 상기 동작 검출 분기 네트워크에 의해 검출된 동작 유형을 취하는 확률을 얻고, 상기 확률 및 미리 결정된 제2 임계값에 기반하여, 상기 동작 검출 분기 네트워크에 대응되는 제1 동작 검출 결과를 결정한다.
예시적으로, 도 3을 참조하면, 본 발명의 실시예는 동작 검출 네트워크의 구체적인 구조의 예를 제공한다. 본 발명의 실시예에서 제공되는 동작 인식 방법을 교실에서의 학생의 동작 인식에 사용할 경우, 3개의 동작 검출 분기 네트워크가 존재하며, 각각 A, B 및 C인 바, 동작 검출 분기 네트워크 A에 의해 검출된 동작 유형은 일어서기이고, 동작 검출 분기 네트워크 B에 의해 검출된 동작 유형은 손 들기이며, 동작 검출 분기 네트워크 C에 의해 검출된 동작 유형은 책상에 눕기이다. 제1 이미지를 획득하고, 제1 이미지에서의 제1 이미지 중의 각 학생의 목표 이미지 영역을 결정한 후, 특징 추출 네트워크(M)를 이용하여, 각 학생에 대응되는 목표 이미지 영역에 대해 특징 추출 처리를 수행하여, 각각의 학생에 대응되는 제2 특징맵을 얻고, 동작 검출 분기 네트워크 A를 이용하여 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 학생이 일어서기 동작을 취하는 확률을 얻는다. 상기 학생이 일어서기 동작을 취하는 확률 및 대응되는 제2 임계값에 따라, 상기 학생이 일어서기 동작을 취하는 제1 동작 검출 결과를 결정하며, 예를 들어, 동작 검출 분기 네트워크 A에 의해 획득된, 학생이 일어서기 동작을 취하는 확률이 대응되는 제2 임계값보다 클 경우, 상기 학생이 일어서기 동작을 취한 것으로 결정한다.
유사하게, 동작 검출 분기 네트워크 B를 이용하여 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 학생이 손 들기 동작을 취하는 확률을 얻고, 상기 학생이 손 들기 동작을 취하는 확률 및 대응되는 제2 임계값에 따라, 상기 학생이 손 들기 동작을 취하는 제1 동작 검출 결과를 결정한다. 동작 검출 분기 네트워크 C를 이용하여 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 학생이 책상에 눕기 동작을 취하는 확률을 얻고, 상기 학생이 책상에 눕기 동작을 취하는 확률 및 대응되는 제2 임계값에 따라, 상기 학생이 책상에 눕기 동작을 취하는 제1 동작 검출 결과를 결정한다.
마지막으로, 상기 학생이 일어서기 동작, 손 들기 동작, 책상에 눕기 동작을 취하는 것에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 학생의 최종적인 제2 동작 검출 결과를 결정한다.
예를 들어, 동작 검출 분기 네트워크 A가 얻은 제1 동작 검출 결과가 일어서지 않음이고, 동작 검출 분기 네트워크 B가 얻은 제1 동작 검출 결과가 손 들기이며, 동작 검출 분기 네트워크 C가 얻은 제1 동작 검출 결과가 책상에 눕지 않음이면, 대응되는 제2 동작 검출 결과는, 일어서지 않음, 손 들기, 책상에 눕지 않음이다.
여기서, 상이한 동작 검출 분기 네트워크에 대응되는 제2 임계값은 동일하거나 상이할 수 있으며, 구체적으로, 실제 수요에 따라 설정될 수 있다는 점에 유의해야 한다.
예시적으로, 특징 추출 네트워크에 입력되는 목표 이미지 영역의 이미지 크기가 112×112일 경우, 특징 추출 네트워크는 목표 이미지 영역에 대해 다운 샘플링을 4회 수행하여, 크기가 7×7인 제2 특징맵을 얻는다. 여기서, 목표 이미지 영역에 대한 다운 샘플링 과정은 예를 들어 목표 이미지 영역에 대해 보폭 길이가 2인 컨볼루션 조작을 순차적으로 4회 수행하는 것이다. 다음, 7×7의 제2 특징맵을 상이한 동작 검출 분기 네트워크에 각각 입력한다. 각각의 동작 검출 분기 네트워크에 대해, 먼저 제2 특징맵에 대해 컨볼루션 처리를 수행하고, 컨볼루션 처리된 결과에 대해 평균 풀링 처리를 수행하여 1차원 데이터를 얻은 다음, sigmoid를 사용하여 1차원 데이터에 대해 활성화 처리를 수행하여, 동작 검출 분기 네트워크에 대응되는 확률을 최종적으로 얻는다.
또한, 관련 기술에서, 신경 네트워크를 이용하여 이미지에 포함된 목표 객체의 동작을 검출하기 전에, 일반적으로 다수의 이미지 획득 기기로부터의 샘플 이미지를 이용하여, 신경 네트워크를 트레이닝한다. 상이한 이미지 획득 기기로부터의 샘플 이미지는 촬영 파라미터의 차이로 인해 상이한 이미지 특징이 포함된다. 신경 네트워크는 트레이닝 과정에서 상이한 샘플 이미지로부터의 상이한 특징을 학습할 수 있어, 신경 네트워크를 이용하여 이미지에 포함된 목표 객체의 동작을 검출할 경우, 신경 네트워크의 일반화 능력을 향상시킬 수 있다. 이러한 신경 네트워크를 이용하여 이미지에 대해 동작 검출 처리를 수행할 경우, 신경 네트워크는 이미지 중의 목표 객체가 특정 동작을 수행하는 확률을 출력한 다음, 상기 확률과 기설정된 확률 임계값을 비교하고, 비교 결과에 기반하여, 목표 객체에 대응되는 동작 검출 결과를 결정할 수 있다. 그러나 상이한 카메라의 이미지 획득 파라미터가 상이함으로 인해, 상이한 카메라에 의해 획득되는 이미지 품질이 상이하며, 이미지 품질이 상이하면 포함된 이미지 특징도 상이하게 되므로, 통일된 판단 기준으로서 동일한 확률 임계값을 이용하여, 상이한 카메라에 의해 획득된 이미지의 동작 검출 결과를 얻을 때 최적의 결과가 아닐 수 있으며, 이로 인해 일부 이미지에 대한 판단 오류 상황이 발생되어 검출의 정확도가 낮은 문제가 존재한다.
상기 문제점을 해결하기 위해, 본 발명의 실시예는, 상기 동작 검출 네트워크를 이용하여, 제1 이미지와 연관되는 다수의 제2 이미지 중의 각각의 제2 이미지에 대해 분류 처리를 수행하여, 각각의 상기 제2 이미지의 분류 예측 확률을 얻는 단계; 및 다수의 상기 제2 이미지에 각각 대응되는 분류 예측 확률 및 다수의 상기 제2 이미지에 각각 대응되는 미리 라벨링된 실제 분류 결과에 기반하여, 제2 김계값을 결정하는 단계를 포함하는 제2 임계값을 결정하는 구체적인 방법을 더 제공한다.
여기서, 제1 이미지와 제2 이미지는 연관되는 것은,
상기 제1 이미지와 상기 제2 이미지의 촬영 파라미터의 유사도가 기설정된 유사도 임계값보다 큰 것; 및
다수의 상기 제1 이미지 및 상기 제2 이미지가 동일한 이미지 획득 기기에 의해 획득된 것 중 적어도 하나를 포함한다.
이로써, 제1 이미지와 연관되는 다수의 제2 이미지의 분류 결과에 기반하여 제2 임계값을 얻고, 제1 이미지에 대해 분류 처리를 수행하는 과정에서, 제1 이미지와 제2 이미지가 연관되므로, 상기 제1 분류 임계값을 분류 처리 과정에서의 판단 기준 중 하나로 사용하여, 보다 높은 정밀도로 제2 이미지의 동작 검출 결과를 얻을 수 있어, 분류 결과의 정확도를 향상시킬 수 있다.
제1 이미지와 제2 이미지는 연관되는 것은, 예를 들어, 하기 중 적어도 하나를 포함한다.
(1), 상기 제1 이미지와 상기 제2 이미지의 촬영 파라미터의 유사도가 기설정된 유사도 임계값보다 크다.
예를 들어, 상이한 이미지의 촬영 파라미터로 하나의 파라미터 벡터를 구성할 수 있고, 상이한 이미지의 촬영 파라미터의 유사도는 예를 들어 상이한 이미지의 파라미터 벡터 사이의 벡터 거리를 통해 나타낼 수 있다. 상이한 이미지의 파라미터 벡터 사이의 벡터 거리가 기설정된 거리 임계값보다 작을 경우, 상기 상이한 이미지의 촬영 파라미터의 유사도가 기설정된 유사도 임계값보다 큼을 나타낸다.
(2), 다수의 상기 제1 이미지 및 상기 제2 이미지는 동일한 이미지 획득 기기에 의해 획득된 것이다.
이미지 획득 기기가 사용에 투입되기 전에, 상기 단계 S101 내지 단계 S102를 통해, 이미지 획득 기기를 위해 하나의 제1 확률 임계값을 결정할 수 있다. 상기 이미지 획득 기기가 사용에 투입된 후, 획득된 제2 이미지는 이를 위해 결정된 제1 확률 임계값을 통해 분류 처리를 수행한다.
제2 임계값을 결정할 경우, 판별 결과의 정확도가 기설정된 정확도 임계값에 도달하도록, 결정된 제2 임계값을 이용하여 제2 이미지의 분류 결과를 판별해야 한다.
예시적으로, 하기 방식을 사용하여 제2 임계값을 결정할 수 있다.
다수의 후보 임계값을 결정하고, 다수의 상기 후보 임계값 중의 각각의 후보 임계값에 대해, 다수의 상기 제2 이미지에 각각 대응되는 분류 예측 확률 및 실제 분류 결과에 따라, 각각의 상기 후보 임계값에 대응되는 예측 정확도를 결정하며, 다수의 상기 후보 임계값에 각각 대응되는 예측 정확도에 기반하여, 다수의 상기 후보 임계값으로부터 상기 제2 임계값을 결정한다.
예시적으로, 제2 임계값의 값 범위 및 기설정된 값 보폭 길이에 기반하여, 값 범위 내에서 다수의 후보 임계값을 결정할 수 있다.
예시적으로, 동작 검출 네트워크를 이용하여 제2 이미지에 대해 분류 처리를 수행한 후, 예를 들어 sigmoid 활성화 함수를 이용하여, 분류 처리된 결과에 대해 활성화 처리를 수행하고, 분류 처리된 결과를 0 내지 1인 값 구간 범위로 변환할 수 있다. 이때, 분류 처리된 결과는 제2 이미지의 분류 예측 확률을 나타낼 수 있다. 상응하게, 제2 임계값의 값 범위는 [0, 1]이다. 0.05를 값 보폭 길이로 사용하면, 결정된 다수의 후보 임계값은 각각 0, 0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95, 1일 수 있다.
여기서, 제2 임계값의 값 범위는 실제 상황에 따라 결정될 수 있으며, 아울러 값 보폭 길이도 실제 수요에 따라 결정될 수 있는 바, 예를 들어, 값 보폭 길이를 0.01, 0.02 등으로 결정할 수도 있으며, 본 실시예에서는 이에 대해 제한하지 않는다는 점에 유의해야 한다.
예시적으로, 제2 이미지에 대한 동작 검출 네트워크의 분류 결과가, 제2 이미지 중의 목표 개체가 특정 동작을 취하거나 제2 이미지 중의 목표 객체가 상기 특정 동작을 취하지 않은 것을 포함한다고 가정하면, 동작 검출 네트워크를 이용하여 다수의 제2 이미지에 대해 분류 처리를 수행한 후, n개의 제2 이미지의 분류 예측 확률을 얻고, score_n으로 표시한다. 제2 임계값의 값 범위가 [0, 1]이고, 값 보폭 길이가 0.001이라고 가정하면, 상기 보폭 길이(0.001)에 따라 제2 임계값의 가능한 값(thrd=0+0.001×k)을 순회하며, 여기서 k∈[0, 1000]이다. p번째 순회에 대해, 결정된 후보 임계값은 thrd_p=0+0.001×p이고, 해당 후보 임계값(thrd_p)에서, score_n가 thrd_p보다 크면, 제2 이미지의 예측 분류 결과가 대응 동작을 취한 것을 나타내며, 그렇지 않을 경우, 제2 이미지의 예측 분류 결과는 대응 동작을 취하지 않은 것이다.
다음, n개의 제2 이미지에 대응되는 예측 분류 결과 및 n개의 제2 이미지에 각각 대응되는 실제 분류 결과에 따라, 하기 파라미터를 집계한다.
TP는 실제로 동작을 취하고, thrd_p 후보 임계값 하에 동작을 취한 것으로 예측되는 제2 이미지의 개수이다.
TN는 실제로 동작을 취하고, thrd_p 후보 임계값 하에 동작을 취하지 않은 것으로 예측되는 제2 이미지의 개수이다.
FP는 실제로 동작을 취하지 않고, thrd_p 후보 임계값 하에 동작을 취한 것으로 예측되는 제2 이미지의 개수이다.
FN는 실제로 동작을 취하지 않고, thrd_p 후보 임계값 하에 동작을 취하지 않은 것으로 예측되는 제2 이미지의 개수이다.
다음, 하기 공식 (1) 내지 공식 (3)에 기반하여, thrd_p 후보 임계값에 대응되는 예측 정확도(F)를 얻는다.
Figure pct00001
(1)
Figure pct00002
(2)
Figure pct00003
(3)
모든 후보 임계값의 예측 정확도를 얻은 후, 예측 정확도(F)가 가장 큰 후보 임계값을 제2 임계값으로 결정한다.
또한, 본 발명의 다른 실시예에서, 제2 임계값을 보다 정확하게 결정할 수 있도록, 제2 임계값의 값 범위를 다수의 값 구간으로 구획한 다음, 각각의 값 구간에 대해, 다수의 제2 이미지에 각각 대응되는 분류 예측 확률 및 실제 분류 결과에 따라, 각각의 값 구간에 대응되는 예측 정확도를 결정하고, 다수의 값 구간에 각각 대응되는 예측 정확도에 기반하여, 다수의 값 구간으로부터 하나의 목표 값 구간을 결정한 다음, 다수의 목표 값 구간 내로부터 다수의 후보 임계값을 결정하며, 상기 과정에 기반하여, 각각의 후보 임계값에 대응되는 예측 정확도를 결정할 수 있어, 제2 임계값을 결정할 경우에 필요한 계산량을 줄이고, 계산 자원 및 계산 시간을 줄일 수 있다.
또한, 본 발명의 실시예는 축차근사법을 사용하여 제2 임계값을 결정할 수도 있다.
본 기술분야의 통상의 기술자라면 상기 방법의 구체적인 실시형태에서, 각 단계의 작성 순서가 엄격한 수행 순서를 의미하지 않으며 구현 과정에 대한 임의의 한정을 구성하지 않는다는 것을 이해할 수 있고, 각 단계의 구체적인 수행 순서는 그 기능 및 가능한 내적 논리에 의해 결정되어야 한다.
동일한 발명 구상에 기반하여, 본 발명의 실시예는 동작 인식 방법에 대응되는 동작 인식 장치를 더 제공하고, 본 발명의 실시예의 장치가 과제를 해결하는 원리가 본 발명의 실시예의 상기 동작 인식 방법과 유사하므로, 장치의 구현은 방법의 구현을 참조할 수 있으며, 중복되는 내용은 더이상 설명하지 않는다.
도 4를 참조하면, 이는 본 발명의 실시예에서 제공되는 동작 인식 장치의 모식도이고, 상기 장치는 획득 모듈(41), 인식 모듈(42), 검출 모듈(43) 및 결정 모듈(44)을 포함하고, 여기서,
획득 모듈(41)은 제1 이미지를 획득하도록 구성되며;
인식 모듈(42)은 상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하도록 구성되고;
검출 모듈(43)은 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 복수 개의 제1 동작 검출 결과를 얻도록 구성되며, 여기서, 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이하고;
결정 모듈(44)은 다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈(42)은, 상기 제1 이미지에 대해 특징 추출 처리를 수행하여, 상기 제1 이미지의 제1 특징맵을 얻으며 - 상기 제1 특징맵은 다수의 특징 채널에 각각 대응되는 특징 서브맵을 포함하고, 상이한 상기 특징 서브맵에 포함되는 특징은 상이함 - ; 다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하고; 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보 및 상기 다수의 특징 서브맵 중의 제2 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 제1 크기 정보를 결정하며; 상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈(42)은, 기설정된 풀링 크기 및 풀링 보폭 길이에 따라, 상기 제1 특징 서브맵에 대해 최대 풀링 처리를 수행하여, 다수의 풀링 값 및 다수의 상기 풀링 값 중의 각각의 풀링 값에 대응되는 위치 인덱스를 얻으며, 상기 위치 인덱스는 상기 제1 특징 서브맵에서의 상기 풀링 값의 위치를 식별하기 위한 것이고; 상기 각각의 풀링 값 및 제1 임계값에 기반하여, 다수의 상기 풀링 값으로부터 상기 중심점에 속하는 목표 풀링 값을 결정하며; 상기 목표 풀링 값에 대응되는 위치 인덱스에 기반하여, 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보를 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈(42)은, 상기 제1 좌표 정보, 상기 제1 크기 정보 및 상기 제1 특징맵 중의 제1 특징점과 상기 제1 이미지 중 각 픽셀점 사이의 위치 맵핑 관계에 기반하여, 상기 제1 이미지에서의 상기 중심점의 제2 좌표 정보 및 상기 제1 이미지에서의 상기 목표 객체의 제2 크기 정보를 결정하고; 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 인식 모듈(42)은, 상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 제1 이미지로부터 상기 목표 객체를 포함하는 제1 영역 범위를 결정하고; 상기 목표 객체를 포함하는 제1 영역 범위에 기반하여, 상기 목표 객체를 포함하는 제2 영역 범위를 결정하며, 상기 제2 영역 범위는 상기 제1 영역 범위를 포함하고; 상기 제2 영역 범위에 기반하여, 상기 제1 이미지로부터 상기 목표 이미지 영역을 결정하도록 구성된다.
일 선택 가능한 실시형태에서, 상기 동작 검출 네트워크는 특징 추출 네트워크 및 상기 특징 추출 네트워크에 연결되는 다수의 동작 검출 분기 네트워크를 포함하고;
상기 검출 모듈(43)은, 상기 특징 추출 네트워크를 이용하여 상기 목표 이미지 영역에 대해 특징 추출 처리를 수행하여, 상기 목표 이미지 영역의 제2 특징맵을 얻고; 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻도록 구성된다.
일 선택 가능한 실시형태에서, 상기 검출 모듈(43)은, 다수의 동작 검출 분기 네트워크 중의 각각의 동작 검출 분기 네트워크에 대해, 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 목표 객체가 상기 동작 검출 분기 네트워크에 의해 검출된 동작 유형을 취하는 확률을 얻고; 상기 확률 및 미리 결정된 제2 임계값에 기반하여, 상기 동작 검출 분기 네트워크에 대응되는 제1 동작 검출 결과를 결정하도록 구성된다.
장치의 각 모듈의 처리 프로세스, 및 각 모듈 사이의 교류 프로세스에 관한 설명은 상기 방법 실시예의 관련 설명을 참조할 수 있으므로, 여기서 더이상 설명하지 않는다.
본 발명의 실시예에서, 상기 동작 인식 장치의 획득 모듈(41), 인식 모듈(42), 검출 모듈(43) 및 결정 모듈(44)은 실제 응용에서 모두 중앙 프로세서(Central Processing Unit, CPU), 디지털 신호 프로세서(Digital Signal Processor, DSP), 마이크로 컨트롤 유닛(Microcontroller Unit, MCU) 또는 프로그램 가능 게이트 어레이(Field-Programmable Gate Array, FPGA)에 의해 구현될 수 있다.
본 발명의 실시예는 컴퓨터 기기를 더 제공하고, 도 5에 도시된 바와 같이, 이는 본 발명의 실시예에서 제공되는 컴퓨터 기기의 구조 모식도이고, 프로세서(11) 및 메모리(12)를 포함하며, 상기 메모리(12)에는 상기 프로세서(11)에 의해 실행 가능한 기계 판독 가능 명령어가 저장되고, 컴퓨터 기기가 실행될 경우, 상기 기계 판독 가능 명령어는 상기 프로세서에 의해 실행되어, 본 발명의 실시예의 전술한 동작 인식 방법의 단계를 구현한다.
상기 명령어의 구체적인 실행 과정은 본 발명의 실시예에 따른 동작 인식 방법의 단계를 참조할 수 있으므로, 여기서 더이상 설명하지 않는다.
본 발명의 실시예는 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 방법 실시예에 따른 동작 인식 방법의 단계가 수행된다. 여기서, 상기 저장 매체는 휘발성 또는 비휘발성 컴퓨터 판독 가능 저장 매체일 수 있다.
본 발명의 실시예에서 제공되는 동작 인식 방법의 컴퓨터 프로그램 제품은 프로그램 코드가 저장된 컴퓨터 판독 가능 저장 매체를 포함하고, 상기 프로그램 코드에 포함된 명령어는 상기 방법 실시예에 따른 동작 인식 방법의 단계를 수행할 수 있으며, 구체적으로 상기 방법 실시예를 참조할 수 있으므로, 여기서 더이상 설명하지 않는다.
본 발명의 실시예는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 전술한 실시예의 임의의 하나의 방법이 구현된다. 상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 일 선택 가능한 실시예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되고, 다른 선택 가능한 실시예에서, 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
본 발명에서 제공된 각 방법 또는 기기 실시예에 개시된 특징은 충돌하지 않는 한 임의로 조합되어 새로운 방법 실시예 또는 기기 실시예를 얻을 수 있다.
본 기술분야의 통상의 기술자들은 설명의 편의 및 간략화를 위해 상기 설명된 시스템 및 장치의 작업 과정이 전술한 방법 실시예의 대응되는 과정을 참조할 수 있음을 명확히 이해할 수 있으므로, 여기서 더이상 설명하지 않는다. 본 발명에서 제공되는 몇개의 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 이상에서 설명된 장치 실시예는 단지 예시적인 것이고, 예를 들면, 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고, 실제 구현 시 다른 구획 방식이 있을 수 있으며, 또 예를 들면, 다수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 결합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 표시 또는 토론된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 통신 인터페이스를 통한 것일 수 있고, 장치 또는 유닛의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형식일 수 있다.
상기 분리 부재로 설명된 유닛은 물리적으로 분리되거나 분리되지 않은 것일 수 있고, 유닛으로 표시된 부재는 물리적 유닛일 수 있거나, 물리적 유닛이 아닐 수 있으며, 하나의 장소에 위치하거나, 다수의 네트워크 유닛에 분포될 수도 있다. 실제 수요에 따라 그 중의 일부 또는 전부 유닛을 선택하여 본 실시예의 수단의 목적을 구현할 수 있다.
이밖에, 본 발명의 각 실시예의 각 기능 유닛은 하나의 처리 유닛에 집적될 수 있거나, 각 유닛이 별도로 물리적으로 존재할 수도 있거나, 둘 또는 둘 이상의 유닛이 하나의 유닛에 집적될 수도 있다.
상기 기능이 만약 소프트웨어 기능 유닛의 형식으로 구현되고 별도의 제품으로 판매되거나 사용될 경우, 하나의 프로세서에 의해 실행 가능한 비휘발성 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반해보면, 본 발명의 기술적 해결수단은 본질적으로 또는 선행기술에 기여하는 부분 또는 해당 기술적 해결수단의 일부는 소프트웨어 제품의 형식으로 구현될 수 있고, 해당 컴퓨터 소프트웨어 제품은 하나의 컴퓨터 기기(개인용 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)가 본 발명의 각 실시예에 따른 방법의 전부 또는 일부 단계를 실행하도록 하는 약간의 명령을 포함하는 하나의 저장 매체에 저장된다. 전술한 저장 매체는 USB 메모리, 외장 하드, 판독 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory,RAM), 디스켓 또는 CD 등 프로그램 코드를 저장할 수 있는 여러가지 매체를 포함한다.
마지막으로 설명할 것은, 전술한 실시예들은 본 발명의 기술적 해결수단을 설명하기 위한 본 발명의 구체적인 실시형태일 뿐, 제한하기 위함이 아니고, 본 발명의 보호범위는 이에 제한되지 않으며, 전술한 실시예를 참조하여 본 발명을 상세하게 설명하였을 지라도, 본 기술분야의 통상의 기술자는, 본 기술분야의 통상의 기술자라면 본 발명에 개시된 기술범위 내에서, 전술한 실시예에 기재된 기술적 해결수단을 수정하거나 쉽게 변경할 수 있거나, 또는 일부 기술특징을 등가적으로 대체할 수 있으며, 이러한 수정, 변경 또는 대체는 상응한 기술적 해결수단의 본질이 본 발명의 실시예의 기술적 해결수단의 사상 및 범위를 범어나지 않게 하며, 모두 본 발명의 보호범위 내에 포함되어야 함을 이해해야 한다. 따라서, 본 발명의 보호범위는 청구범위의 보호범위를 기준으로 해야 한다.

Claims (11)

  1. 동작 인식 방법으로서,
    제1 이미지를 획득하는 단계;
    상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 단계;
    다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 복수 개의 제1 동작 검출 결과를 얻는 단계 - 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이함 - ; 및
    다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정하는 단계를 포함하는 동작 인식 방법.
  2. 제1항에 있어서,
    상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하는 단계는,
    상기 제1 이미지에 대해 특징 추출 처리를 수행하여, 상기 제1 이미지의 제1 특징맵을 얻는 단계 - 상기 제1 특징맵은 다수의 특징 채널에 각각 대응되는 특징 서브맵을 포함하고, 상이한 상기 특징 서브맵에 포함되는 특징은 상이함 - ;
    다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하고; 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보 및 상기 다수의 특징 서브맵 중의 제2 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 제1 크기 정보를 결정하는 단계; 및
    상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계를 포함하는 동작 인식 방법.
  3. 제2항에 있어서,
    상기 다수의 특징 서브맵 중의 제1 특징 서브맵에 포함되는 특징에 기반하여, 상기 제1 특징맵에서의 상기 목표 객체의 중심점의 제1 좌표 정보를 결정하는 단계는,
    기설정된 풀링 크기 및 풀링 보폭 길이에 따라, 상기 제1 특징 서브맵에 대해 최대 풀링 처리를 수행하여, 다수의 풀링 값 및 다수의 상기 풀링 값 중의 각각의 풀링 값에 대응되는 위치 인덱스를 얻는 단계 - 상기 위치 인덱스는 상기 제1 특징 서브맵에서의 상기 풀링 값의 위치를 식별하기 위한 것임 - ;
    상기 각각의 풀링 값 및 제1 임계값에 기반하여, 다수의 상기 풀링 값으로부터 상기 중심점에 속하는 목표 풀링 값을 결정하는 단계; 및
    상기 목표 풀링 값에 대응되는 위치 인덱스에 기반하여, 상기 제1 특징맵에서의 상기 중심점의 제1 좌표 정보를 결정하는 단계를 포함하는 동작 인식 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 제1 좌표 정보 및 상기 제1 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계는,
    상기 제1 좌표 정보, 상기 제1 크기 정보 및 상기 제1 특징맵 중의 제1 특징점과 상기 제1 이미지 중 각 픽셀점 사이의 위치 맵핑 관계에 기반하여, 상기 제1 이미지에서의 상기 중심점의 제2 좌표 정보 및 상기 제1 이미지에서의 상기 목표 객체의 제2 크기 정보를 결정하는 단계; 및
    상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계를 포함하는 동작 인식 방법.
  5. 제4항에 있어서,
    상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 목표 이미지 영역을 결정하는 단계는,
    상기 제2 좌표 정보 및 상기 제2 크기 정보에 기반하여, 상기 제1 이미지로부터 상기 목표 객체를 포함하는 제1 영역 범위를 결정하는 단계;
    상기 목표 객체를 포함하는 제1 영역 범위에 기반하여, 상기 목표 객체를 포함하는 제2 영역 범위를 결정하는 단계 - 상기 제2 영역 범위는 상기 제1 영역 범위를 포함함 - ; 및
    상기 제2 영역 범위에 기반하여, 상기 제1 이미지로부터 상기 목표 이미지 영역을 결정하는 단계를 포함하는 동작 인식 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 동작 검출 네트워크는 특징 추출 네트워크 및 상기 특징 추출 네트워크에 연결되는 다수의 동작 검출 분기 네트워크를 포함하고;
    상기 다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 다양한 제1 동작 검출 결과를 얻는 단계는,
    상기 특징 추출 네트워크를 이용하여 상기 목표 이미지 영역에 대해 특징 추출 처리를 수행하여, 상기 목표 이미지 영역의 제2 특징맵을 얻는 단계; 및
    다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻는 단계를 포함하는 동작 인식 방법.
  7. 제6항에 있어서,
    상기 다수의 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 각각 수행하여, 각각의 상기 동작 검출 분기 네트워크에 각각 대응되는 제1 동작 검출 결과를 얻는 단계는,
    다수의 동작 검출 분기 네트워크 중의 각각의 동작 검출 분기 네트워크에 대해, 상기 동작 검출 분기 네트워크를 이용하여 상기 제2 특징맵에 대해 동작 검출 처리를 수행하여, 상기 목표 객체가 상기 동작 검출 분기 네트워크에 의해 검출된 동작 유형을 취하는 확률을 얻는 단계; 및
    상기 확률 및 미리 결정된 제2 임계값에 기반하여, 상기 동작 검출 분기 네트워크에 대응되는 제1 동작 검출 결과를 결정하는 단계를 포함하는 동작 인식 방법.
  8. 동작 인식 장치로서,
    제1 이미지를 획득하도록 구성되는 획득 모듈;
    상기 제1 이미지 중 목표 객체를 포함하는 목표 이미지 영역을 인식하도록 구성되는 인식 모듈;
    다수의 동작 검출 분기가 구비되는 동작 검출 네트워크를 이용하여, 상기 목표 이미지 영역에 대해 동작 검출 처리를 수행하여, 상기 목표 객체에 대응되는 복수 개의 제1 동작 검출 결과를 얻도록 구성되는 검출 모듈 - 상이한 동작 검출 분기에 의해 검출되는 동작 유형은 상이함 - ; 및
    다수의 동작 검출 분기에 각각 대응되는 제1 동작 검출 결과에 기반하여, 상기 목표 객체의 제2 동작 검출 결과를 결정하도록 구성되는 결정 모듈을 포함하는 동작 인식 장치.
  9. 프로세서 및 메모리를 포함하는 컴퓨터 기기로서,
    상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령어가 저장되고, 상기 프로세서는 상기 메모리에 저장된 기계 판독 가능 명령어를 실행하며, 상기 기계 판독 가능 명령어가 상기 프로세서에 의해 실행될 경우, 상기 프로세서는 제1항 내지 제7항 중 어느 한 항에 따른 동작 인식 방법의 단계를 수행하는 컴퓨터 기기.
  10. 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 컴퓨터 기기에 의해 실행될 경우, 상기 컴퓨터 기기는 제1항 내지 제7항 중 어느 한 항에 따른 동작 인식 방법의 단계를 수행하는 컴퓨터 판독 가능 저장 매체.
  11. 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항에 따른 동작 인식 방법을 수행하도록 하는 컴퓨터 프로그램.
KR1020227026434A 2020-07-31 2021-04-16 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체 KR20220122735A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010755553.3A CN111881854A (zh) 2020-07-31 2020-07-31 动作识别方法、装置、计算机设备及存储介质
CN202010755553.3 2020-07-31
PCT/CN2021/087693 WO2022021948A1 (zh) 2020-07-31 2021-04-16 动作识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
KR20220122735A true KR20220122735A (ko) 2022-09-02

Family

ID=73204793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227026434A KR20220122735A (ko) 2020-07-31 2021-04-16 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체

Country Status (5)

Country Link
JP (1) JP2022546153A (ko)
KR (1) KR20220122735A (ko)
CN (1) CN111881854A (ko)
TW (1) TWI776566B (ko)
WO (1) WO2022021948A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881854A (zh) * 2020-07-31 2020-11-03 上海商汤临港智能科技有限公司 动作识别方法、装置、计算机设备及存储介质
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质
CN115841140B (zh) * 2022-04-20 2023-08-11 北京爱芯科技有限公司 一种反最大池化运算方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6751773B2 (ja) * 2016-12-07 2020-09-09 オリンパス株式会社 画像処理装置及び画像処理装置の作動方法
CN108681695A (zh) * 2018-04-26 2018-10-19 北京市商汤科技开发有限公司 视频动作识别方法及装置、电子设备和存储介质
JP6943338B2 (ja) * 2018-05-18 2021-09-29 日本電気株式会社 画像処理装置、システム、方法及びプログラム
CN112292690A (zh) * 2018-06-14 2021-01-29 奇跃公司 增强现实深度手势网络
CN108875674B (zh) * 2018-06-29 2021-11-16 东南大学 一种基于多列融合卷积神经网络的驾驶员行为识别方法
CN109726803B (zh) * 2019-01-10 2021-06-29 广州小狗机器人技术有限公司 池化方法、图像处理方法及装置
CN111435422B (zh) * 2019-01-11 2024-03-08 商汤集团有限公司 动作识别方法、控制方法及装置、电子设备和存储介质
CN109919008A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 运动目标检测方法、装置、计算机设备及存储介质
CN110879993B (zh) * 2019-11-29 2023-03-14 北京市商汤科技开发有限公司 神经网络训练方法、人脸识别任务的执行方法及装置
CN111310616B (zh) * 2020-02-03 2023-11-28 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111401144B (zh) * 2020-02-26 2023-04-07 华南理工大学 一种基于视频监控的手扶电梯乘客行为识别方法
CN111160491B (zh) * 2020-04-03 2020-09-01 北京精诊医疗科技有限公司 一种卷积神经网络中的池化方法和池化模型
CN111881854A (zh) * 2020-07-31 2020-11-03 上海商汤临港智能科技有限公司 动作识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2022546153A (ja) 2022-11-04
TWI776566B (zh) 2022-09-01
CN111881854A (zh) 2020-11-03
TW202207075A (zh) 2022-02-16
WO2022021948A1 (zh) 2022-02-03

Similar Documents

Publication Publication Date Title
KR20220122735A (ko) 동작 인식 방법, 장치, 컴퓨터 기기 및 저장 매체
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
KR102252081B1 (ko) 이미지 특성의 획득
US11651214B2 (en) Multimodal data learning method and device
US11776092B2 (en) Color restoration method and apparatus
KR102593438B1 (ko) 뉴럴 네트워크 학습 방법 및 디바이스
CN110998601A (zh) 用于识别对象的方法和装置
JP6793885B1 (ja) 画像処理システム及び画像処理方法
KR102548732B1 (ko) 신경망 학습 방법 및 이를 적용한 장치
WO2020061489A1 (en) Training neural networks for vehicle re-identification
CN111414946B (zh) 基于人工智能的医疗影像的噪声数据识别方法和相关装置
US20210124929A1 (en) Device and method for auto audio and video focusing
JP2021073606A (ja) 群衆状態認識装置、方法およびプログラム
KR20220058900A (ko) 샘플 생성, 신경망의 트레이닝, 데이터 처리 방법 및 장치
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN109919077A (zh) 姿态识别方法、装置、介质和计算设备
KR20200074958A (ko) 뉴럴 네트워크 학습 방법 및 디바이스
US20150339591A1 (en) Collegial Activity Learning Between Heterogeneous Sensors
CN112101114B (zh) 一种视频目标检测方法、装置、设备以及存储介质
CN114937285B (zh) 动态手势识别方法、装置、设备及存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN112364912A (zh) 信息分类方法、装置、设备及存储介质
Dulian et al. Multi-modal anticipation of stochastic trajectories in a dynamic environment with conditional variational autoencoders