KR20240046777A - 활동 인식 방법 및 장치, 전자 장치 및 저장 매체 - Google Patents

활동 인식 방법 및 장치, 전자 장치 및 저장 매체 Download PDF

Info

Publication number
KR20240046777A
KR20240046777A KR1020247009277A KR20247009277A KR20240046777A KR 20240046777 A KR20240046777 A KR 20240046777A KR 1020247009277 A KR1020247009277 A KR 1020247009277A KR 20247009277 A KR20247009277 A KR 20247009277A KR 20240046777 A KR20240046777 A KR 20240046777A
Authority
KR
South Korea
Prior art keywords
features
aggregate
individual
feature
activity recognition
Prior art date
Application number
KR1020247009277A
Other languages
English (en)
Inventor
치앙강 차오
쿤린 양
시난 리우
준 호우
슈와이 이
Original Assignee
상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20240046777A publication Critical patent/KR20240046777A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)

Abstract

본 개시는 활동 인식 방법 및 장치, 전자 장치 및 저장 매체에 관한 것이다. 이 방법은 입력 비디오 프레임을 수신하고, 비디오 프레임 내 개별 특징을 추출하는 단계; 개별 특징에 기초하여 그룹의 총체 특징을 결정하는 단계; 개별 특징과 총체 특징 간의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 단계; 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 단계; 및 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는 단계를 포함한다. 본 개시의 실시형태는 비디오 프레임에 대한 활동 인식의 효율성을 향상시킬 수 있다.

Description

활동 인식 방법 및 장치, 전자 장치 및 저장 매체
관련 출원에 대한 상호 참조
본 개시는 2021년 8월 23일에 출원된 "활동 인식 방법 및 장치, 전자 장치 및 저장 매체"라는 제목의 중국 특허출원번호 제2021110967972.8호의 우선권을 기반으로 하고 그 이익을 주장하며, 그 전체 내용은 참조로 본 명세서에 포함된다.
기술 분야
본 개시는 컴퓨터 기술 분야에 관한 것이며, 특히 활동 인식 방법 및 장치, 전자 장치 및 저장 매체에 관한 것이다.
그룹 활동 인식 기술에서, 비디오 내 개인들의 행동 카테고리와 비디오에서 묘사된 그룹의 활동 카테고리는 스포츠 경기의 활동 인식에 많이 사용되는 컴퓨터 비전 알고리즘을 통해 인식된다. 예를 들어 배구 경기 비디오의 경우, 한 가지 작업은 각 배구 선수의 행동 카테고리와, 비디오에서 묘사되는 그룹의 활동 카테고리(좌측 패스, 우측 패스, 좌측 스매싱 등)를 인식하는 것이다. 이 작업을 위해서는, 일반적으로 비디오 속 인체들을 먼저 감지한 후, 개별 행동 인식 기술을 통한 개인들의 행동을 기반으로 비디오 속 그룹의 활동 카테고리를 추론한다.
최근 컴퓨터 비전 분야에서 딥러닝이 발전하면서, 과거의 많은 작품에서 일반적으로 합성곱 신경망(Convolutional Neural Network)을 사용하여 영상 속 개인 행동을 검출하고, 전역 풀링(global pooling)을 사용하여 총체 특징을 획득하여 그룹의 활동 카테고리를 인식한다. 개인 행동과 영상 배경 정보에 의존하는 것 외에도, 그룹 활동 인식은 개인 행동 간의 관계 정보에도 의존한다. 합성곱 신경망 외에도, 그래프 합성곱 네트워크 및 순환 신경망 등의 모델도 개인 행동 간의 관계 정보를 포착하고 분석하기 위해 일부 방법에 적용된다.
본 발명은 활동 인식에 대한 기술적 솔루션을 제공한다.
본 발명의 일 측면에 따르면, 입력 영상 프레임을 수신하고, 영상 프레임 내 적어도 한 사람의 개별 특징(individual feature)을 추출하는 단계; 개별 특징에 기초하여 사람들 그룹의 총체 특징(overall feature)을 결정하는 단계; 상기 개별 특징과 총체 특징 간의 연관 관계에 기초하여 제1 주의 분배 가중치(attention distribution weight)를 결정하는 단계; 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 단계; 및 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는 단계를 포함한다.
가능한 구현에서, 개별 특징에 기초하여 집단의 총체 특징을 결정하는 것은: 개별 특징의 초기 주의 분배 가중치를 결정하기 위해 개별 특징으로부터 추출된 특징 벡터에 대해 주의 분배 가중치 예측 처리를 수행하는 것을 포함한다. ; 및 상기 초기 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행하여 총체 특징을 얻는 단계를 포함한다.
가능한 구현에서, 개별 특징과 총체 특징 사이의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 것은, 개별 특징과 총체 특징 사이의 유사성을 결정하는 것; 및 유사성에 기초하여 제1 주의 분배 가중치를 결정하는 단계를 포함하는 방법.
가능한 구현에서, 개별 특징과 총체 특징 사이의 유사성을 결정하는 것은: 개별 특징의 특징 행렬과 총체 특징의 특징 행렬을 각각 N 부분으로 나누는 단계; 개별 특징의 N 부분의 특징과 총체 특징의 N 부분 간의 유사성을 계산하여 N 개의 유사성 값을 얻는 단계; 유사성에 기초하여 제1 주의 분배 가중치를 결정하는 것은 N개의 유사성 값에 기초하여 사람들의 그룹 내의 개별 특징들 사이의 N개의 제1 주의 분배 가중치를 결정하는 것을 포함하고; 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 것은 N개의 제1 주의 분배 가중치 값에 기초하여 총체 특징을 갱신하는 것을 포함한다.
가능한 구현에서, 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 것은: 제1 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행하여 가중치 융합 특징을 얻는 단계; 및 가중치 융합 특징과 총체 특징에 대한 융합 처리를 수행하여 갱신된 총체 특징을 얻는 단계를 포함한다.
가능한 구현에서, 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 것은 갱신된 총체 특징을 얻기 위해 제1 주의 분배 가중치를 이용하여 총체 특징의 하위특징(sub-feature)에 대해 가중치 처리를 수행하는 것을 포함한다.
가능한 구현에서, 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신한 후, 방법은 갱신된 총체 특징과 개별 특징에 대해 융합 처리를 수행하여 갱신된 개별 특징을 얻는 단계를 더 포함한다.
가능한 구현에서, 갱신된 총체 특징과 개별 특징에 대한 융합 처리를 수행한 후, 갱신된 개별 특징을 얻기 위해, 방법은 갱신된 총체 특징을 새로운 총체 특징으로 취하고 갱신된 개별 특징을 다음과 같이 취하는 단계를 더 포함한다. 반복 갱신 후 총체 특징과 개별 특징을 얻기 위해 반복 중지 조건이 만족될 때까지 새로운 총체 특징과 새로운 개별 특징을 반복적으로 갱신하는 새로운 개별 특징; 그룹 활동 인식 결과를 얻기 위해 갱신된 총체 특징에 대한 활동 인식 처리를 수행하는 것은 반복 갱신 후에 총체 특징에 대한 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는 것을 포함한다.
가능한 구현예에서, 반복 갱신 후 총체 특징 및 개별 특징을 획득한 후, 반복 갱신 후 개별 특징에 대해 개별 활동 인식 처리를 수행하여 개별 활동 인식 결과를 얻는 단계를 더 포함한다.
본 발명의 일 측면에 따른 활동 인식 장치는, 입력 영상 프레임을 수신하고, 영상 프레임 내의 적어도 한 인물의 개별 특징을 추출하는 개별 특징 추출부; 상기 개인별 특징에 기초하여 집단의 총체 특징을 결정하는 총체 특징 결정부; 상기 개별 특징과 총체 특징의 연관관계에 기초하여 제1 주의분배 가중치를 결정하는 제1 주의결정부; 상기 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 총체 특징 갱신부; 및 갱신된 총체 특징에 대한 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻도록 구성된 그룹 활동 인식부를 포함한다.
가능한 구현에서, 총체 특징 결정 유닛은 개별 특징으로부터 추출된 특징 벡터에 대해 주의 분배 가중치 예측 처리를 수행하고 개별 특징의 초기 주의 분배 가중치를 결정하도록 구성된 초기 주의 결정 유닛; 및 상기 초기 주의 분배 가중치를 이용하여 상기 개별 특징에 대해 가중치 융합 처리를 수행하여 총체 특징을 얻도록 구성된 총체 특징 초기화부를 포함한다.
가능한 구현에서, 제1 주의 결정 유닛은 개별 특징과 총체 특징 사이의 유사성을 결정하도록 구성되는 제1 유사성 결정 유닛; 및 유사성에 기초하여 제1 주의 분배 가중치를 결정하도록 구성된 제1 주의 분배 결정 서브 유닛을 포함한다.
가능한 구현에서, 제1 유사성 결정 유닛은 개별 특징의 특징 행렬과 총체 특징의 특징 행렬을 각각 N 부분으로 분할하도록 구성되는 특징 행렬 분할 유닛; 개별 특징의 N 부분의 특징과 총체 특징의 N 부분 간의 유사성을 계산하여 N 개의 유사성 값을 얻도록 구성된 유사성 판단 서브 유닛; 여기서 제1 주의 분배 결정 서브 유닛은 N개의 유사성 값에 기초하여 사람들 그룹의 개별 특징 간의 N개의 제1 주의 분배 가중치를 결정하도록 구성되고; 총체 특징 갱신 유닛은 N개의 제1 주의 분배 가중치 값에 기초하여 총체 특징을 갱신하도록 구성된다.
가능한 구현에서, 총체 특징 갱신 유닛은 제1 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행하여 가중치 융합 특징을 얻도록 구성된 가중치 융합 유닛; 및 가중치 융합 특징과 총체 특징을 융합 처리하여 갱신된 총체 특징을 얻도록 구성된 총체 특징 갱신 서브 유닛을 포함한다.
가능한 구현에서, 총체 특징 갱신 유닛은 갱신된 총체 특징을 획득하기 위해 제1 주의 분배 가중치를 이용하여 총체 특징의 하위특징에 대해 가중치 처리를 수행하도록 구성된다.
가능한 구현예에서, 장치는 갱신된 총체 특징과 개별 특징을 융합 처리하여 갱신된 개별 특징을 얻도록 구성된 개별 특징 갱신 유닛을 더 포함한다.
가능한 구현에서, 장치는 갱신된 총체 특징을 새로운 총체 특징으로 하고 갱신된 개별 특징을 새로운 개별 특징으로 취하고, 새로운 총체 특징과 새로운 개별 특징을 반복적으로 갱신하도록 구성된 반복 유닛을 더 포함한다. 반복 중지 조건이 만족될 때까지 반복 갱신 후 총체 특징과 개별 특징을 얻는 단계; 그룹 활동 인식 유닛은 반복 갱신 후 총체 특징에 대한 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻도록 구성된다.
가능한 구현에서, 장치는 반복 갱신 후에 개별 특징에 대해 개별 활동 인식 처리를 수행하여 개별 활동 인식 결과를 얻도록 구성된 개별 활동 인식 유닛을 더 포함한다.
본 개시의 일 측면에 따르면, 프로세서; 및 프로세서 실행 가능 명령을 저장하도록 구성된 메모리를 포함하며, 프로세서는 메모리에 저장된 프로세서 실행 가능 명령을 호출하여 상기 활동 인식 방법을 실행한다.
본 발명의 일 측면에 따르면, 컴퓨터 프로그램 명령이 저장되어 있는 컴퓨터 판독 가능 저장 매체가 제공되며, 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때, 상기 활동 인식 방법이 구현된다.
본 개시의 일 양태에 따르면, 컴퓨터 판독 가능 코드 또는 컴퓨터 판독 가능 코드를 운반하는 비휘발성 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품이 제공되며, 여기서 컴퓨터 판독 가능 코드는 프로세서에서 실행될 때 전자 장치의 프로세서는 위의 활동 인식 방법을 실행합니다.
본 발명의 실시형태에서는, 입력 비디오 프레임을 수신하고, 비디오 프레임 내 적어도 한 인물의 개별 특징을 추출하고; 한 집단의 총체 특징은 개인의 특징에 따라 결정된다. 개별 특징과 총체 특징 사이의 연관 관계에 기초하여 제1 주의 분배 가중치가 결정되고; 총체 특징은 제1 주의 분배 가중치를 기반으로 갱신된다. 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 획득한다. 따라서, 개별 특징과 총체 특징 사이의 연관성 관계를 기반으로 비디오 프레임에서의 주의 분배를 구함으로써 주의 분배 가중치를 계산하는 복잡성을 크게 줄이고 비디오 프레임에 대한 활동 인식의 효율성을 결정하는 것보다 향상시킵니다. 개별 특징 간의 연관 관계를 기반으로 한 주의 분배 가중치.
전술한 일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명하기 위한 것이며, 본 개시를 제한하려는 것이 아니라는 것이 이해되어야 한다. 본 발명의 다른 특징 및 측면은 아래의 첨부 도면을 참조한 예시적인 실시형태의 상세한 설명에 따라 더 명확하게 설명될 수 있다.
본 명세서에 포함되고 본 명세서의 일부를 구성하는 첨부 도면들은 본 개시의 예시적인 실시형태를 도시하며, 본 명세서와 함께 본 발명의 기술적 해결방안을 설명하는 데 사용된다.
도 1은 본 개시의 실시형태에 따른 활동 인식 방법을 도시한 흐름도이다.
도 2는 본 개시의 실시형태에 따른 응용 시나리오를 예시하는 개략도이다.
도 3은 본 개시의 실시형태에 따른 초기 총체 특징을 결정하는 과정을 나타내는 개략도이다.
도 4는 본 개시의 실시형태에 따른 특징 갱신 프로세스를 예시하는 개략도이다.
도 5는 본 개시의 실시형태에 따른 활동 인식 장치를 나타내는 블록도이다.
도 6은 본 개시의 실시형태에 따른 전자 장치를 나타내는 블록도이다.
도 7은 본 개시의 실시형태에 따른 전자 장치를 나타내는 블록도이다.
본 개시의 다양한 예시적인 실시형태, 특징 및 측면은 첨부된 도면을 참조하여 아래에서 상세히 설명된다. 첨부된 도면에서 동일한 참조번호는 동일하거나 유사한 기능을 갖는 구성요소를 나타낸다. 첨부 도면에는 실시형태의 다양한 측면이 예시되어 있지만, 특별히 언급하지 않는 한, 첨부 도면을 비례적으로 그릴 필요는 없다.
여기서 "예시적"이라는 특수 단어는 "예, 실시형태 또는 설명으로 사용됨"을 의미한다. 여기에 제공된 임의의 "예시적인" 실시형태는 반드시 다른 실시형태보다 우수하거나 더 나은 것으로 해석되는 것은 아니다.
본 명세서에서 "및/또는"이라는 용어는 연관된 객체를 설명하기 위한 연관 관계일 뿐이며, 세 가지 관계가 있을 수 있음을 나타낸다. 예를 들어, "A 및/또는 B"는 세 가지 경우를 의미한다. 즉, A만 단독으로 존재하거나, A와 B가 동시에 존재하거나, B만 단독으로 존재한다. 또한, 본 명세서에서 "적어도 하나"라는 용어는 복수 중 어느 하나 또는 복수 중 둘 이상의 임의의 조합을 의미하며, 예를 들어 "A, B, C 중 적어도 하나를 포함한다"는 의미는 A, B, C의 세트에서 선택된 어느 하나 이상의 요소를 포함하는 것을 의미할 수 있다.
또한, 본 개시 내용을 더 잘 설명할 목적으로 다음의 상세한 설명에 다양한 세부사항이 제공된다. 당업자는 본 개시가 그러한 세부사항 중 일부 없이도 여전히 구현될 수 있다는 것을 이해해야 한다. 일부 예에서, 당업자에게 잘 알려진 방법, 수단, 요소 및 회로는 본 개시의 원리가 명확해지도록 상세히 설명되지 않는다.
배경기술에서 설명한 바와 같이, 기존의 딥러닝 기반 방법은 계산 복잡도가 높으며, 그룹 활동 인식의 효율성을 더욱 향상시킬 필요가 있다.
본 개시의 실시형태에 따르면, 활동 인식 방법이 제공되며, 입력 비디오 프레임을 수신하고 비디오 프레임 내 적어도 한 사람의 개별 특징을 추출하는 단계; 개별 특징에 기초하여 사람들 그룹의 총체 특징을 결정하는 단계; 개별 특징과 총체 특징 사이의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 단계; 총체 특징을 제1 주의 분배 가중치를 기초로 갱신하는 단계; 및 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는 단계를 포함한다. 따라서 개별 특징과 총체 특징 사이의 연관성 관계를 기반으로 비디오 프레임 내 주의 분배가 얻어지며, 이는 주의 분배 가중치를 계산하는 복잡성을 크게 줄이고, 개별 특징들 간의 연관 관계를 기반으로 주의 분배 가중치를 결정하는 것에 비해 비디오 프레임에 대한 활동 인식의 효율성을 크게 향상시킨다.
가능한 구현에서, 활동 인식 방법은 단말 장치 또는 서버와 같은 전자 장치에 의해 수행될 수 있으며, 단말 장치는 사용자 장치(UE: User Equipment), 모바일 장치, 사용자 단말기, 단말기, 이동전화기, 무선 전화기, PDA(Personal Digital Assistant), 휴대용 장치, 컴퓨팅 장치, 차량 탑재 장치, 웨어러블 장치 등일 수 있으며, 상기 방법은 메모리에 저장된 컴퓨터 판독 가능 명을 호출하는 프로세서에 의해 구현될 수 있다.
더 나은 설명을 위해, 본 명세서의 하나 이상의 실시형태에서 활동 인식 방법의 실행 주체는 서버일 수 있으며, 이하에서는 실행 주체를 서버로 하여 본 발명 방법의 구현을 예로서 설명한다. 본 방법의 실행 주체는 서버이며 이는 단지 예시적인 설명일 뿐, 본 방법의 제한으로 간주해서는 안 된다는 점을 이해해야 한다.
도 1은 본 개시의 실시형태에 따른 활동 인식 방법을 도시한 흐름도이다. 도 1에 도시된 바와 같이, 활동 인식 방법은 다음의 S11 내지 S15 단계를 포함한다.
단계(S11)에서, 입력 비디오 프레임을 수신하고, 비디오 프레임 내 적어도 한 사람의 개별 특징을 추출한다.
여기서 비디오 프레임은 비디오 프레임 시퀀스 내 임의의 비디오 프레임일 수도 있고, 비디오 프레임 시퀀스 내 다수의 비디오 프레임일 수도 있다. 비디오 프레임은 비디오 프레임 시퀀스의 형태로 입력될 수 있으며, 하나의 비디오 프레임 시퀀스의 길이는 미리 정해져 있으며, 예를 들어 20 프레임일 수 있다.
비디오 프레임은 로컬 저장 공간에 저장된 비디오 프레임일 수 있으므로, 비디오 프레임은 비디오 프레임의 입력을 실현하기 위해 단말기의 로컬 저장 공간에서 판독될 수 있다. 예를 들어, 비디오 프레임은 로컬에 저장된 스포츠 경기의 녹화 비디오 중 비디오 프레임일 수도 있고, 다른 예로, 로컬에 저장된 쇼핑몰 관리용 비디오 중 비디오 프레임일 수도 있다.
또는, 비디오 프레임은 비디오 수집 장치에 의해 실시간으로 촬영된 비디오 프레임일 수도 있다. 예를 들어 스포츠 경기의 라이브 영상 중의 비디오 프레임일 수도 있고, 쇼핑몰 입구에 위치한 이미지 수집 장치에 의해 실시간으로 촬영된 비디오 프레임일 수도 있다.
비디오 프레임 내의 개인에 대해, 비디오 프레임 내 그 개인이 위치한 영역이 인체 인식 기술을 통해 인식될 수 있다. 이 영역은 종종 직사각형 상자로 표시되며, 직사각형 상자로 둘러싸인 영역은 식별된 개인이 위치한 영역이다. 동일한 개인을 인식할 때 여러 개의 직사각형 상자가 얻어질 수 있으므로, 개인이 위치한 영역을 나타내는 직사각형 상자가 비디오 프레임 내 한 사람에 대해서만 표시되도록, 비최대 억제 알고리즘(NMS: Non-Maximum Suppression) 알고리즘을 사용하여 여러 개의 직사각형 상자의 중복을 제거할 수 있다.
비디오 프레임 시퀀스 내 다수 비디오 프레임에 대하여, 다수 프레임 내에서 개인이 위치하는 영역이 상기 방법을 통해 얻어질 수 있다.
본 개시의 실시형태에서, 비디오 프레임에 대해 특징 추출 처리를 수행하여 전체 비디오 프레임의 특징을 얻은 다음, 비디오 프레임 내 개별 직사각형 상자를 사용하여 비디오 프레임에서 추출된 특징을 매칭하여, 해당하는 개별 특징을 얻는다. 예를 들어, 확장된 3차원 합성곱 네트워크(Inflated 3D ConvNet, I3D)를 이용하여 비디오 프레임의 특징을 추출할 수 있으며, I3D 네트워크의 중간 계층에서 출력되는 중간 특징에 대해 특징 추출 처리를 수행함으로써 각 개인의 특징이 얻어질 수 있다.
구체적으로, 비디오 프레임 내 개인의 위치는 전술한 바와 같이 NMS 알고리즘에 의한 중복 제거 처리 후 얻어진 다수의 직사각형 상자의 위치를 가리킨다. 비디오 프레임 내 직사각형 상자들의 위치들은 I3D 네트워크에 의해 추출된 중간 특징들에 해당한다. 관심 영역 정렬(ROIAlign: Region Of Interest Alignment) 기술을 사용하여 상기 중간 특징으로부터 직사각형 상자들의 위치들에 해당하는 특징을 추출함으로써 비디오 프레임 내 개별 특징을 얻는다. 또한, 개별 특징은 다른 방식으로 획득될 수도 있으며, 이는 본 개시에서 제한되지 않는다.
단계 S12에서는, 사람들 그룹의 총체 특징이 개별 특징을 기초로 결정된다.
사람들 그룹의 총체 특징은 그룹 내 각 개인의 특징을 기초로 얻어지며, 비디오 프레임 내 개인들의 특징의 총체를 전체로서 나타낼 수 있다. 예를 들어, 그룹 내 개인들의 특징에 대해 평균 풀링(pooling) 작업을 수행하거나, 그룹 내 개인들의 특징에 대해 무작위 풀링 작업을 수행하거나, 그룹 내 개인들의 특징에 대해 가중치 융합 작업을 수행하거나, 또는 그룹 내 각 개인들의 특징의 특징 행렬을 결합함으로써, 그룹의 총체 특징이 얻어질 수도 있다. 총체 특징을 결정하는 구체적인 방식에 대해서는, 본 개시에서 제공된 가능한 구현을 참조할 수 있으며, 이는 본 개시의 실시형태에서는 특별히 제한되지 않는다.
단계 S13에서는, 개별 특징과 총체 특징 간의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정한다.
연관 관계는 개별 특징과 총체 특징 사이의 상관관계를 나타내기 위해 사용된다. 예를 들어, 연관 관계는 개별 특징과 총체 특징 간의 유사성을 의미할 수 있으며, 따라서 제1 주의 분배 가중치는 개별 특징과 총체 특징 간의 유사성에 기초하여 결정될 수 있다.
개별 특징과 총체 특징 사이의 연관 관계는 총체 특징에 대한 개별 특징의 중요성을 나타낼 수 있으며, 이는 더 중요한 잠재적 특징을 포착하는 데 도움이 된다. 연관 관계는 제1 주의 분배 가중치와 양의 상관관계가 있다. 즉, 개별 특징이 더 밀접하게 연관될수록 그것은 총체 특징에서 더 중요하다. 따라서 총체 특징에서 개인의 밀접하게 연관된 특징의 표현 능력을 향상시키면 비디오 프레임에 대한 이벤트 인식의 정확도가 향상될 수 있다. 따라서, 개별 특징과 총체 특징의 연관 관계를 기초로 총체 특징에서의 주의를 분배하여 핵심 특징의 표현 능력을 향상시킬 수 있다.
개별 특징과 총체 특징의 연관 관계를 기반으로 개별 특징의 제1 주의 분배 가중치를 결정할 때, 그 계산 복잡도는 개별 특징의 개수(n)에 관련된다. 즉, 개별 특징의 개수가 n 이면, 개인 특성과 총체 특징 간의 연관 관계는 n번 계산해야 하며, 계산 복잡도는 n 이다. 그러나 각각 두 개의 개별 특징 간의 연관 관계를 기반으로 주의를 분배하는 경우, 개별 특징의 개수가 n인 경우 연관 관계의 계산은 n*(n-1)/2번이 필요하다. 각각 두 개의 개별 특징 사이의 연관 관계에 기초한 주의 분배와 비교하면, 본 개시의 실시형태에서는 계산 복잡도가 크게 줄고, n의 값이 더 클 경우(n>3) 단계 S13에서 주의 분배의 효율성이 향상된다.
단계 S14에서는, 제1 주의 분배 가중치에 기초하여 총체 특징이 갱신된다.
개별 특징에 대한 주의 분배 가중치를 결정한 후, 서로 다른 제1 주의 가중치 값들이 총체 특징 내 개별 특징에 할당되는데, 이는 총체 특징이 개별 특징을 기반으로 얻어지기 때문이다. 이와 같이 총체 특징이 갱신되어, 총체 특징 중 핵심 특징의 표현 능력이 향상되고 기타 특징의 간섭이 억제된다. 예를 들어, 컴퓨터 언어에서, 특징 행렬을 사용하여 개별 특징을 표현하고, 제1 주의 분배 가중치에 개별 특징의 특징 행렬을 곱하여, 총체 특징 내 개별 특징에 대한 제1 주의 분배 가중치의 할당과 총체 특징의 갱신을 실현한다. 구체적인 갱신 프로세스에 대해서는, 본 개시 내용에 의해 제공되는 가능한 구현을 참조할 수 있으며, 이는 여기서 반복되지 않는다.
단계 S15에서는, 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는다.
갱신된 총체 특징은 신경망의 완전 연결된 계층에 입력될 수 있으며, 완전 연결된 계층은 분류에 사용된다. 완전 연결된 계층은 다수의 그룹 활동 카테고리로 사전 설정된다. 총체 특징에 따라, 완전 연결된 계층은 각 그룹 활동 카테고리에 해당하는 총체 특징의 신뢰 수준을 출력할 수 있다. 가장 높은 신뢰 수준을 가진 그룹 활동 카테고리가 그룹 활동 인식 결과로서 사용될 수 있다.
예를 들어, 배구 경기 비디오 프레임에서, 추출된 시공간 개별 특징이 완전 연결된 계층에 입력되고, "좌측에서 서브"하는 개별 행동 카테고리의 신뢰 수준이 0.9이고, '좌측에서 패스'하는 개별 행동 카테고리의 신뢰 수준이 0.3이고, '좌측에서 스매싱'하는 개별 행동 카테고리의 신뢰 수준이 0.4이고, '우측에서 서브'하는 개별 행동 카테고리의 신뢰 수준이 0.1이며, '우측에서 블로킹'하는 개별 행동 카테고리의 신뢰 수준이 0.1이라고 가정하면, 가장 높은 신뢰 수준을 가진 '좌측에서 서브'하는 개별 행동 카테고리가 인식 결과로서 출력될 수 있다.
본 개시의 실시형태에 따르면, 활동 인식 방법이 제공되며, 입력 비디오 프레임이 수신되고, 비디오 프레임 내의 적어도 한 사람의 개별 특징이 추출되고; 사람들 그룹의 총체 특징이 개별 특징에 기초하여 결정되고; 개별 특징과 총체 특징 사이의 연관 관계에 기초하여 제1 주의 분배 가중치가 결정되고; 총체 특징이 제1 주의 분배 가중치를 기초로 갱신되며; 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는다. 따라서 개별 특징과 총체 특징 사이의 연관 관계를 기초로 비디오 프레임에서의 주의 분배가 얻어지며, 이는 주의 분배 가중치를 계산하는 복잡성을 크게 줄이고, 개별 특징 간의 연관 관계를 기초로 주의 분배 가중치를 결정하는 것에 비해 비디오 프레임에 대한 활동 인식의 효율성을 향상시킨다.
가능한 구현에서, 개별 특징에 기초하여 사람들 그룹의 총체 특징을 결정하는 것은: 개별 특징으로부터 추출된 특징 벡터에 대해 주의 분배 가중치 예측 처리를 수행하는 것과, 개별 특징의 초기 주의 분배 가중치를 결정하는 것과; 상기 초기 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행하여, 총체 특징을 얻는 것을 포함한다.
ROIAlign 작업에 의해 추출된 개별 특징에 대해 먼저 주의 분배 처리가 수행된 다음 융합 처리를 수행하여 총체 특징을 얻고, 주의 분배 처리를 위해 사용된 초기 주의 분배 가중치가 개별 특징의 특징 벡터를 기초로 예측될 수 있다. 예를 들어, 이것은 주의 분배 가중치 예측 네트워크를 통해 얻어질 수 있다. 구체적으로, 초기 주의 분배 가중치는 주의 분배 가중치 매핑 함수에 기초하여 얻어질 수 있다. 상기 매핑 함수는 특징 벡터와 주의 분배 가중치 간의 매핑 관계를 미리 설정한다. 그 다음에, 개별 특징의 특징 벡터에 대한 주의 분배 가중치 매핑이, 초기 주의 분배 가중치로 사용되는 개별 특징의 특징 벡터를 기반으로 매핑 함수를 통해 결정될 수 있다. 또한, 초기 주의 분배 가중치도 기타 주의 메커니즘에 기초하여 얻어질 수 있으며, 이는 본 개시에서 제한되지 않는다.
개별 특징의 주의 분배 가중치가 결정된 후, 초기 주의 분배 가중치를 사용하여 개별 특징에 대해 가중치 융합 처리를 수행함으로써 총체 특징을 얻을 수 있다. 융합 방식은 합산 작업이 될 수 있다. 즉, 초기 주의 분배 가중치를 이용하여 개별 특징에 가중치를 부여한 다음 이를 합산하여 총체 특징을 얻는 것이다.
초기 주의 분배 가중치를 통해 개별 특징에 대해 가중치 융합 처리 후 얻어진 총체 특징은 G0로 표현될 수 있다. 총체 특징(G0)을 결정하는 과정을 더 잘 이해할 수 있도록, 다음과 같은 특정 수학식을 사용하여 G0를 결정하는 과정을 설명한다. 본 개시에서 제공되는 특정 수학식은 본 개시의 실시형태의 가능한 구현이며, 본 개시의 실시형태의 범위에 대해 제한으로 간주해서는 안 된다는 점에 유의해야 한다.
가능한 구현에서, G0를 결정하는 과정을 위해 아래의 수학식(1)이 참조될 수 있다.
(1)
여기서 k는 비디오 프레임 내 각 개별 특징의 일련번호이고, Ik는 k번째 개별 특징이고, f( I k )는 개별 특징(I k )의 초기 주의 분배 가중치의 예측 함수이고, softmax는 가능한 정규화 함수이고, 모든 개별 특징의 초기 주의 분배 가중치 f(Ik) 값은 초기 주의 분배 가중치 값의 합이 1이 되도록 로지스틱 회귀 함수 softmax에 의해 연산되며, 여기서 FFN은 순방향 신경(Feed Forward Neural) 네트워크를 나타내며, 이것은 더 안정적인 특징 분배를 얻기 위해, 계산 후 얻어진 특징 행렬을 공간적으로 변환하는 데 사용된다.
수학식 (1)은 다음의 프로세스를 포함하는 언어로서 설명될 수 있으며, 상기 프로세스는: 주의 예측 함수 f( I k )를 통해 개별 특징의 초기 주의 분배 가중치를 결정하는 것, 이어서 함수 softmax를 이용하여, 초기 주의 분배 가중치의 합이 1이 되도록 초기 주의 분배를 정규화하는 것과, 이어서 정규화된 초기 주의 분배 가중치를 이용하여 개별 특징에 가중치를 부여하고 합산하는 것과, 가중치 부여 및 합산 결과를 FFN 네트워크에 입력하여 특징 행렬 변환을 통해, 총체 특징(G0)을 얻는 것을 포함한다.
가능한 구현에서, 개별 특징과 총체 특징 사이의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 것은: 개별 특징과 총체 특징 사이의 유사성을 결정하는 것; 및 상기 유사성에 기초하여 제1 주의 분배 가중치를 결정하는 것을 포함한다.
특징들 간의 유사성을 계산하는 방법에는 다양한 방법이 있을 수 있는데, 예를 들어 유클리드 거리에 기초한 유사성 계산 방법, 또는 코사인(cosine) 유사성에 기초한 유사성 계산 방법 등이 있을 수 있다. 유사성의 계산 방법은 본 개시에서 제한되지 않는다.
개별 특징들 간의 유사성을 결정한 후, 그 유사성은 정규화될 수 있다. 구체적으로, 로지스틱 회귀 함수(예를 들어, softmax 함수)가 사용될 수 있다. 정규화 후, 개별 특징의 제1 주의 분배 가중치가 얻어진다.
본 개시의 실시형태에서, 개별 특징과 총체 특징 간의 유사성이 결정되고, 유사성에 기초하여 제1 주의 분배 가중치가 결정된다. 따라서, 개별 특징과 총체 특징 간의 연관 관계가 유사성에 기초하여 규정된 다음, 총체 특징의 주의 분배 가중치가 결정된다. 총체 특징에 대해 높은 유사성을 가진 개별 특징의 표현 능력이 강화되고, 총체 특징에 대해 낮은 유사성을 가진 개별 특징의 표현 능력은 억제된다. 따라서, 유사성에 기초하여 결정된 제1 주의 분배 가중치는 그룹 활동 인식 결과의 정확성을 향상시킬 수 있다.
가능한 구현에서, 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 것은: 제1 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행하여 가중치 융합 특징을 얻는 것; 및 가중치 융합 특징과 총체 특징에 대해 융합 처리를 수행하여, 갱신된 총체 특징을 얻는 것을 포함한다.
전술한 바와 같이, 총체 특징은 개별 특징을 기초로 얻어지고, 개인들의 특징을 전체적으로 반영할 수 있다. 총체 특징에서 각각의 개별 특징을 구별하기는 어려울 수 있기 때문에, 총체 특징에 주의를 할당하기 위해 제1 주의 분배 가중치를 사용할 때, 제1 주의 분배 가중치를 사용하여 개별 특징들에 가중치를 부여하고 융합한 다음 이를 총체 특징에 추가함으로써, 총체 특징에 대한 주의 분배를 실현한다.
여기서 가중치 융합 처리는 각각의 주의 분배 가중치와 해당 개별 특징을 곱한 다음, 곱해진 결과를 더하여 가중치 부여된 융합 특징을 얻는 과정일 수 있다. 그 다음, 가중치 부여된 융합 특징과 총체 특징을 융합하는 것은 가중치 부여된 융합 특징과 총체 특징을 더하는 것일 수 있으며, 이 과정을 거친 결과는 갱신된 총체 특징으로서 사용될 수 있다.
본 개시의 실시형태에서, 제1 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행함으로써 가중치 부여된 융합 특징을 획득된 다음, 상기 가중치 부여된 융합 특징을 총체 특징과 융합하여 총체 특징의 갱신을 실현한다. 결과적으로, 개별 특징들을 구별하기 어려운 고차원의 총체 특징에 주의를 할당함으로써, 총체 특징 내 핵심 특징의 표현 능력을 강화하고 그룹 인식 결과의 정확도를 향상시킨다.
가능한 구현에서, 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 것은: 갱신된 총체 특징을 얻기 위해, 제1 주의 분배 가중치를 이용하여 총체 특징 내 하위특징에 대해 가중치 처리를 수행하는 것을 포함한다.
본 구현에서, 상기 하위특징은 각 개인을 특징짓기 위해 사용된 특징일 수 있다. 구체적으로는, 개별 특징일 수도 있고, 개별 특징을 처리하여 얻어지는, 개인을 특징짓는 특징일 수도 있다. 즉, 총체 특징 내 각 개인의 특징을 구별할 수 있다. 예를 들어, 총체 특징은 개별 특징들의 특징 행렬을 결합함으로써 얻을 수 있으며, 따라서 총체 특징의 특징 행렬 내 각각의 하위특징은 각각의 개별 특징의 특징 행렬을 나타낸다.
총체 특징에서 개별 특징들이 구별 가능하다는 것에 응답하여, 주의 가중치 처리는 각각의 개별 특징에 대해 직접 수행될 수 있다. 즉, 총체 특징을 갱신하기 위해, 제1 주의 분배 가중치를 사용하여 총체 특징 내 하위특징에 가중치를 부여한다.
본 개시의 실시형태에서는, 제1 주의 분배 가중치를 이용하여 총체 특징 내 하위특징에 대해 가중치 부여 처리가 수행되고, 총체 특징의 갱신이 적은 계산량으로 구현되며, 이에 의해 총체 특징의 갱신 효율성이 향상되고, 총체 특징 내 핵심 특징의 표현 능력이 강화되며, 그룹 인식 결과의 정확성이 향상된다.
가능한 구현에서, 제1 주의 분배 가중치를 기초로 총체 특징을 갱신한 후, 상기 방법은: 갱신된 총체 특징과 개별 특징에 대해 융합 처리를 수행하여 갱신된 개별 특징을 얻는 것을 더 포함한다.
총체 특징이 갱신된 후, 개별 특징이 추가로 갱신될 수 있다. 구체적인 방법은 갱신된 총체 특징과 개별 특징을 융합하는 것일 수 있다. 예를 들어, 갱신된 총체 특징을 각각의 개별 특징에 더하여 각각의 개별 특징의 갱신을 실현한다.
또한, 개별 특징을 갱신하는 다양한 방법이 있을 수 있다. 예를 들어, 제1 주의 분배 가중치를 이용하여 개별 특징에 가중치를 부여하고, 가중치 부여 결과를 갱신된 개별 특징으로 이용할 수 있다.
개별 특징이 갱신된 후, 관련된 후속 작업이 더 수행될 수 있다. 예를 들어, 개별 특징을 기초로 개별 활동 인식 작업이 수행되거나, 또는 개별 특징에 기초하여 총체 특징의 반복적인 갱신 작업이 수행될 수도 있다.
가능한 구현에서, 갱신된 총체 특징 및 갱신된 개별 특징을 획득한 후, 상기 방법은: 갱신된 개별 특징에 대해 개별 활동 인식 처리를 수행하여 개별 활동 인식 결과를 얻는 것을 더 포함한다.
본 개시의 실시형태에서, 개인의 활동도 인식될 수 있다. 예를 들어, 배구 게임에서, 개인은 서브, 패딩, 패스, 스파이킹, 블로킹 등과 같은 해당 게임 동작을 가질 수 있다. 개인의 활동은 개별 특징을 기초로 인식될 수도 있다.
구체적으로, 상기 갱신된 개별 특징은 신경망의 완전 연결된 계층에 입력되고, 완전 연결된 계층은 분류를 위해 사용될 수 있다. 완전 연결된 계층은 여러 게임 동작으로 사전 설정된다. 개인의 시공간적 특징에 따라, 완전 연결된 계층은 각 게임 동작에 해당하는 개인의 시공간적 특징의 신뢰 수준을 출력할 수 있으며, 가장 높은 신뢰 수준을 가진 게임 동작이 개인 활동 인식 결과로서 사용될 수 있다.
예를 들어, 배구 경기 비디오 프레임의 경우, 갱신된 개별 특징이 완전 연결된 계층에 입력되고, 게임 동작 "서브"의 신뢰 수준이 0.9이고, 게임 동작 '패딩'의 신뢰 수준이 0.3이고, 게임 동작 '패스'의 신뢰 수준이 0.4이고, 게임 동작 '스파이킹'의 신뢰 수준이 0.1이고, 게임 동작 '블로킹'의 신뢰 수준이 0.1이라고 가정하면, 가장 높은 신뢰 수준을 가진 게임 동작 '서브'가 개인 활동 인식 결과로서 출력될 수 있다.
본 개시의 실시형태에 따르면, 개별 특징의 갱신을 실현하기 위해, 갱신된 총체 특징 및 개별 특징을 융합하여 갱신된 개별 특징을 얻으며, 이것은 갱신된 개별 특징에 기초하여 관련된 후속 작업을 수행하는 것을 용이하게 한다. 예를 들어, 개별 특징에 기초하여 개인 활동 인식 동작이 수행될 수 있으며, 따라서 개인 활동 인식 결과의 정확도가 향상될 수 있다. 또는, 개별 특징을 기반으로 총체 특징의 반복적인 갱신 동작이 수행될 수 있으며, 따라서 그룹 활동 인식 결과의 정확도가 향상될 수 있다.
본 개시에서 반복 갱신의 가능한 구현은 아래에서 상세히 설명될 것이다. 가능한 구현에서, 갱신된 개별 특징을 얻기 위해 갱신된 총체 특징과 개별 특징에 대해 융합 처리를 수행한 후, 상기 방법은: 갱신된 총체 특징을 새로운 총체 특징으로 취하고, 갱신된 개별 특징을 새로운 개별 특징으로 취하는 것과, 반복 중지 조건이 충족될 때까지 총체 특징과 개별 특징을 반복적으로 갱신하여, 반복 갱신 후의 총체 특징과 개별 특징을 얻는 것을 더 포함하며, 여기서 그룹 활동 인식 결과를 얻기 위해 상기 갱신된 총체 특징에 대해 활동 인식 처리를 수행하는 것은 반복 갱신 후의 총체 특징에 대해 활동 인식 처리를 수행하여, 그룹 활동 인식 결과를 얻는 것을 포함한다.
구체적으로, 갱신된 총체 특징이 새로운 총체 특징으로 취해지고, 갱신된 개별 특징이 새로운 개별 특징으로 취해질 수 있으며, 상기 단계들 S13 및 S14와, 개별 특징을 갱신하는 단계가 다시 실행된다. 즉, 개별 특징과 총체 특징 사이의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 단계, 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 단계, 및 갱신된 총체 특징과 개별 특징에 융합 처리를 수행하여 갱신된 개별 특징을 얻는 단계가 다시 수행되어, 반복 갱신 후의 최종 개별 특징을 얻는다.
총체 특징(Gi)을 갱신한 후 갱신된 총체 특징은 Gi +1로 표시된다. 총체 특징에 대한 반복 프로세스를 더 잘 이해할 수 있도록, 특정 수학적 표현과 함께 예시를 제공한다. 특정 수학적 표현은 본 개시의 실시형태에서 가능한 구현이며, 본 개시의 실시형태의 범위를 제한하는 것으로 간주해서는 안 된다는 점에 유의해야 한다.
가능한 구현에서, 총체 특징의 반복 프로세스에 대해 아래의 수학식 (2)가 참조될 수 있다:
(2)
여기서 i는 반복 횟수이고, G0는 초기 총체 특징이고, G1은 첫 번째 반복 후 얻은 총체 특징이고, Gi는 i 번째 반복 후 얻은 총체 특징이고, g( I k ,G i )는 Ik와 Gi 사이의 유사성을 결정하기 위해 사용되고, softmax는 정규화 함수이고, 모든 개별 특징과 총체 특징 사이의 유사성은 그 합이 1인 것을 보장하도록 함수 softmax에 의해 연산되며, FFN은 순방향 신경(Feed Forward Neural) 네트워크를 나타내며, 이것은 Gi와의 합산을 수행하기 위해 계산 후 얻은 특징 행렬을 변환하는 데 사용된다.
수학식 (2)는 다음 프로세스와 같은 언어로서 설명될 수 있으며, (i+1) 번째 반복을 수행하고, 먼저 i번째 반복에서 얻은 총체 특징(Gi)과 개별 특징(Ik) 사이의 유사성을 결정하고, 그런 다음 함수 softmax를 이용하여 유사성을 정규화하여 제1 주의 분배 가중치를 구하고, 제1 주의 분배 가중치의 값들의 합이 1이 되도록 확인한 다음, 정규화된 제1 주의 분배 가중치를 이용하여 개별 특징에 가중치를 부여하여 합산하고, 가중치 부여 및 합산 결과를 특징 행렬 변환을 위해 FFN 네트워크에 입력하며, 특징 행렬 변환의 결과를 Gi와 합산하여 총체 특징(Gi + 1)을 얻는 것을 포함한다.
가능한 구현에서, 개별 특징과 총체 특징 사이의 유사성을 결정하는 것은: 개별 특징의 특징 행렬과 총체 특징의 특징 행렬을 각각 N 개 부분으로 나누는 과정; 개별 특징의 N 개 부분 특징과 총체 특징의 N 개 부분 특징 간의 유사성을 계산하여 N 개의 유사성 값을 얻는 과정을 포함하며; 여기서 유사성에 기초하여 제1 주의 분배 가중치를 결정하는 것은 N 개의 유사성 값에 기초하여 그룹 내의 개별 특징들 사이의 N 개의 제1 주의 분배 가중치를 결정하는 것을 포함하고; 여기서 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 것은 N 개의 제1 주의 분배 가중치 값에 기초하여 총체 특징을 갱신하는 것을 포함한다.
컴퓨터 기술에서, 개별 특징과 총체 특징의 구체적인 표현 형식은 특징 행렬이다. 예를 들어, 개별 특징의 특징 행렬의 크기가 T×1024라고 가정하면, 특징 행렬은 N 개의 부분으로 분할될 수 있고, N은 1보다 큰 정수이다. 예를 들어, N이 8인 경우, T×1024의 특징 행렬은 8개 부분으로 분할되고, 분할된 행렬은 8×T×128로 표현될 수 있다. 또 다른 예로, N이 4인 경우, 즉 T×1024의 특징 행렬은 4개 부분으로 분할되고, 분할된 행렬은 4×T×256으로 표현될 수 있으며, 여기서 T는 특징 행렬의 차원이다.
개별 특징과 총체 특징 간의 유사성을 계산할 때, N 개 특징 부분 각각에 대해 해당 유사성을 계산하여 N 개 유사성 값을 얻을 수 있다. 예를 들어, T×1024 크기의 특징 행렬의 경우, N이 8일 때, 특징 행렬 내 T×128 크기의 하위특징 행렬 8개 부분과, 다른 특징 행렬 내 T×128 크기의 하위특징 행렬 사이의 유사성이 계산된다. 이런 식으로, 8개 유사성 값이 얻어지며, 이는 크기가 8인 행렬로 표현될 수 있다. 그러나 T×1024 크기의 특징 행렬 2개에 대해서는, 하나의 유사성 값만 얻을 수 있다. 따라서 하나의 유사성 값에 비해, 8개 유사성 값은 개별 특징과 총체 특징 간의 관계의 다양성을 향상시킬 수 있으며, 개별 특징과 총체 특징 간의 관계를 보다 정확하게 설명할 수 있다.
N 개의 유사성 값을 얻은 후, N 개의 유사성 값을 기반으로 개별 특징과 총체 특징 간의 N 개의 제1 주의 분배 가중치가 결정될 수 있다. 제1 주의 분배 가중치를 결정하는 구체적인 방법은 전술한 관련 설명에서 참조할 수 있으며, 여기서는 다시 설명하지 않는다. 따라서, 총체 특징을 갱신하는 경우 총체 특징은 N 개의 제1 주의 분배 가중치를 기반으로 갱신될 수 있다.
본 개시의 실시형태에서, 개별 특징의 특징 행렬과 총체 특징의 특징 행렬은 각각 N 개의 부분으로 분할되고; 개별 특징의 N 개 부분 특징과 총체 특징의 N 개 부분 특징 사이의 유사성을 계산하여 N 개의 유사성 값을 얻고; N 개의 유사성 값을 기반으로 그룹 내 개별 특징들 간의 N 개의 제1 주의 분배 가중치 값이 결정된다. 따라서, 개별 특징과 총체 특징 사이의 관계의 다양성이 향상되고, 개별 특징과 총체 특징 사이의 관계가 더 정확하게 기술될 수 있다.
본 개시의 실시형태의 응용 시나리오가 아래에 설명될 것이다. 도 2를 참조하면, 본 개시의 실시형태가 제공하는 활동 인식 방법의 응용 시나리오를 예시하는 개략도이다. 이 응용 시나리오에서, 배구 경기의 비디오 프레임 시퀀스에 대해 배구 활동 인식이 수행되며, 배구 활동에는 "좌측 서브", "좌측 스매싱", "우측 서브", "오른족 블로킹" 등의 동작이 포함될 수 있다. 배구 경기의 비디오 프레임 시퀀스에 대해 개별 특징 추출 처리를 수행하여 다수의 개별 특징을 얻은 다음, 코아 네트워크를 통해 그룹 특징을 얻은 후, 그룹 특징을 분류하여 그룹 특징에 의해 기술된 배구 활동의 카테고리를 얻는다.
도 3 및 도 4는 코아 네트워크의 시나리오를 도시하는 개략도이다. 도 3은 초기 총체 특징을 결정하는 프로세스를 예시한 개략도로서, Ik =0,1…은 k 개의 개별 특징을 나타낸다. 주의 예측 함수 f( I k )를 통해 개별 특징의 초기 주의 분배 가중치를 결정한 후, softmax 함수를 이용하여 상기 초기 주의 분배 가중치를 정규화하고, 초기 주의 분배 가중치 값의 합이 1이 되도록 보장한 다음, 상기 정규화된 초기 주의 분배 가중치를 이용하여 개별 특징에 가중치를 부여하고 총합하며, 상기 가중치 부여 총합한 결과를 FFN 네트워크에 입력하여 특징 행렬 변환을 통해 총체 특징(G0)을 얻는다.
도 4는 총체 특징과 개별 특징의 갱신 프로세스를 예시한 개략도이며, 여기서 I k=0,1… 은 k 개의 개별 특징을 나타낸다. i 번째 반복에서 얻은 총체 특징(Gi)과 개별 특징(Ik)의 유사성을 함수 g( I k ,G i )를 통해 결정한 후, 함수 softmax를 이용하여 상기 유사성을 정규화하여 제1 주의 분배 가중치를 얻는다. 제1 주의 분배 가중치 값들의 합이 1이 되도록 보장하고, 정규화된 제1 주의 분배 가중치를 이용하여 개별 특징에 가중치를 부여하고 총합한 후, 그 결과를 FFN 네트워크에 입력하여 특징 행렬 변환을 수행하며, 특징 행렬 변환의 결과를 Gi와 더하여 총체 특징(Gi + 1)을 얻는다. 총체 특징(Gi+1)과 개별 특징()을 결합하고 더하여, 갱신된 개별 특징()을 얻을 수 있다.
본 개시에서 언급된 전술한 다양한 방법 실시형태들은 원칙적 논리를 벗어나지 않으면서 서로 결합하여 결합된 실시형태를 형성할 수 있다는 것이 이해될 수 있다. 상세한 내용은 지면의 제약으로 인해 본 개시에서 다시 설명하지 않는다. 당업자는 전술한 실시형태의 방법에서 각 단계의 구체적인 실행 순서는 그 기능과 가능한 내부 논리에 따라 결정되어야 한다는 것을 이해할 수 있다.
또한, 본 개시는 활동 인식 장치, 전자 장치, 컴퓨터 판독 가능한 저장 매체, 및 프로그램을 더 제공하며, 이들 각각은 본 개시에서 제공된 활동 인식 방법들 중 어느 하나를 구현하도록 구성될 수 있다. 해당하는 기술 솔루션 및 설명은, 방법 부분의 해당 내용을 참조할 수 있다. 자세한 내용은 여기서 다시 설명하지 않는다.
도 5는 본 개시의 실시형태에 따른 활동 인식 장치를 예시하는 블록도이다. 도 5를 참조하면, 장치(50)는 개별 특징 추출부(51), 총체 특징 결정부(52), 제1 주의 결정부(53), 총체 특징 갱신 유닛(54) 및 그룹 활동 인식 유닛(55)을 포함한다. 개별 특징 추출 유닛(51)은 입력 비디오 프레임을 수신하고, 비디오 프레임 내 적어도 한 사람의 개별 특징을 추출하도록 구성된다. 총체 특징 결정 유닛(52)은 상기 개별 특징을 기초로 한 그룹의 사람들의 총체 특징을 결정하도록 구성된다. 제1 주의 결정 유닛(53)은 개별 특징과 총체 특징 간의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하도록 구성된다. 총체 특징 갱신 유닛(54)은 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하도록 구성된다. 그리고 그룹 활동 인식 유닛(55)은 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여, 그룹 활동 인식 결과를 얻도록 구성된다.
가능한 구현에서, 총체 특징 결정 유닛(52)은: 개별 특징으로부터 추출된 특징 벡터에 대해 주의 분배 가중치 예측 처리를 수행하고, 개별 특징의 초기 주의 분배 가중치를 결정하도록 구성된 초기 주의 결정 유닛; 및 상기 초기 주의 분배 가중치를 이용하여 상기 개별 특징에 대해 가중치 융합 처리를 수행함으로써, 총체 특징을 얻도록 구성된 총체 특징 초기화 유닛을 포함한다.
가능한 구현에서, 제1 주의 결정 유닛(53)은: 개별 특징과 총체 특징 사이의 유사성을 결정하도록 구성된 제1 유사성 결정 유닛; 및 상기 유사성에 기초하여 제1 주의 분배 가중치를 결정하도록 구성된 제1 주의 분배 결정 서브유닛을 포함한다.
가능한 구현에서, 제1 유사성 결정 유닛은: 개별 특징의 특징 행렬과 총체 특징의 특징 행렬을 각각 N 개 부분으로 분할하도록 구성된 특징 행렬 분할 유닛; 및개별 특징의 N 개 특징 부분과 총체 특징의 N 개 특징 부분 간의 유사성을 계산하여 N 개 유사성 값을 얻도록 구성된 유사성 결정 서브유닛을 포함하고, 여기서 제1 주의 분배 결정 서브유닛은 상기 N 개의 유사성 값에 기초하여 그룹 내 개별 특징들 간의 N 개의 제1 주의 분배 가중치 값을 결정하도록 구성된다. 총체 특징 갱신 유닛(54)은 N 개의 제1 주의 분배 가중치 값에 기초하여 총체 특징을 갱신하도록 구성된다.
가능한 구현에서, 총체 특징 갱신 유닛(54)은: 제1 주의 분배 가중치를 이용하여 개별 특징에 대해 가중치 융합 처리를 수행함으로써, 가중치 융합 특징을 얻도록 구성된 가중치 융합 유닛; 및 상기 가중치 융합 특징과 총체 특징에 융합 처리를 수행하여 갱신된 총체 특징을 얻도록 구성된 총체 특징 갱신 서브유닛을 포함한다.
가능한 구현에서, 총체 특징 갱신 유닛(54)은: 제1 주의 분배 가중치를 이용하여 총체 특징 내 하위특징에 가중치 부여 처리를 수행함으로써, 갱신된 총체 특징을 얻도록 구성된다.
가능한 구현에서, 장치(50)는 갱신된 총체 특징과 개별 특징에 융합 처리를 수행하여, 갱신된 개별 특징을 얻도록 구성된 개별 특징 갱신 유닛을 더 포함한다.
가능한 구현에서, 장치(50)는 갱신된 총체 특징을 새로운 총체 특징으로 그리고 갱신된 개별 특징을 새로운 개별 특징으로 취하고, 새로운 총체 특징과 새로운 개별 특징을 반복 중지 조건이 충족될 때까지 반복적으로 갱신하여 반복 갱신 후의 총체 특징과 개별 특징을 얻도록 구성된 반복 유닛을 더 포함하고; 그룹 활동 인식 유닛(55)은 상기 반복 갱신 후의 총체 특징에 활동 인식 처리를 수행하여, 그룹 활동 인식 결과를 얻도록 구성된다.
가능한 구현에서, 장치(50)는 상기 반복 갱신 후 개별 특징에 개별 활동 인식 처리를 수행하여, 개별 활동 인식 결과를 얻도록 구성된 개별 활동 인식 유닛을 더 포함한다.
일부 실시형태에서, 본 개시의 실시형태에 의해 제공되는 장치에 의해 제공되는 기능 또는 장치에 포함된 모듈은 전술한 방법 실시형태에서 설명된 방법을 구현하는 데 사용될 수 있다. 특정 구현에 대해서는, 위의 방법 실시형태의 설명을 참조할 수 있다. 간결함을 위해 자세한 내용은 여기서 다시 설명하지 않는다.
본 개시의 실시형태는 컴퓨터 프로그램 명령이 저장된 컴퓨터 판독 가능 저장 매체를 추가로 제공하며, 여기서 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때, 위의 활동 인식 방법이 구현된다. 컴퓨터 판독 가능 저장 매체는 비휘발성 컴퓨터 판독 가능 저장 매체 또는 휘발성 컴퓨터 판독 가능 저장 매체일 수 있다.
본 개시의 실시형태는 프로세서; 및 프로세서 실행 가능 명령을 저장하도록 구성된 메모리를 포함하며, 프로세서는 메모리에 저장된 프로세서 실행 가능 명령을 호출하여 상기 활동 인식 방법을 실행한다.
본 개시의 실시형태는 컴퓨터 판독 가능 코드 또는 컴퓨터 판독 가능 코드를 저장하는 비휘발성 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품을 추가로 제공하며, 여기서 컴퓨터 판독 가능 코드가 전자 장치의 프로세서에서 실행될 때, 전자 장치의 프로세서는 위의 활동 인식 방법을 실행한다.
상기 전자 장치는 단말기, 서버 또는 다른 형태의 장비로 제공될 수 있다.
도 6은 본 개시의 실시형태에 따른 전자 장치(800)를 나타내는 블록도이다. 예를 들어, 전자 장치(800)는 이동전화기, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 장치, 게임 콘솔, 태블릿 장치, 의료 기기, 운동 기구, 개인 휴대 단말기 등과 같은 단말기일 수 있다.
도 6에 도시된 바와 같이, 전자 장치(800)는 다음 구성요소들 중 하나 이상을 포함할 수 있다: 처리 구성요소(802), 메모리(804), 전원공급 구성요소(806), 멀티미디어 구성요소(808), 오디오 구성요소(810), 입출력(I/O) 인터페이스(812), 센서 구성요소(814), 및 통신 구성요소(816).
처리 구성요소(802)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 작동 및 녹음 작업과 관련된 작동과 같은 전자 장치(800)의 전체적인 작동을 제어한다. 처리 구성요소(802)는 상기 방법들의 단계들 중 전부 또는 일부를 구현하기 위한 명령을 실행하는 하나 이상의 프로세서(820)를 포함할 수 있다. 또한, 처리 구성요소(802)는 처리 구성요소(802)와 다른 구성요소 사이의 상호 작용을 용이하게 하기 위해 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 처리 구성요소(802)는 멀티미디어 구성요소(808)와 처리 구성요소(802) 사이의 상호작용을 용이하게 하기 위해 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 전자 장치(800)에서의 동작을 지원하기 위해 다양한 유형의 데이터를 저장하도록 구성된다. 데이터의 예로는 전자 장치(800)에서 작동되는 임의의 애플리케이션 또는 방법을 위한 명령, 연락처 데이터, 연락처 목록 데이터, 메시지, 사진, 동영상 등이 포함된다. 메모리(804)는 SRAM(Static Random-Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), EPROM(Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), ROM(Read-Only Memory), 자기 메모리, 플래시 메모리, 디스크 또는 광 디스크와 같은 임의 유형의 휘발성 또는 비휘발성 저장 장치 또는 이들의 조합으로 구현될 수 있다.
전원공급 구성요소(806)는 전자 장치(800)의 다양한 구성요소에 전력을 제공한다. 전원공급 구성요소(806)는 전력 관리 시스템, 하나 이상의 전원 공급 장치, 그리고 전자 장치(800)를 위한 전력 생성, 관리 및 분배와 연관된 기타 구성요소를 포함할 수 있다.
멀티미디어 구성요소(808)는 출력 인터페이스를 제공하는 전자 장치(800)와 사용자 사이의 스크린을 포함한다. 일부 실시형태에서, 스크린은 LCD(Liquid Crystal Display) 및 터치 패널(TP: Touch Panel)를 포함할 수 있다. 스크린이 TP를 포함하는 경우, 스크린은 사용자로부터 입력 신호를 수신하기 위한 터치스크린으로 구현될 수 있다. TP에는 TP의 터치, 스와이프 및 제스처를 감지하기 위한 하나 이상의 터치 센서가 포함되어 있다. 터치 센서는 터치나 스와이프 동작의 경계를 감지할 수 있을 뿐만 아니라, 터치나 스와이프 동작과 관련된 지속 시간과 압력도 감지할 수 있다. 일부 실시형태에서, 멀티미디어 구성요소(808)는 전면 카메라 및/또는 후면 카메라를 포함한다. 전자 장치(800)가 동작 모드(예를 들어 사진 모드, 비디오 모드)인 경우, 전면 카메라 및/또는 후면 카메라는 외부 멀티미디어 데이터를 수신할 수 있다. 전면 카메라와 후면 카메라는 각각 고정된 광학 렌즈 시스템이거나, 초점 거리 및 광학 줌 기능을 가질 수 있다.
오디오 구성요소(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 구성요소(810)는 마이크(MIC)를 포함하고, 마이크는 전자 장치(800)가 통화 모드, 녹음 모드, 음성 인식 모드 등의 동작 모드일 때 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(804)에 추가로 저장되거나 통신 구성요소(816)를 통해 전송될 수 있다. 일부 실시형태에서, 오디오 구성요소(810)는 오디오 신호를 출력하기 위한 스피커를 더 포함한다.
I/O 인터페이스(812)는 처리 구성요소(802)와, 키보드, 클릭 휠, 버튼 등일 수 있는 주변 인터페이스 모듈 사이에 인터페이스를 제공한다. 버튼은 다음을 포함할 수 있지만 이에 제한되지는 않는다: 홈 버튼, 볼륨 버튼, 시작 버튼, 잠금 버튼.
센서 구성요소(814)는 전자 장치(800)에 대한 다양한 측면에서 상태 평가를 제공하기 위한 하나 이상의 센서를 포함한다. 예를 들어, 센서 구성요소(814)는 전자 장치(800)의 온/오프 상태, 및 예를 들어 전자 장치(800)의 디스플레이, 키패드인 구성요소들의 상대적 위치를 검출할 수 있으며, 센서 구성요소(814)는 전자 장치(800) 또는 전자 장치(800)의 구성요소의 위치 변화, 전자 장치(800)와 사용자의 접촉 유무, 전자 장치(800)의 배향 또는 가속/감속, 및 전자 장치(800)의 온도 변화를 추가로 검출할 수 있다. 센서 구성요소(814)는 근접 센서를 포함할 수 있으며, 근접 센서는 물리적 접촉이 없을 때 근처에 물체의 존재를 감지하도록 구성된다. 센서 구성요소(814)는 이미징 응용 분야에 사용하기 위해 CMOS(Complementary Metal Oxide Semiconductor) 또는 CCD(Charge Coupled Device) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시형태에서, 센서 구성요소(814)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서, 또는 온도 센서를 더 포함할 수 있다.
통신 구성요소(816)는 전자 장치(800)와 기타 장치들 사이의 유선 또는 무선 통신을 용이하게 하도록 구성된다. 전자 장치(800)는 무선 네트워크(WiFi), 2세대 이동통신 기술(2G), 3세대 이동통신 기술(3G), 또는 이들의 조합 등의 통신 표준을 기반으로 무선 네트워크에 접속할 수 있다. 예시적인 일 실시형태에서, 통신 구성요소(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 예시적인 일 실시형태에서, 통신 구성요소(816)는 단거리 통신을 용이하게 하기 위해 NFC(Near Field Communication) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 RFID(Radio Frequency Identification) 기술, IrDA(Infrared Data Association) 기술, UWB(Ultra-Wideband) 기술, BT(Bluetooth) 기술 등을 기반으로 구현될 수 있다.
예시적인 실시형태에서, 전자 장치(800)는 전술한 방법을 실행하기 위해 하나 이상의 ASIC(주문형 집적 회로), DSP(디지털 신호 처리기), DSPD(디지털 신호 처리 장치), PLD(Programmable Logic Devices ), FPGA(Field-Programmable Gate Arrays), 컨트롤러, 마이크로컨트롤러, 마이크로프로세서 또는 기타 전자 요소들에 의해 구현될 수 있다.
예시적인 실시형태에서, 비휘발성 컴퓨터 판독 가능 저장 매체, 예를 들어 전술한 방법을 구현하기 위해 전자 장치(800)의 프로세서(820)에 의해 실행될 수 있는 컴퓨터 프로그램 명령을 포함하는 메모리(804)가 추가로 제공된다.
도 7은 본 개시의 실시형태에 따른 전자 장치(1900)를 나타내는 블록도이다. 예를 들어, 전자 장치(1900)는 서버로서 제공될 수 있다. 도 7에 도시된 바와 같이, 전자 장치(1900)는 하나 이상의 프로세서를 더 포함하는 처리 구성요소(1922), 및 메모리(1932)로 표시되고 처리 구성요소(1922)에 의해 실행 가능한 명령, 예를 들어 응용 프로그램을 저장하도록 구성된 메모리 리소스를 포함한다. 메모리(1932)에 저장된 응용 프로그램은 하나 이상의 모듈을 포함할 수 있으며, 각 모듈은 한 세트의 명령에 해당한다. 또한, 처리 구성요소(1922)는 전술한 방법을 실행하기 위한 명령을 실행하도록 구성될 수 있다.
전자 장치(1900)는 전자 장치(1900)의 전력 관리를 실행하도록 구성된 전원공급 구성요소(1926), 전자 장치(1900)를 네트워크에 연결하도록 구성된 유무선 네트워크 인터페이스(I/F)(1950), 및 입/출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 장치(1900)는 메모리(1932)에 저장된 운영 체제, 예를 들어 마이크로소프트 서버 운영 체제(Windows ServerTM), 애플의 GUI-기반 운영 체제(Mac OS XTM), 멀티-유저 및 멀티-프로세스 컴퓨터 운영 체제(UnixTM), 무료 오픈 소스 Unix 계열 운영 체제(LinuxTM), 오픈 소스 Unix 계열 운영 체제(FreeBSDTM) 등의 운영 체제를 기반으로 동작할 수 있다.
예시적인 실시형태에서, 비휘발성 컴퓨터 판독 가능 저장 매체, 예를 들어 전술한 방법을 구현하기 위해 전자 장치(1900)의 프로세서(1922)에 의해 실행될 수 있는 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 추가로 제공된다.
본 개시 내용은 시스템, 방법 및/또는 컴퓨터 프로그램 제품에 의해 구현될 수 있다. 컴퓨터 프로그램 제품은 프로세서가 본 개시 내용의 측면을 실행하게 하기 위한 컴퓨터 판독 가능 프로그램 명령을 갖는 컴퓨터 판독 가능 저장 매체를 포함할 수 있다.
컴퓨터 판독 가능 저장 매체는 명령 실행 장치에 의해 사용되는 명령을 보유하고 저장할 수 있는 유형의 장치일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어 전자 저장 장치, 자기 저장 장치, 광학 저장 장치, 전자기 저장 장치, 반도체 저장 장치 또는 이들의 임의의 적절한 조합일 수 있지만 이에 제한되지는 않는다. 컴퓨터 판독 가능 저장 매체의 더 구체적인 예의 비포괄적 목록에는 휴대용 컴퓨터 디스켓, 하드 디스크, RAM(Random Access Memory), ROM(read-only memory), EPROM 또는 플래시 메모리, SRAM(static random access memory), 휴대용 CD-ROM(compact disc read-only memory), DVD(digital versatile disk), 메모리 스틱, 플로피 디스크, 기계적으로 인코딩된 장치(예: 펀치 카드 또는 명령이 기록된 홈에 있는 융기된 구조)및 이들의 임의의 적절한 조합이 포함된다. 본 명세서에 언급된 컴퓨터 판독 가능 저장 매체는, 전파 또는 기타 자유롭게 전파되는 전자기파, 도파관을 통해 전파되는 전자기파 또는 기타 전송 매체(예: 광섬유를 통과하는 광 펄스)와 같은 일시적인 신호 자체 또는 전선을 통해 전송되는 전기 신호로 해석되어서는 안 된다.
본 명세서에 설명된 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 저장 매체로부터 개별 컴퓨팅/처리 장치로 다운로드될 수 있거나, 네트워크, 예를 들어 인터넷, 근거리 네트워크, 광역 네트워크 및/또는 무선 네트워크를 통해 외부 컴퓨터 또는 외부 저장 장치로 다운로드될 수 있다. 네트워크는 구리 전송 케이블, 광 전송 섬유, 무선 전송, 라우터, 방화벽, 스위치, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함할 수 있다. 각각의 컴퓨팅/처리 장치의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능 프로그램 명령을 수신하고, 각각의 컴퓨팅/처리 장치의 컴퓨터 판독 가능 저장 매체에 저장하기 위해 컴퓨터 판독 가능 프로그램 명령을 전달한다.
본 개시의 동작을 수행하기 위한 컴퓨터 판독 가능 프로그램 명령어는 어셈블러 명령어, 명령어-세트-아키텍처(ISA) 명령어, 기계 명령어, 기계-관련 명령어, 마이크로코드, 펌웨어 명령어, 상태-설정 데이터, 또는 Smalltalk, C++ 등과 같은 객체 지향 프로그래밍 언어와 "C" 프로그래밍 언어 또는 유사한 프로그래밍과 같은 기존의 절차적 프로그래밍 언어를 포함하여 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 오브젝트 코드일 수 있다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자 컴퓨터에서, 부분적으로 사용자 컴퓨터에서, 독립형 소프트웨어 패키지로서, 부분적으로 사용자 컴퓨터에서 그리고 부분적으로 원격 컴퓨터에서, 또는 완전히 원격 컴퓨터나 서버에서 실행될 수 있다. 원격 컴퓨터를 사용하는 시나리오에서, 원격 컴퓨터는 LAN(local region network) 또는 WAN(wide region network)을 포함한 모든 유형의 네트워크를 통해 사용자 컴퓨터에 연결되거나, (예를 들어, 인터넷 서비스 제공자의 인터넷 연결을 통해) 외부 컴퓨터에 연결될 수 있다. 일부 실시형태에서, 프로그래밍 가능 논리 회로(PLC: programmable logic circuitry), FPGA(field-programmable gate arrays) 또는 프로그래밍 가능 논리 어레이(PLA: programmable logic arrays)와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 정보로부터 맞춤화될 수 있으며; 상기 전자 회로는 본 개시의 측면들을 달성하기 위해 컴퓨터 판독 가능 프로그램 명령을 실행할 수 있다.
본 개시의 측면들은 본 개시의 실시형태에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 명세서에서 설명되었다. 흐름도 및/또는 블록도의 각 블록과 흐름도 및/또는 블록도의 블록 조합은 컴퓨터 판독 가능 프로그램 명령에 의해 구현될 수 있다는 것이 이해될 것이다.
이러한 컴퓨터 판독 가능 프로그램 명령어는 범용 컴퓨터, 전용 컴퓨터, 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서에 제공되어 기계를 생성할 수 있으며, 따라서 명령어는 컴퓨터의 프로세서 또는 기타 프로그래밍 가능한 데이터 처리 장치에 의해 실행될 때 흐름도 및/또는 블록도의 하나 이상의 블록에 명시된 기능/동작을 구현하기 위한 수단을 생성한다. 이러한 컴퓨터 판독 가능 프로그램 명령어는 컴퓨터 판독 가능 저장 매체에도 저장될 수 있으며, 여기서 명령어는 컴퓨터, 프로그래밍 가능한 데이터 처리 장치 및/또는 기타 장치가 특정 방식으로 기능하게 하여, 명령어가 저장된 컴퓨터 판독 가능 저장 매체가 순서도 및/또는 블록도의 하나 이상의 블록에 지정된 기능/동작의 측면을 구현하는 명령을 포함하는 제품을 포함한다.
컴퓨터 판독 가능 프로그램 명령은 또한 컴퓨터 구현 프로세스를 생성하기 위해 컴퓨터, 기타 프로그램 가능한 데이터 처리 장치, 또는 기타 장치에서 수행되는 일련의 동작 단계를 갖도록 컴퓨터, 기타 프로그램 가능한 장치 또는 기타 장치에 탑재될 수 있으며, 컴퓨터, 기타 프로그램 가능한 장치 또는 기타 장치에서 실행되는 명령은 순서도 및/또는 블록도의 하나 이상의 블록에 지정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 개시의 다양한 실시형태에 따른 시스템, 방법 및 컴퓨터 프로그램 제품에 의해 구현될 수 있는 아키텍처, 기능 및 동작을 예시한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 지정된 논리 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령을 포함하는 모듈의 일부, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생할 수 있다. 예를 들어, 두 개의 인접한 블록은 사실상 동시에 실행될 수 있으며, 때로는 관련된 기능에 따라 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록과 블록도 및/또는 흐름도의 블록 조합은 지정된 기능이나 동작을 수행하는 전용 하드웨어 기반 시스템에 의해, 또는 전용 하드퉤어 및 컴퓨터 명령의 조합에 의해 구현될 수 있다는 점에 유의할 필요가 있다.
컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 이들의 조합으로 구체적으로 구현될 수 있다. 선택적인 실시형태에서, 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로 구현되고, 다른 선택적인 실시형태에서, 컴퓨터 프로그램 제품은 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
본 개시의 실시형태가 위에서 설명되었지만, 위의 설명은 단지 예시일 뿐이며 완전한 것은 아니라는 것이 이해될 것이다. 개시된 실시형태는 제한적이지 않다는 점을 이해해야 한다. 설명된 실시형태의 범위 및 사상을 벗어나지 않고 당업자에게 다양한 변형 및 수정이 떠오를 수 있다. 본 개시에서 사용되는 용어들은 실시형태의 원리와 실제 응용, 그리고 현재 시장에 존재하는 기술의 기술적 개선을 가장 잘 설명하기 위해, 또는 본 명세서에서 설명되는 실시형태를 당업자가 이해할 수 있도록 하기 위해 선택된 용어이다.

Claims (13)

  1. 활동 인식 방법에 있어서,
    입력 비디오 프레임을 수신하고, 비디오 프레임 내 인물의 개별 특징을 추출하는 단계;
    상기 개별 특징에 기초하여 사람들 그룹의 총체 특징을 결정하는 단계;
    상기 개별 특징과 상기 총체 특징 간의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 단계;
    상기 제1 주의 분배 가중치에 기초하여 상기 총체 특징을 갱신하는 단계; 및
    상기 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 그룹 활동 인식 결과를 얻는 단계를 포함하는, 활동 인식 방법.
  2. 제1항에 있어서,
    개별 특징을 기초로 사람들 그룹의 총체 특징을 결정하는 상기 단계는,
    상기 개별 특징으로부터 추출된 특징 벡터에 대해 주의 분배 가중치 예측 처리를 수행하여, 상기 개별 특징의 초기 주의 분배 가중치를 결정하는 단계, 및
    상기 초기 주의 분배 가중치를 이용하여 상기 개별 특징에 대해 가중치 융합 처리를 수행하여, 상기 총체 특징을 얻는 단계를 포함하는, 활동 인식 방법.
  3. 제1항 또는 제2항에 있어서,
    개별 특징과 총체 특징 간의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하는 상기 단계는,
    상기 개별 특징과 상기 총체 특징 사이의 유사성을 결정하는 단계; 및
    상기 유사성에 기초하여 상기 제1 주의 분배 가중치를 결정하는 단계를 포함하는, 활동 인식 방법.
  4. 제3항에 있어서,
    개별 특징과 총체 특징 사이의 유사성을 결정하는 상기 단계는,
    상기 개별 특징의 특징 행렬과 상기 총체 특징의 특징 행렬을 각각 N 개의 부분으로 분할하는 단계와,
    상기 개별 특징의 N 개 특징 부분과 상기 총체 특징의 N 개 특징 부분 간의 유사성을 계산하여 N 개의 유사성 값을 얻는 단계를 포함하며,
    여기서 유사성에 기초하여 제1 주의 분배 가중치를 결정하는 상기 단계는 상기 N 개의 유사성 값에 기초하여 그룹 내의 개별 특징들 사이의 N 개의 제1 주의 분배 가중치를 결정하는 단계를 포함하고,
    여기서 제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 상기 단계는 상기 N 개의 제1 주의 분배 가중치 값에 기초하여 상기 총체 특징을 갱신하는 단계를 포함하는, 활동 인식 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 상기 단계는,
    상기 제1 주의 분배 가중치를 이용하여 상기 개별 특징에 대해 가중치 융합 처리를 수행하여, 가중치 융합 특징을 얻는 단계와,
    상기 가중치 융합 특징과 상기 총체 특징에 대해 융합 처리를 수행하여, 상기 갱신된 총체 특징을 얻는 단계를 포함하는, 활동 인식 방법.
  6. 제1항에 있어서,
    제1 주의 분배 가중치에 기초하여 총체 특징을 갱신하는 상기 단계는,
    상기 제1 주의 분배 가중치를 이용하여 상기 총체 특징 내 하위특징에 가중치 부여 처리를 수행하여, 상기 갱신된 총체 특징을 얻는 단계를 포함하는, 활동 인식 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 제1 주의 분배 가중치에 기초하여 상기 총체 특징을 갱신한 후,
    상기 방법은,
    상기 갱신된 총체 특징과 상기 개별 특징에 대해 융합 처리를 수행하여, 상기 갱신된 개별 특징을 얻는 단계를 더 포함하는, 활동 인식 방법.
  8. 제7항에 있어서,
    상기 갱신된 총체 특징과 상기 개별 특징에 대해 융합 처리를 수행하여, 상기 갱신된 개별 특징을 얻은 후,
    상기 방법은,
    상기 갱신된 총체 특징을 새로운 총체 특징으로 그리고 상기 갱신된 개별 특징을 새로운 개별 특징으로 취하고, 반복 중지 조건이 충족될 때까지 상기 새로운 총체 특징과 상기 새로운 개별 특징을 반복적으로 갱신하여, 반복 갱신 후의 총체 특징과 개별 특징을 얻는 단계를 더 포함하고,
    여기서 상기 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여 상기 그룹 활동 인식 결과를 얻는 상기 단계는 상기 반복 갱신 후의 상기 총체 특징에 대해 상기 활동 인식 처리를 수행하여 상기 그룹 활동 인식 결과를 얻는 단계를 포함하는, 활동 인식 방법.
  9. 제8항에 있어서,
    상기 반복 갱신 후의 상기 총체 특징 및 상기 개별 특징을 얻은 후,
    상기 방법은,
    상기 반복 갱신 후의 상기 개별 특징에 대해 개별 활동 인식 처리를 수행하여, 개별 활동 인식 결과를 얻는 단계를 더 포함하는, 활동 인식 방법.
  10. 활동 인식 장치에 있어서,
    입력 비디오 프레임을 수신하고 비디오 프레임 내 인물의 개별 특징을 추출하도록 구성된 개별 특징 추출부;
    상기 개별 특징에 기초하여 사람들 그룹의 총체 특징을 결정하도록 구성된 총체 특징 결정부;
    상기 개별 특징과 상기 총체 특징의 연관 관계에 기초하여 제1 주의 분배 가중치를 결정하도록 구성된 제1 주의 결정부;
    상기 제1 주의 분배 가중치에 기초하여 상기 총체 특징을 갱신하도록 구성된 총체 특징 갱신부; 및
    상기 갱신된 총체 특징에 대해 활동 인식 처리를 수행하여, 그룹 활동 인식 결과를 얻도록 구성된 그룹 활동 인식부를 포함하는, 활동 인식 장치.
  11. 전자 장치에 있어서,
    프로세서; 및
    프로세서 실행 가능 명령을 저장하는 메모리를 포함하고,
    여기서 상기 프로세서는 상기 메모리에 저장된 프로세서 실행 가능 명령을 호출하여 청구항 1 내지 9 중 어느 한 항에 따른 활동 인식 방법을 실행하는, 전자 장치.
  12. 컴퓨터 프로그램 명령이 저장되어 있는 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때, 청구항 1 내지 9 중 어느 한 항에 따른 방법이 구현되는, 컴퓨터 판독 가능 저장 매체.
  13. 컴퓨터 판독 가능 코드 또는 컴퓨터 판독 가능 코드를 저장하는 비휘발성 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 판독 가능 코드가 전자 장치의 프로세서에서 실행될 때, 전자 장치의 프로세서는 청구항 1 내지 9 중 어느 한 항에 따른 방법을 실행하는, 컴퓨터 프로그램 제품.
KR1020247009277A 2021-08-23 2022-01-28 활동 인식 방법 및 장치, 전자 장치 및 저장 매체 KR20240046777A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110967972.8 2021-08-23
CN202110967972.8A CN113673433A (zh) 2021-08-23 2021-08-23 一种行为识别方法及装置、电子设备和存储介质
PCT/CN2022/074784 WO2023024439A1 (zh) 2021-08-23 2022-01-28 一种行为识别方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20240046777A true KR20240046777A (ko) 2024-04-09

Family

ID=78545039

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247009277A KR20240046777A (ko) 2021-08-23 2022-01-28 활동 인식 방법 및 장치, 전자 장치 및 저장 매체

Country Status (4)

Country Link
KR (1) KR20240046777A (ko)
CN (1) CN113673433A (ko)
TW (1) TW202309780A (ko)
WO (1) WO2023024439A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673433A (zh) * 2021-08-23 2021-11-19 北京市商汤科技开发有限公司 一种行为识别方法及装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896B (zh) * 2018-07-19 2022-03-25 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN112446258A (zh) * 2019-09-02 2021-03-05 株式会社Ntt都科摩 行人重识别设备及方法
CN112989987A (zh) * 2021-03-09 2021-06-18 北京京东乾石科技有限公司 用于识别人群行为的方法、装置、设备以及存储介质
CN113673433A (zh) * 2021-08-23 2021-11-19 北京市商汤科技开发有限公司 一种行为识别方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2023024439A1 (zh) 2023-03-02
CN113673433A (zh) 2021-11-19
TW202309780A (zh) 2023-03-01

Similar Documents

Publication Publication Date Title
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
CN111881956B (zh) 网络训练方法及装置、目标检测方法及装置和电子设备
TW202113680A (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
JP2022512023A (ja) バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
CN113688729B (zh) 一种行为识别方法及装置、电子设备和存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
CN111581488A (zh) 一种数据处理方法及装置、电子设备和存储介质
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
TWI778313B (zh) 圖像處理方法、電子設備和儲存介質
CN111539410B (zh) 字符识别方法及装置、电子设备和存储介质
CN110659690B (zh) 神经网络的构建方法及装置、电子设备和存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN112906484B (zh) 一种视频帧处理方法及装置、电子设备和存储介质
CN110781813A (zh) 图像识别方法及装置、电子设备和存储介质
CN111582383A (zh) 属性识别方法及装置、电子设备和存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN110633715A (zh) 图像处理方法、网络训练方法及装置、和电子设备
KR20240046777A (ko) 활동 인식 방법 및 장치, 전자 장치 및 저장 매체
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质
CN115035440A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN112801116B (zh) 图像的特征提取方法及装置、电子设备和存储介质
CN114973359A (zh) 表情识别方法及装置、电子设备和存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN110443363B (zh) 图像特征学习方法及装置