KR20220073645A - 시공간 자기-주의에 기반한 행동 인식 방법 및 장치 - Google Patents

시공간 자기-주의에 기반한 행동 인식 방법 및 장치 Download PDF

Info

Publication number
KR20220073645A
KR20220073645A KR1020210145311A KR20210145311A KR20220073645A KR 20220073645 A KR20220073645 A KR 20220073645A KR 1020210145311 A KR1020210145311 A KR 1020210145311A KR 20210145311 A KR20210145311 A KR 20210145311A KR 20220073645 A KR20220073645 A KR 20220073645A
Authority
KR
South Korea
Prior art keywords
feature
map
generating
video
behavior
Prior art date
Application number
KR1020210145311A
Other languages
English (en)
Inventor
김대진
김명준
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Publication of KR20220073645A publication Critical patent/KR20220073645A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 행동 인식 방법은 입력 비디오에 대한 비디오 특징 정보를 추출하는 단계; 상기 특징 정보를 토대로, 상기 입력 비디오 내에서 행동 인식 대상이 될 수 있는 사람을 둘러싸는 바운딩 박스를 생성하는 단계; 상기 바운딩 박스를 토대로, 상기 비디오 특징 정보를 풀링하는 단계; 풀링된 비디오 특징 정보로부터 하나 이상의 공간적 특징 맵을 추출하는 단계; 상기 풀링된 비디오 특징 정보로부터 하나 이상의 시간적 특징 맵을 추출하는 단계; 상기 하나 이상의 공간적 특징 맵과 상기 하나 이상의 시간적 특징 맵을 결합하여, 결합된 특징 맵을 생성하는 단계; 및 상기 결합된 특징 맵을 토대로 행동 인식을 수행하는 단계;를 포함한다.

Description

시공간 자기-주의에 기반한 행동 인식 방법 및 장치{Action Recognition Method and Apparatus Based on Spatio-temporal Self-attention}
본 발명은 행동 인식 방법 및 장치에 관한 것으로서, 보다 상세하게는, 행동 인식 신경망을 사용하여 인간 행동을 인식하는 방법 및 장치에 관한 것이다.
행동 인식은 비디오에서 사람의 위치를 찾고 각 사람이 어떤 행동을 하는지 인식하는 것으로서, 비디오 감시카메라, 인간-컴퓨터 상호작용, 자율 주행 등 여러 산업에서 널리 사용될 수 있는 컴퓨터 비전 분야의 핵심 기술이다. 행동 인식에서 가장 널리 통용되는 방법 중 하나는 검출 기반 방식이다. 이러한 행동 인식 비디오에서 복합적인 동작을 구분하는 것을 요하며, 해결해야만 할 많은 복잡한 현실세계 문제와 연관되어 있다.
최근 합성곱 신경망(CNN: Convolutional Neural Network)은 이미지 분류, 객체 검출 등의 분야에서 괄목할만한 성과를 보여줄만큼 발전하였다. 합성곱 신경만을 행동 인식에 적용하려는 시도도 행해지고 있지만 발전이 더딘데, 그 이유 중 하나는 인간의 행동 중 많은 것이 타인이나 물건과 연관되어 있고, 국부적인 특징만을 사용해서는 인식이 어렵기 때문이다. 인간의 행동은 세 가지 카테고리 즉, 움직임 내지 이동, 물건의 조작, 및 타인과의 상호작용으로 구분될 수 있다. 따라서, 인간 행동을 인식하기 위해서는, 물건들 및/또는 타인과의 상호작용을 고려해야만 한다.
본 발명은 물건들 및/또는 타인과의 상호작용을 고려하면서 인간의 행동을 인식할 수 있는 행동 인식 방법 및 장치를 제공한다.
본 발명은 자기-주의 메커니즘을 적용하여 공간 축 도메인에서의 특징 맵을 추출하고, 시간축 도메인에서의 특징 맵을 추출하여, 이들 특징 맵을 모두 반영하여 행동을 인식하는 방법 및 장치를 제공한다.
예시적 실시예의 일 측면에 따르면, 본 발명의 행동 인식 방법은 입력 비디오에 대한 비디오 특징 정보를 추출하는 단계; 상기 특징 정보를 토대로, 상기 입력 비디오 내에서 행동 인식 대상이 될 수 있는 사람을 둘러싸는 바운딩 박스를 생성하는 단계; 상기 바운딩 박스를 토대로, 상기 비디오 특징 정보를 풀링하는 단계; 풀링된 비디오 특징 정보로부터 하나 이상의 공간적 특징 맵을 추출하는 단계; 상기 풀링된 비디오 특징 정보로부터 하나 이상의 시간적 특징 맵을 추출하는 단계; 상기 하나 이상의 공간적 특징 맵과 상기 하나 이상의 시간적 특징 맵을 결합하여, 결합된 특징 맵을 생성하는 단계; 및 상기 결합된 특징 맵을 토대로 행동 인식을 수행하는 단계;를 포함한다.
상기 비디오 특징 정보를 풀링하는 단계는 RoIAlign 동작을 통해 수행될 수 있다.
상기 공간적 특징 맵을 추출하는 단계는 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 공간적 느린 행동에 대한 특징 맵을 생성하는 과정을 포함할 수 있다.
상기 시간적 특징 맵을 추출하는 단계는 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 시간적 느린 행동에 대한 특징 맵을 생성하는 과정을 포함할 수 있다.
상기 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 상기 공간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각은 상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 공간들로 투영하는 단계; 투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 공간적 주의 맵을 산출하는 단계; 및 상기 공간적 주의 맵을 입력 데이터와 행렬 곱셈하여 공간적 특징 벡터를 구하는 단계;를 포함할 수 있다.
상기 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 공간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각은 상기 공간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 공간적 특징 맵을 생성하는 단계를 더 포함할 수 있다.
상기 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 상기 시간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각은 상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 시간들로 투영하는 단계; 투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 시간적 주의 맵을 산출하는 단계; 및 상기 시간적 주의 맵을 입력 데이터와 행렬 곱셈하여 시간적 특징 벡터를 구하는 단계;를 포함할 수 있다.
상기 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 시간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각은 상기 시간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 시간적 특징 맵을 생성하는 단계를 더 포함할 수 있다.
예시적 실시예의 다른 측면에 따르면, 본 발명의 행동 인식 장치는 입력 비디오에서 인간 행동을 인식하는 장치로서, 프로세서와, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 메모리를 포함한다. 상기 프로그램 명령어들은 상기 프로세서에 의해 실행되었을 때: 입력 비디오에 대한 비디오 특징 정보를 추출하고; 상기 특징 정보를 토대로, 상기 입력 비디오 내에서 행동 인식 대상이 될 수 있는 사람을 둘러싸는 바운딩 박스를 생성하고; 상기 바운딩 박스를 토대로, 상기 비디오 특징 정보를 풀링하고; 풀링된 비디오 특징 정보로부터 하나 이상의 공간적 특징 맵을 추출하고; 상기 풀링된 비디오 특징 정보로부터 하나 이상의 시간적 특징 맵을 추출하고; 상기 하나 이상의 공간적 특징 맵과 상기 하나 이상의 시간적 특징 맵을 결합하여, 결합된 특징 맵을 생성하고; 상기 결합된 특징 맵을 토대로 행동 인식을 동작을 수행하도록 한다.
상기 비디오 특징 정보를 풀링하도록 하는 프로그램 명령어들은 RoIAlign 동작을 통해 상기 비디오 특징 정보를 풀링하도록 하는 명령어들을 포함할 수 있다.
상기 공간적 특징 맵을 추출하도록 하는 프로그램 명령어들은 공간적 빠른 행동에 대한 특징 맵을 생성하고; 공간적 느린 행동에 대한 특징 맵을 생성하는 동작을 수행하도록 하는 명령어들을 할 수 있다.
상기 시간적 특징 맵을 추출하도록 하는 프로그램 명령어들은 시간적 빠른 행동에 대한 특징 맵을 생성하고; 시간적 느린 행동에 대한 특징 맵을 생성하는 동작을 수행하도록 하는 명령어들을 포함할 수 있다.
상기 공간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 공간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각은 상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 공간들로 투영하고; 투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 공간적 주의 맵을 산출하고; 상기 공간적 주의 맵을 입력 데이터와 행렬 곱셈하여 공간적 특징 벡터를 구하는 동작을 수행하게 하는 명령어들을 포함할 수 있다.
상기 공간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 공간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각은 상기 공간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 공간적 특징 맵을 생성하는 동작을 수행하게 하는 명령어들을 더 포함할 수 있다.
상기 시간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 시간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각은 상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 시간들로 투영하고; 투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 시간적 주의 맵을 산출하고; 및 상기 시간적 주의 맵을 입력 데이터와 행렬 곱셈하여 시간적 특징 벡터를 구하는 동작을 수행하게 하는 명령어들을 포함할 수 있다.
상기 시간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 시간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각은 상기 시간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 시간적 특징 맵을 생성하는 동작을 수행하게 하는 명령어들을 더 포함할 수 있다.
본 발명의 예시적 실시예에 따른 자기-주의 메커니즘은 공간적 특징 맵과 시간적 특징 맵을 모두 사용하여 행동을 인식하기 때문에, 사람의 손, 얼굴, 다른 물체, 다른 사람의 특징을 적절하게 고려하여 행동을 예측할 수 있다. 또한 느린 행동과 빠른 행동의 특징을 모두 반영하여 특징 맵을 추출하기 때문에, 성별, 나이에 따른 사람들간의 특징 차이을 적절하게 구별할 수 있다. 평가 항목 60개의 항목 중 44개의 항목에서 기본 행동 인식 알고리즘과 비교했을 때 성능 향상을 확인할 수 있었다. 더욱이 이러한 성능 향상이 간단한 네트워크 구조에 의해 이루어질 수 있다.
도 1은 본 발명의 예시적 실시예에 따른 공간-시간 자기-주의 네트워크의 전반적인 구조를 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 행동 인식 방법을 보여주는 흐름도이다.
도 4는 공간적 느린 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다.
도 5는 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다.
도 6은 시간적 느린 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다.
도 7은 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다.
도 8은 AVA 데이터 세트를 사용하여 평가한 본 발명의 행동 인식 방법과 기존의 방법들의 성능 평가 결과를 정리한 표이다.
도 9A 및 도 9B는 본 발명에 의한 공간-시간 자기-주의 메커니즘을 사용한 경우와 사용하지 않은 경우의 때 Frame AP 를 비교한 결과를 도시한 그래프들이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. “및/또는”이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
비디오 데이터에서 인간의 행위를 분석하고 위치를 결정하기 위한 연구가 최근들어 크게 발전되었다. 이러한 연구는 통상 Kinetics나 UCF-101과 같은 데이터 세트를 토대로 모델을 학습하고 성능을 측정한다. 데이터 세트는 사람의 이동, 사람들간의 상호작용, 및 사람과 사물간의 상호작용을 포함한다. 새로운 데이터가 출현하게 됨에 따라, 사람들 간의 관계와 사람과 사물의 관련성을 이해하는 것은 행동 인식에 있어서 핵심적인 요소가 되었으며, 이와 같은 이해는 상황을 적절히 파악하는 데에도 중요하다. 행동 인식에는 몇가지 접근 방식이 있다. 일부 접근법에서는 인간의 몸짓 추정(pose estimation)을 활용하여 관절의 움직임을 파악한다. 다른 접근법에서는, 시간에 따른 각 관절의 움직임을 포착하여 인간 행동을 판단한다. 또 다른 접근법에서는 비디오에 빛의 흐름을 결합함으로써 가뇽한 정보의 양을 크게 증대시킨다. 그렇지만, 현재의 주된 추세는 비디오 클립만을 사용하여 행동 인식을 하는 것이라고 할 수 있다.
자기-주의 메커니즘(Self-attention mechanism)은 순환신경망(Recurrent Neural Networks: RNNs)보다 자연어 처리 분야에서 널리 사용되고 있는 메커니즘으로서, 기계 번역, 이미지 캡션 등의 분야에서 좋은 성능을 보인다. 자기-주의 메커니즘은 그밖의 많은 분야에서도 눈에 띄는 성능 향상을 가져다 줄 것으로 기대된다.
일반적인 자기-주의 메커니즘은 먼저 key, query, value라는 3 개의 특징 벡터들의 관계를 구하기 위해서 key와 query의 행렬 연산을 하고, softmax 연산을 통해서 장거리 상호작용(long range interaction)을 고려한 주의 맵을 추출한다. 추출된 주의 맵은 입력 데이터 안에 각 원소가 다른 원소와 어떤 관계를 가지는지 판단하는 지표가 된다. 마지막으로 주의 맵은 value 특징 벡터와 행렬 곱셈이 수행되어 상기 관계가 반영되도록 한다.
본 발명은 장거리 상호작용을 고려할 수 있는 자기-주의 메커니즘을 행동 인식 문제에 적용하고, 자기-주의 메커니즘을 비디오 행동 인식 문제에 적용할 때 공간적 정보와 함께 시간적 정보도 함께 이용한다.
도 1은 본 발명의 예시적 실시예에 따른 공간-시간 자기-주의 네트워크의 전반적인 구조를 보여주는 블록도이다. 도시된 공간-시간 자기-주의 네트워크는 백본 네트워크(100)와, 바운딩 박스 탐색부(110)와, RoI 정렬부(120)와, 공간적 주의 모듈(200)과, 시간적 주의 모듈(300)과, 결합부(400)와, 판정부(420)를 구비한다.
백본 네트워크(100)는 일정 프레임의 데이터를 하나의 비디오 데이터 단위로 받아들이고, 입력 비디오의 특징 정보(features)를 추출한다. 상기 하나의 비디오 데이터 단위는 32 프레임일 수 있다. 백본 네트워크(100)는 예컨대Kinetics-400 데이터 세트로 선학습된 Residual network (ResNet) 또는 Inflated 3D convolutional network (I3D)로 구현될 수 있다.
바운딩 박스 생성부(110)는 백본 네트워크(100)로부터 출력되는 입력 비디오 특징 정보를 토대로 비디오 내에서 행동 인식 대상인 사람이 있는 위치를 찾아서 바운딩 박스를 생성한다. 또한, 바운딩 박스 생성부(110)는 결합부(400)에 의해 출력되는 출력 특징 맵을 참조하여, 회귀분석을 수행함으로써 바운딩 박스의 위치와 크기를 갱신할 수 있다. 바운딩 박스 생성부(110)는 Fast R-CNN(Region-based Convolutional Neural Networks)에서 사용되는 지역 제안 네트워크 Region Proposal Network, RPN)을 토대로 구현될 수 있다.
RoI 정렬부(120)는, 바운딩 박스 생성부(110)로부터의 바운딩 박스 정보를 참조하여, 백본 네트워크(100)으로부터의 비디오 특징 정보를 RoI Align 동작을 통해서 풀링(Pooling)한다.
공간적 주의 모듈(200)은 RoIAlign된 비디오 특징 정보로부터 공간 축에서 집중적으로 고려해야할 영역에 대한 특징 맵을 추출한다. 특히, 공간적 주의 모듈(200)은 공간적 느린 행동 자기-주의 특징 맵과, 공간적 빠른 행동 자기-주의 특징 맵을 별도로 추출할 수 있다. 기존에는 자기-주의 메커니즘이 이미지 안에서 픽셀 간 관계를 파악하기 위해서 사용되는 것과 달리, 본 발명의 일 실시예에서는 공간적 자기-주의 메커니즘이 비디오 특징 정보에서 에서 공간상으로 중요한 지역을 추출하기 위해 사용된다. 그러므로, 공간적 주의 모듈(200)은 비디오 특징 정보에서 사람 행동을 판단하기 위한 특징 정보(예를 들어 손, 얼굴)에 집중할 수 있도록 선-학습된다.
시간적 주의 모듈(300)은 RoIAlign된 비디오 특징 정보로부터 시간 축에서 집중적으로 고려해야할 영역에 대한 특징 맵을 추출한다. 특히, 시간적 주의 모듈(300)은 시간적 느린 행동 자기-주의 특징 맵과, 시간적 빠른 행동 자기-주의 특징 맵을 별도로 추출할 수 있다. 일반적으로, 입력 비디오를 구성하는 입력 프레임들에서 사람의 행동이 시작되거나 행동이 끝나는 지점의 특징 벡터와 행동이 진행되고 있는 동안의 특징 벡터 사이에는 얻을 수 있는 정보량에서 차이가 있다. 그러므로, 시간적 주의 모듈(300)은 비디오 특징 정보 중에서 사람 행동을 찾기 위해서 시간 축에서 보았을 때 필요한 특징 벡터를 추출한다.
결합부(400)는 공간적 주의 모듈(200)과 시간적 주의 모듈(300)이 추출한 특징 맵들을 모두 이어붙여 하나의 결합된 특징 맵을 생성하고, 판정부(420)는 상기 결합된 특징 맵을 토대로 사람 행동 인식을 진행한다. 사람 행동은 복합적으로 이루어지기 때문에, 일 실시예에 따르면, 각 행동 마다 이분 Cross-Entropy를 사용하여 한계점 이상이라면 사람 행동으로 인식할 수 있다.
공간적 주의 모듈(200)과 시간적 주의 모듈(300)에 대하여 보다 구체적으로 설명한다.
공간적 주의 모듈(200)이 RoI 정렬부(120)을 통해서 백본 네트워크(100)로부터 수신하는 비디오 특징 정보(features)는 C×T×H×W의 차원(shape)을 갖는다. 여기서 C는 채널, T 는 시간, H 는 높이, W 는 너비를 의미한다. 먼저 공간적 주의 모듈(200)은 비디오 특징 정보를 C×T 개의 제1 특징 정보와 H×W 개의 제2 특징 정보로 변환한다. 상기 데이터 변환은 공간적 주의 모듈(200) 이외의 별도의 부재에 의해 이루어질 수도 있다. 또는, 상기 데이터 변환이 실제 데이터 조작이 아니라 메모리에 저장된 비디오 특징 정보 중 일부만에 대한 선택과 사용을 의미할 수도 있다.
공간적 주의 모듈(200)은 변환된 비디오 특징 정보 x∈R(C×T)×(H×W)를 다음 수학식 1에 의해서 두 개의 새로운 특징 공간들(F, G)로 투영한다. 이러한 투영은 시간축 도메인에서 Key 행렬과 Query 행렬을 곱하는 것에 해당한다.
Figure pat00001
이어서, 공간적 주의 모듈(200)은 공간적 주의 맵(Spatial attention map)을 산출한다. 상기 공간적 주의 맵의 각 성분은 지역들간 예컨대 픽셀들간의 공간 주의도(βj,i)로 지칭될 수 있으며, 수학식 2에 의해서 계산할 수 있다. 여기서, 공간 주의도(βj,i)는 소프트맥스 함수 값으로서, j-번째 지역(예컨대, 픽셀)을 합성할 때 모델이 i-번째 지역에 미치는 영향을 나타낸다. 즉, 공간 주의도(βj,i)는 i-번째 지역이 j-번째 지역에 미치는 영향의 정도를 나타낸다고 할 수 있다.
Figure pat00002
또한, 공간적 주의 모듈(200)은 상기 공간적 주의 맵을 입력 데이터와 행렬 곱셈하여 공간적 특징 벡터를 구한다. 즉, 공간적 특징 벡터의 각 성분은 수학식 3으로 표현될 수 있다. 이러한 공간적 특징 벡터는 공간적 주의 맵에 Value 행렬을 곱하여 중요도를 반영한 것이라고 할 수 있다.
Figure pat00003
이상의 연산 과정에서, WF, WG, 및 Wh는 학습된 가중치 파라미터들로서, 예컨대 1×1×1의 차원을 갖는 3D 벡터로 구현될 수 있다.
예시적인 실시예에 있어서, 공간적 주의 모듈(200)은 수학식 3으로 표현되는 공간적 특징 벡터를 공간적 특징 맵으로서 출력할 수 있다. 그렇지만, 다른 실시예에 있어서는, 공간적 주의 모듈(200)이, 수학식 4와 같이 상기 공간적 특징 벡터에 스케일링 파라미터를 곱하고 입력 비디오 특징 정보를 더함으로써, 공간적 자기-주의 특징 벡터를 연산하여 공간적 특징 맵으로서 출력할 수도 있다.
Figure pat00004
시간적 주의 모듈(300)은 RoI 정렬부(120)을 통해서 백본 네트워크(100)로부터 C×T×H×W의 차원을 갖는 비디오 특징 정보를 수신할 수 있다. 여기서 C는 채널, T 는 시간, H 는 높이, W 는 너비를 의미한다. 시간적 주의 모듈(300)은 비디오 특징 정보를 C×T 개의 제1 특징 정보와 H×W 개의 제2 특징 정보로 변환할 수 있다. 시간적 주의 모듈(300)은 변환된 특징 정보를 공간적 주의 모듈(200)로부터 받아들일 수도 있다. 또한, 상기 데이터 변환은 공간적 주의 모듈(200)이나 시간적 주의 모듈(300) 이외의 별도의 부재에 의해 이루어질 수도 있다. 또는, 상기 데이터 변환이 실제 데이터 조작이 아니라 메모리에 저장된 비디오 특징 정보 중 일부만에 대한 선택과 사용을 의미할 수도 있다.
시간적 주의 모듈(300)은 변환된 비디오 특징 정보 x∈R(C×T)×(H×W)를 다음 수학식 5에 의해서 두 개의 새로운 특징 공간들(K, L)로 투영한다. 이러한 투영은 시간축 도메인에서 Key 행렬과 Query 행렬을 곱하는 것에 해당한다.
Figure pat00005
이어서, 시간적 주의 모듈(300)은 시간적 주의 맵(Temporal attention map)을 산출한다. 상기 시간적 주의 맵의 각 성분은 지역들간 예컨대 픽셀들간의 시간 주의도(αj,i)로 지칭될 수 있으며, 수학식 6에 의해서 계산할 수 있다. 여기서, 시간 주의도(αj,i)는 소프트맥스 함수 값으로서, j-번째 지역(예컨대, 픽셀)을 합성할 때 모델이 i-번째 지역에 미치는 영향을 나타낸다. 즉, 시간 주의도(αj,i)는 i-번째 지역이 j-번째 지역에 미치는 영향의 정도를 나타낸다고 할 수 있다.
Figure pat00006
또한, 시간적 주의 모듈(300)은 상기 시간적 주의 맵을 입력 데이터와 행렬 곱셈하여 시간적 특징 벡터를 구한다. 즉, 시간적 특징 벡터의 각 성분은 수학식 7로 표현될 수 있다. 이러한 시간적 특징 벡터는 시간적 주의 맵에 Value 행렬을 곱하여 중요도를 반영한 것이라고 할 수 있다.
Figure pat00007
이상의 연산 과정에서, WK, WL, 및 Wb는 학습된 가중치 파라미터들로서, 1×1×1의 차원을 갖는 3D 벡터로 구현될 수 있다.
예시적인 실시예에 있어서, 시간적 주의 모듈(300)은 수학식 7로 표현되는 시간적 특징 벡터를 시간적 특징 맵으로서 최종 출력할 수 있다. 그렇지만, 다른 실시예에 있어서는, 시간적 주의 모듈(300)이, 수학식 8과 같이 상기 시간적 특징 벡터에 스케일링 파라미터를 곱하고 입력 비디오 특징 정보를 더함으로써, 시간적 자기-주의 특징 벡터를 연산하여 시간적 특징 맵으로서 출력할 수도 있다.
Figure pat00008
인간 행동은 두가지 즉, 느리게 움직이는 행동과 짜르게 움직이는 행동으로 구분될 수 있다. 대부분의 기존 행동 인식 네트워크는 느린 행동을 중심으로 분석을 하였고 빠른 행동은 일종의 특징 정보로 취급하였다. 그렇지만, 본 발명자들은 빠른 행동이 매순간 중요한 영역이 될 수 있고, 느린 행동은 불필요한 특징인 경우가 많고 드물게 일부 유의미한 경우도 있을 수 있다고 생각한다. 그러므로, 본 발명의 일 실시예에서는 인간 행동을 빠른 행동과 느린 행동과 빠른 행동으로 구분하고 각각에 대한 특징 맵을 별도로 추출한다. 즉, 느린 행동과 빠른 행동에 대하여 별도로 특징 맵을 추출하기 위하여, 공간적 주의 모듈(200)과 시간적 주의 모듈(300)이 사용하는 합성곱 연산의 커널 크기를 차별화한다.
즉, 공간적 주의 모듈(200)은 변환된 즉 투영된 비디오 특징 정보를 합성곱 연산기에 공급하는 커널로서, 느린 행동 인식용 제1 커널과, 빠른 행동 인식용 제2 커널을 구비할 수 있다. 제1 커널은 예컨대 7×1×1의 차원을 가질 수 있고, 제2 커널은 예컨대 1×1×1의 차원을 가질 수 있다. 크키가 큰 제1 커널은 느린 행동 인식용 특징 맵을 연산하는 과정에서 변환된 비디오 특징 정보를 저장하는데 사용될 수 있다. 크키가 작은 제2 커널은 빠른 행동 인식용 특징 맵을 연산하는 과정에서 변환된 비디오 특징 정보를 저장하는데 사용될 수 있다. 일 실시예에서는 컨트롤러의 제어 하에 제1 커널과 제2 커널 중 어느 하나만이 동작할 수 있다. 그렇지만, 변형된 실시예에서는 제1 커널과 제2 커널이 동시에 동작하고, 느린 행동 인식용 특징 맵과 빠른 행동 인식용 특징 맵이 모두 산출되어 결합부(400)에 의해 결합될 수도 있다.
시간적 주의 모듈(300)은 변환된 비디오 특징 정보를 합성곱 연산기에 공급하는 커널로서, 느린 행동 인식용 제3 커널과, 빠른 행동 인식용 제4 커널을 구비할 수 있다. 제3 커널은 예컨대 7×1×1의 차원을 가질 수 있고, 제4 커널은 예컨대 1×1×1의 차원을 가질 수 있다. 크키가 큰 제3 커널은 느린 행동 인식용 특징 맵을 연산하는 과정에서 변환된 비디오 특징 정보를 저장하는데 사용될 수 있다. 크키가 작은 제4 커널은 빠른 행동 인식용 특징 맵을 연산하는 과정에서 변환된 비디오 특징 정보를 저장하는데 사용될 수 있다. 일 실시예에서는 컨트롤러의 제어 하에 제3 커널과 제4 커널 중 어느 하나만이 동작할 수 있다. 그렇지만, 변형된 실시예에서는 제3 커널과 제4 커널이 동작하고, 느린 행동 인식용 특징 맵과 빠른 행동 인식용 특징 맵이 모두 산출되어 결합부(400)에 의해 결합될 수도 있다. 이와 같은 경우, 공간적 주의 모듈(200)로부터의 2개의 특징 맵과 시간적 주의 모듈(300)로부터의 2개의 특징 맵이 모두 연결부(400)에 의해 연결될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다. 행동 인식 장치는 프로세서(1020), 메모리(1040), 및 저장 장치(1060)를 포함할 수 있다.
프로세서(1020)는 메모리(1040) 및/또는 저장 장치(1060)에 저장된 프로그램 명령을 실행할 수 있다. 프로세서(1020)는 적어도 하나의 중앙 처리 장치(central processing unit, CPU)나 그래픽 처리 장치(graphics processing unit, GPU)에 의해 구현될 수 있으며, 그밖에 본 발명에 따른 방법을 수행할 수 있는 여타의 프로세서일 수 있다.
메모리(1040)는 예컨대 ROM(Read Only Memory)와 같은 휘발성 메모리와, RAM(Random Access Memory)과 같은 비휘발성 메모리를 포함할 수 있다. 메모리(1040)는 저장 장치(1060)에 저장된 프로그램 명령을 로드하여, 프로세서(1020)에 제공할 수 있다.
저장 장치(1060)는 프로그램 명령과 데이터를 저장하기에 적합한 기록매체로서, 예컨대 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 플래시 메모리나 EPROM(Erasable Programmable ROM) 또는 이들을 기반으로 제작되는 SSD와 같은 반도체 메모리를 포함할 수 있다.
메모리(1040) 및/또는 저장 장치(1060)에 저장된 프로그램 명령은 본 발명의 일 실시예에 따른 행동 인식 방법을 구현할 수 있다. 이와 같은 프로그램 명령은 프로세서(1020)의 제어에 의해 메모리(1040)에 로드된 상태에서, 프로세서(1020)에 의해 실행되어 본 발명에 의한 방법을 구현할 수 있다.
도 3은 본 발명의 일 실시예에 따른 행동 인식 방법을 보여주는 흐름도이다.
먼저, 백본 네트워크(100)는 일정 프레임의 데이터를 하나의 비디오 데이터 단위로 받아들이고, 입력 비디오의 특징 정보를 추출한다(제500단계). 이어서, 바운딩 박스 생성부(110)는 백본 네트워크(100)로부터 출력되는 입력 비디오 특징 정보를 토대로 비디오 내에서 사람이 있는 위치를 찾아서 바운딩 박스를 생성한다(제510단계). RoI 정렬부(120)는, 바운딩 박스 생성부(110)로부터의 바운딩 박스 정보를 참조하여, 백본 네트워크(100)으로부터의 비디오 특징 정보를 RoI Align 동작을 통해서 풀링(Pooling)할 수 있다 (제520단계).
그 다음, 공간적 주의 모듈(200)은 RoIAlign된 비디오 특징 정보로부터 공간적 특징 맵을 추출한다(제530단계). 한편, 시간적 주의 모듈(300)은 RoIAlign된 비디오 특징 정보로부터 시간적 특징 맵을 추출한다(제540단계). 제550단계에서, 결합부(400)는 공간적 주의 모듈(200)과 시간적 주의 모듈(300)이 추출한 특징 맵들을 모두 이어붙여 하나의 결합된 특징 맵을 생성한다. 마지막으로, 판정부(420)는 상기 결합된 특징 맵을 토대로 사람 행동 인식을 진행한다(제560단계).
도 4는 공간적 느린 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다. 자기-주의 메커니즘은 Key, Query, Value의 행렬 연산으로 구성될 수 있다. Key 행렬과 Query 행렬은 3차원 합성곱 신경망을 이용해서 다른 차원으로 투영될 수 있다. 이때, 느린 행동에 대한 특징 맵의 추출에 적합하도록 공간 축의 윈도우 크기가 크게 설정되어, 여러 프레임에 대한 특징 정보가 추출되도록 구성될 수 있다. 이후 공간 축 도메인에서 Key 행렬과 Query행렬의 행렬 곱을 수행되고, Softmax함수를 사용하여 자기-주의 맵을 생성할 수 있다. 그 다음, 생성된 자기-주의 맵과 Value 행렬을 곱하여 중요도를 반영할 수 있다.
도 5는 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다. Key 행렬과 Query 행렬은 3차원 합성곱 신경망을 이용해서 다른 차원으로 투영될 수 있다. 이때, 빠른 행동에 대한 특징 맵의 추출에 적합하도록 공간 축의 윈도우 크기가 작게 설정되어, 단일 프레임에 대한 특징 정보가 추출되도록 구성될 수 있다. 이후 공간 축 도메인에서 Key 행렬과 Query행렬의 행렬 곱을 수행되고, Softmax함수를 사용하여 자기-주의 맵을 생성할 수 있다. 그 다음, 생성된 자기-주의 맵과 Value 행렬을 곱하여 중요도를 반영할 수 있다.
도 6은 시간적 느린 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다. Key 행렬과 Query 행렬은 3차원 합성곱 신경망을 이용해서 다른 차원으로 투영될 수 있다. 이때, 느린 행동에 대한 특징 맵의 추출에 적합하도록 시간 축의 윈도우 크기가 크게 설정되어, 여러 프레임에 대한 특징 정보가 추출되도록 구성될 수 있다. 이후 시간 축 도메인에서 Key 행렬과 Query행렬의 행렬 곱을 수행되고, Softmax함수를 사용하여 자기-주의 맵을 생성할 수 있다. 그 다음, 생성된 자기-주의 맵과 Value 행렬을 곱하여 중요도를 반영할 수 있다.
도 7은 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정을 설명하기 위한 도면이다. 자기-주의 메커니즘은 Key, Query, Value의 행렬 연산으로 구성될 수 있다. Key 행렬과 Query 행렬은 3차원 합성곱 신경망을 이용해서 다른 차원으로 투영될 수 있다. 이때, 빠른 행동에 대한 특징 맵의 추출에 적합하도록 시간 축의 윈도우 크기가 작게 설정되어, 단일 프레임에 대한 특징 정보가 추출되도록 구성될 수 있다. 이후 시간 축 도메인에서 Key 행렬과 Query행렬의 행렬 곱을 수행되고, Softmax함수를 사용하여 자기-주의 맵을 생성할 수 있다. 그 다음, 생성된 자기-주의 맵과 Value 행렬을 곱하여 중요도를 반영할 수 있다.
Atomic Visual Action (AVA) 데이터 세트를 사용하여, 본 발명의 예시적 실시예에 따른 행동 인식 방법을 평가하였다. AVA 데이터 세트는 Chunhui Gu, Chen Sun, et al.의 “Ava: A video dataset of spatiotemporally localized atomic visual actions,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6047?6056에 기재된 것으로서, 총 80 개의 클래스 로 구성된다. 각 클래스는 세가지 부류 즉, 개별 행위, 다른 사람과 관련된 행위, 및 사물과 관련된 행위로 구분될 수 있다. AVA 데이터 세트는 총 430 개의 비디오로 구성되어있고, 여기에는 235개의 학습용 비디오, 64 개의 검증용 비디오, 131개의 테스트용 데이터가 포함된다. 각 비디오는 15 분 길이의 비디오 클립이고, 1 초에 1 개의 레이블이 존재한다. 본 발명자들은, 다른 연구에서의 평가와 마찬가지로, 60 개의 클래스에 대해서 평가하였고, 평가를 위한 검증에 대해서 최소 25 개의 인스턴스를 사용하였다. 평가 지표로는 프레임 레벨 평균 정밀도(Frame Level Average Precision: frame AP)를 사용하였고, Intersection of Union(IoU) threshold는 비디오 클립의 중심 프레임에서 0.5로 설정하였다
도 8은 AVA 데이터 세트를 사용하여 평가한 본 발명의 행동 인식 방법과 기존의 방법들의 성능 평가 결과를 정리한 표이다. 표에서, Single Frame 모델과 AVA Baseline 모델은 에 기재된 것이다. ARCN 모델은 Chen Sun, et al., "Actor-centric relation network," in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 318?334.에 기재된 것이다. STEP 모델은 Xitong Yang, et al., "Step: Spatiotemporal progressive learning for video action detection,"in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 264?272.에 기재된 것이다. A structured Model for Action Detection은 Yubo Zhang, et al., "A structured model for action detection,"in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9975?9984.에 기재된 것이다. Action Transformer 모델은 Rohit Girdhar, et al., "Video action transformer network," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 244?253. 에 기재된 것이다.
초기의 전통적인 행동 인식 네트워크는 비디오 데이터뿐만 아니라 Optical Flow 정보도 함께 이용하였지만, 최근에 개발된 네트워크들은 Graph Graph Convolutional Network (GCN)이나 주의 메커니즘과 같은 발전된 알고리즘의 사용 덕택에 비디오 데이터 만을 사용하고 있다. 표 1에서 본 발명의 인식 방법이 다른 네트워크와 비교해서 적은 이미지 프레임과 낮은 해상도를 사용해서 유의미한 결과를 얻을 수 있다는 것을 확인할 수 있다.
도 9A 및 도 9B는 본 발명에 의한 공간-시간 자기-주의 메커니즘을 사용한 경우와 사용하지 않은 경우의 때 Frame AP 를 비교한 결과를 도시한 그래프이다. 본 발명의 공간-시간 자기-주의 메커니즘을 사용했을 때 39 개의 클래스에서 성능 향상을 보였고, 특히 사물이나 다른 사람과의 상호작용과 연관된 클래스와 같이 기존에 성능이 낮았던 클래스에 대하여 높은 성능 향상을 보였다. 그 이유는 공간-시간 자기-주의 메커니즘이 RoIPool을 거친 특징 정보에 대하여 적용되었고, 이에 따라 네트워크가 주변에 pooling되는 객체의 주변에 있는 사물이나 사람에 더 많은 컴퓨팅 자원을 집중할 수 있었기 때문인 것으로 추측된다. 따라서, 본 발명의 공간-시간 자기-주의 메커니즘은 장거리 상호작용에 유용하다고 할 수 있다.
이상에서 본 바와 같이, 본 발명의 예시적 실시예에 따른 공간-시간 자기-주의 메커니즘은 행동 인식에서 중요하게 생각되는 공간적 정보, 시간적 정보, 느린 행동 정보, 및 빠른 행동 정보를 입력 비디오로부터 추출할 수 있다. 이러한 특징은 행동 클라스들을 식별하는데 중요한 역할을 할 수 있다. 실험 결과에 따르면, 본 발명의 방법은 적은 자원을 사용하고 구조가 간단하면서도 다른 네트워크와 비교할 때 눈에 띄는 결과를 도출하였다.
위에서 언급한 바와 같이 본 발명의 실시예에 따른 장치와 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
상기 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그래머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (16)

  1. 행동 인식 방법으로서,
    입력 비디오에 대한 비디오 특징 정보를 추출하는 단계;
    상기 특징 정보를 토대로, 상기 입력 비디오 내에서 행동 인식 대상이 될 수 있는 사람을 둘러싸는 바운딩 박스를 생성하는 단계;
    상기 바운딩 박스를 토대로, 상기 비디오 특징 정보를 풀링하는 단계;
    풀링된 비디오 특징 정보로부터 하나 이상의 공간적 특징 맵을 추출하는 단계;
    상기 풀링된 비디오 특징 정보로부터 하나 이상의 시간적 특징 맵을 추출하는 단계;
    상기 하나 이상의 공간적 특징 맵과 상기 하나 이상의 시간적 특징 맵을 결합하여, 결합된 특징 맵을 생성하는 단계; 및
    상기 결합된 특징 맵을 토대로 행동 인식을 수행하는 단계;
    를 구비하는 행동 인식 방법.
  2. 청구항 1에 있어서, 상기 비디오 특징 정보를 풀링하는 단계는 RoIAlign 동작을 통해 수행되는 행동 인식 방법.
  3. 제1항에 있어서, 상기 공간적 특징 맵을 추출하는 단계가
    공간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 공간적 느린 행동에 대한 특징 맵을 생성하는 과정을 포함하는 행동 인식 방법.
  4. 청구항 3에 있어서, 상기 시간적 특징 맵을 추출하는 단계가
    시간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 시간적 느린 행동에 대한 특징 맵을 생성하는 과정을 포함하는 행동 인식 방법.
  5. 청구항 4에 있어서, 상기 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 상기 공간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각이
    상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 공간들로 투영하는 단계;
    투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 공간적 주의 맵을 산출하는 단계; 및
    상기 공간적 주의 맵을 입력 데이터와 행렬 곱셈하여 공간적 특징 벡터를 구하는 단계;
    를 포함하는 행동 인식 방법.
  6. 청구항 5에 있어서, 상기 공간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 공간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각이
    상기 공간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 공간적 특징 맵을 생성하는 단계;
    를 더 포함하는 행동 인식 방법.
  7. 청구항 4에 있어서, 상기 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 상기 시간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각이
    상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 시간들로 투영하는 단계;
    투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 시간적 주의 맵을 산출하는 단계; 및
    상기 시간적 주의 맵을 입력 데이터와 행렬 곱셈하여 시간적 특징 벡터를 구하는 단계;
    를 포함하는 행동 인식 방법.
  8. 청구항 7에 있어서, 상기 시간적 빠른 행동에 대한 특징 맵을 생성하는 과정과, 시간적 느린 행동에 대한 특징 맵을 생성하는 과정의 각각이
    상기 시간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 시간적 특징 맵을 생성하는 단계;
    를 더 포함하는 행동 인식 방법.
  9. 입력 비디오에서 인간 행동을 인식하는 장치로서,
    프로세서와, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 메모리를 포함하고, 상기 프로그램 명령어들은 상기 프로세서에 의해 실행되었을 때:
    입력 비디오에 대한 비디오 특징 정보를 추출하고;
    상기 특징 정보를 토대로, 상기 입력 비디오 내에서 행동 인식 대상이 될 수 있는 사람을 둘러싸는 바운딩 박스를 생성하고;
    상기 바운딩 박스를 토대로, 상기 비디오 특징 정보를 풀링하고;
    풀링된 비디오 특징 정보로부터 하나 이상의 공간적 특징 맵을 추출하고;
    상기 풀링된 비디오 특징 정보로부터 하나 이상의 시간적 특징 맵을 추출하고;
    상기 하나 이상의 공간적 특징 맵과 상기 하나 이상의 시간적 특징 맵을 결합하여, 결합된 특징 맵을 생성하고;
    상기 결합된 특징 맵을 토대로 행동 인식을 하는
    동작을 수행하도록 하는 행동 인식 장치.
  10. 청구항 9에 있어서, 상기 비디오 특징 정보를 풀링하도록 하는 프로그램 명령어들은 RoIAlign 동작을 통해 상기 비디오 특징 정보를 풀링하도록 하는 명령어들을 포함하는 행동 인식 장치.
  11. 청구항 9에 있어서, 상기 공간적 특징 맵을 추출하도록 하는 프로그램 명령어들이
    공간적 빠른 행동에 대한 특징 맵을 생성하고;
    공간적 느린 행동에 대한 특징 맵을 생성하는
    동작을 수행하도록 하는 명령어들을 포함하는 행동 인식 장치.
  12. 청구항 11에 있어서, 상기 시간적 특징 맵을 추출하도록 하는 프로그램 명령어들이
    시간적 빠른 행동에 대한 특징 맵을 생성하고;
    시간적 느린 행동에 대한 특징 맵을 생성하는
    동작을 수행하도록 하는 명령어들을 포함하는 행동 인식 장치.
  13. 청구항 12에 있어서, 상기 공간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 공간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각이
    상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 공간들로 투영하고;
    투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 공간적 주의 맵을 산출하고;
    상기 공간적 주의 맵을 입력 데이터와 행렬 곱셈하여 공간적 특징 벡터를 구하는
    동작을 수행하게 하는 명령어들을 포함하는 행동 인식 장치.
  14. 청구항 13에 있어서, 상기 공간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 공간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각이
    상기 공간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 공간적 특징 맵을 생성하는 동작을 수행하게 하는 명령어들을 더 포함하는 행동 인식 장치.
  15. 청구항 12에 있어서, 상기 시간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 시간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각이
    상기 풀링된 비디오 특징 정보를 두 개의 새로운 특징 시간들로 투영하고;
    투영된 특징 정보들을 토대로, 각 성분이 지역들간의 영향을 나타내는 시간적 주의 맵을 산출하고; 및
    상기 시간적 주의 맵을 입력 데이터와 행렬 곱셈하여 시간적 특징 벡터를 구하는
    동작을 수행하게 하는 명령어들을 포함하는 행동 인식 장치.
  16. 청구항 15에 있어서, 상기 시간적 빠른 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들과, 상기 시간적 느린 행동에 대한 특징 맵을 생성하게 하는 프로그램 명령어들 각각이
    상기 시간적 특징 벡터에 제1 스케일링 파라미터를 곱하고 상기 비디오 특징 정보를 더함으로써, 상기 시간적 특징 맵을 생성하는 동작을 수행하게 하는 명령어들을 더 포함하는 행동 인식 장치.
KR1020210145311A 2020-11-26 2021-10-28 시공간 자기-주의에 기반한 행동 인식 방법 및 장치 KR20220073645A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200161680 2020-11-26
KR1020200161680 2020-11-26

Publications (1)

Publication Number Publication Date
KR20220073645A true KR20220073645A (ko) 2022-06-03

Family

ID=81658846

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210145311A KR20220073645A (ko) 2020-11-26 2021-10-28 시공간 자기-주의에 기반한 행동 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US20220164569A1 (ko)
KR (1) KR20220073645A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102560480B1 (ko) * 2022-06-28 2023-07-27 퀀텀테크엔시큐 주식회사 시공간 행동 인지 ai 모델링 서비스를 지원하는 시스템 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902548B2 (en) * 2021-03-16 2024-02-13 Huawei Technologies Co., Ltd. Systems, methods and computer media for joint attention video processing
CN115100740B (zh) * 2022-06-15 2024-04-05 东莞理工学院 一种人体动作识别和意图理解方法、终端设备及存储介质
CN117351218B (zh) * 2023-12-04 2024-02-27 武汉大学人民医院(湖北省人民医院) 一种炎症性肠病病理形态学特征隐窝拉伸图像识别的方法
CN117649630B (zh) * 2024-01-29 2024-04-26 武汉纺织大学 一种基于监控视频流的考场作弊行为识别方法
CN118155294A (zh) * 2024-05-11 2024-06-07 武汉纺织大学 一种基于时空注意力的双流网络课堂行为识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10850693B1 (en) * 2018-04-05 2020-12-01 Ambarella International Lp Determining comfort settings in vehicles using computer vision
US11498500B1 (en) * 2018-08-31 2022-11-15 Ambarella International Lp Determining comfort settings in vehicles using computer vision
CN113039555B (zh) * 2018-11-20 2024-04-19 渊慧科技有限公司 在视频剪辑中进行动作分类的方法、系统及存储介质
EP3792821A1 (en) * 2019-09-11 2021-03-17 Naver Corporation Action recognition using implicit pose representations
CN113128285A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种处理视频的方法及装置
CA3167079A1 (en) * 2020-03-27 2021-09-30 Mehrsan Javan Roshtkhari System and method for group activity recognition in images and videos with self-attention mechanisms
CN114079820A (zh) * 2020-08-19 2022-02-22 安霸国际有限合伙企业 在摄像机设备上借助于神经网络输入的以感兴趣的事件/对象为中心的间隔拍摄视频生成
CN114079750A (zh) * 2020-08-20 2022-02-22 安霸国际有限合伙企业 利用住宅安全摄像机上的ai输入的以感兴趣的人为中心的间隔拍摄视频以保护隐私
US20220156944A1 (en) * 2020-11-13 2022-05-19 Samsung Electronics Co., Ltd. Apparatus and method with video processing
US20220292827A1 (en) * 2021-03-09 2022-09-15 The Research Foundation For The State University Of New York Interactive video surveillance as an edge service using unsupervised feature queries

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102560480B1 (ko) * 2022-06-28 2023-07-27 퀀텀테크엔시큐 주식회사 시공간 행동 인지 ai 모델링 서비스를 지원하는 시스템 및 방법

Also Published As

Publication number Publication date
US20220164569A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
KR20220073645A (ko) 시공간 자기-주의에 기반한 행동 인식 방법 및 장치
Li et al. Cross-modal ranking with soft consistency and noisy labels for robust RGB-T tracking
Kopuklu et al. Motion fused frames: Data level fusion strategy for hand gesture recognition
Najibi et al. G-cnn: an iterative grid based object detector
Abu Farha et al. When will you do what?-anticipating temporal occurrences of activities
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
Chen et al. Multi attention module for visual tracking
Miksik et al. Efficient temporal consistency for streaming video scene analysis
Sun et al. Deep convolutional network cascade for facial point detection
Deng et al. M3 csr: Multi-view, multi-scale and multi-component cascade shape regression
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
US11106903B1 (en) Object detection in image data
Wu et al. Instance-aware representation learning and association for online multi-person tracking
KR20230104738A (ko) 비디오 행동 인식을 위한 시간적 병목 어텐션 아키텍처
Jammalamadaka et al. Has my algorithm succeeded? an evaluator for human pose estimators
Dong et al. Adaptive cascade deep convolutional neural networks for face alignment
CN111723822A (zh) 一种基于多层次融合的rgbd图像显著性检测方法及系统
Mohd Asaari et al. Adaptive Kalman Filter Incorporated Eigenhand (AKFIE) for real-time hand tracking system
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
Spampinato et al. Adversarial framework for unsupervised learning of motion dynamics in videos
Johnson et al. Combining discriminative appearance and segmentation cues for articulated human pose estimation
Li et al. Robust foreground segmentation based on two effective background models
CN114170558A (zh) 用于视频处理的方法、系统、设备、介质和产品
Huang et al. Cost-sensitive sparse linear regression for crowd counting with imbalanced training data
Wang et al. Non-local attention association scheme for online multi-object tracking

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application