KR20240074568A - 이미지 및 영상 기반의 상호 행동 인식 방법 - Google Patents

이미지 및 영상 기반의 상호 행동 인식 방법 Download PDF

Info

Publication number
KR20240074568A
KR20240074568A KR1020220156782A KR20220156782A KR20240074568A KR 20240074568 A KR20240074568 A KR 20240074568A KR 1020220156782 A KR1020220156782 A KR 1020220156782A KR 20220156782 A KR20220156782 A KR 20220156782A KR 20240074568 A KR20240074568 A KR 20240074568A
Authority
KR
South Korea
Prior art keywords
image
information
mutual
joint
video
Prior art date
Application number
KR1020220156782A
Other languages
English (en)
Inventor
오치민
박정민
Original Assignee
주식회사 세이프모션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 세이프모션 filed Critical 주식회사 세이프모션
Priority to KR1020220156782A priority Critical patent/KR20240074568A/ko
Priority to PCT/KR2023/013262 priority patent/WO2024111816A1/ko
Publication of KR20240074568A publication Critical patent/KR20240074568A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 이미지 및 영상 기반의 상호 행동 인식 방법에 관한 것으로, 더욱 상세하게는 사람이 촬영된 이미지 및 영상에서 검출된 복수의 사람 개개인의 행동 인식 정보뿐만 아니라 사람이 포함된 영상 정보(거리, 장소, 시간, 성별, 연령대 등)를 종합하여 고려함으로써, 복수의 사람 간의 상호 행동 발생 여부를 판단하고 상호 행동이 발생한 경우, 상호 행동을 인식할 수 있는 이미지 및 영상 기반의 상호 행동 인식 방법에 관한 것이다.

Description

이미지 및 영상 기반의 상호 행동 인식 방법{Image and video-based mutual behavior recognition method}
본 발명은 이미지 및 영상 기반의 상호 행동 인식 방법에 관한 것으로, 더욱 상세하게는 사람이 촬영된 이미지 및 영상에서 검출된 복수의 사람 개개인의 행동 인식 정보뿐만 아니라 사람이 포함된 영상 정보(거리, 장소, 시간, 성별, 연령대 등)를 종합하여 고려함으로써, 복수의 사람 간의 상호 행동 발생 여부를 판단하고 상호 행동이 발생한 경우, 상호 행동을 인식할 수 있는 이미지 및 영상 기반의 상호 행동 인식 방법에 관한 것이다.
최근 IT 기술의 발달에 따라 사용자가 직접 명령어를 입력하지 않더라도 특정 행동을 명령으로 인식하여 시스템을 제어하거나 행동 인식 기술의 연구가 증가하고 있는 추세이다.
예를 들면, 행동 인식 기술은 게임이나 가전제품의 구동을 위해 사용자가 직접 조작하지 않더라도 사용자의 행동을 분석하여 게임 또는 가전제품을 조작제어가 가능한 기술이거나 다양한 산업 분야에서 사람의 행동을 기반으로 사람의 상태를 모니터링할 수 있는 기술이다.
상세하게는, 행동 인식 기술은 촬영 장치로부터 획득한 영상 내에서 검출된 사람의 특징 정보를 추출하고 추출된 특징 정보를 기반으로 사람의 행동을 분류한다.
그러나, 단순히 영상 내에서 검출된 사람 개개인의 행동 인식은 동일한 행동으로 인식되어도 환경에 따라 다르게 이해할 수 없어 여러 산업 분야에 동일하게 적용하기 어려운 문제가 있으며, 다수의 검출된 사람으로 인해 정확히 전신이 다 확인되지 않아 특정 사람의 행동 인식은 정확도가 떨어지는 문제점이 있다.
이에, 종래에는 영상 내에서 사람이 검출된 시간과 장소, 검출된 사람의 성별과 연령대 등을 고려하여 장소에 따라 인식된 행동 패턴을 산업 분야에 따라 다르게 카테고리화 하여 제공하였으나, 이는 광장과 같은 다수의 사람이 검출되는 영상에서의 행동 인식 정확도 향상 문제를 개선하지 못하였다.
또한, 영상 내에서 검출된 다수의 사람 각각의 개별 행동을 인식하기 때문에 악수하기, 폭력, 나란히 걷기 등과 같은 상호 행동을 파악하지 못하며, 이에 따라, 상호 행동 기반으로 발생하는 특정 상황의 이해도가 떨어지고 모니터링하기 어려운 문제점이 있다.
따라서, 다양한 환경에서 검출된 다수의 사람 개개인의 행동을 인식하고 검출된 사람의 환경(장소, 시간, 성별, 연령대 등)을 고려하며, 다수의 사람 간의 관계 정보(거리, 움직임 속도, 겹침 정도 등)을 기반으로 상호 행동 여부를 판단하고 상호 행동으로 판단되면 상호 행동으로 정의하고 발생된 상호 행동을 인식하는 방법이 필요하다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 이미지 및 영상에서 검출된 사람의 개별 행동을 인식할뿐만 아니라 복수의 사람 간의 상호 행동 발생 여부를 판단하고 상호 행동이 발생한 것으로 판단한 경우, 상호 행동을 인식할 수 있는 방법을 제공하는데 있다.
상술한 목적을 달성하기 위해 본 발명은 사람이 촬영된 이미지 및 영상에서 검출된 복수의 사람 간의 상호 행동을 인식하는 방법으로, 딥러닝 기반의 객체 검출기를 활용하여 상기 이미지 및 영상에서 사람을 검출하는 단계; 검출된 사람 이미지에서 사람의 자세(포즈)를 추정하기 위한 관절 정보를 추출하는 단계; 검출된 각 사람의 연속 관절 정보와 검출된 사람이 포함된 영상 정보를 기반으로 각 사람의 개별 행동을 인식하는 단계; 상기 관절 정보, 상기 개별 행동 인식 과정 중에 도출되는 개별 행동 인식을 위한 특징 정보(이하, '개별 행동 특징 정보', 라함), 검출된 사람의 영상 정보 및 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정도에 대한 정보를 종합적으로 고려하여 상호 행동 발생 여부를 판단하는 단계; 및 상기 상호 행동 발생 여부를 판단하는 단계에서 상호 행동이 발생한 것으로 판단한 경우, 상기 관절 정보 및 상기 영상 정보를 기반으로 상호 행동을 인식하는 단계;를 포함하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법을 제공한다.
바람직한 실시예에 있어서, 상기 사람을 검출하는 단계와 상기 관절 정보를 추출하는 단계 사이에 상기 사람이 검출된 이미지를 전처리하는 단계를 더 포함한다.
바람직한 실시예에 있어서, 상기 사람을 검출하는 단계에서는 딥러닝 기반의 객체 검출기는 Yolo, SSD 및 Faster R-CNN 등의 객체 검출 알고리즘 중 하나 이상의 알고리즘을 사용한다.
바람직한 실시예에 있어서, 상기 관절 정보를 추출하는 단계는 자세 추정을 위해 Top-Down 방식의 알고리즘을 사용한다.
바람직한 실시예에 있어서, 상기 개별 행동을 인식하는 단계는 행동 인식을 위해 ST-GCN 및 PoseC3D 등의 행동 인식 알고리즘 중 하나 이상의 알고리즘을 사용한다.
바람직한 실시예에 있어서, 상기 상호 행동 발생 여부를 판단하는 단계는 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경망 모델을 사용한다.
바람직한 실시예에 있어서, 상기 상호 행동을 인식하는 단계는 상호 행동을 판별하기 위해 양방향 경로 구조를 갖는 네트워크를 사용한다.
바람직한 실시예에 있어서, 상기 양방향 경로 구조를 갖는 네트워크:는 각 경로에 입력되는 정보의 특징을 추출하는 특징 추출 모듈; 두 경로의 정보를 융합하는 융합 모듈; 및 상기 양방향 경로에서 각각 도출되는 결과 특징 정보와 추가로 입력되는 추가 특징 정보를 종합하여 상호 행동을 인식하는 상호 행동 인식 모듈;을 포함한다.
바람직한 실시예에 있어서, 각 경로의 특징 추출 모듈에는 각각 상기 관절 정보와 상기 영상 정보가 입력되며, 상기 관절 정보가 입력되는 특징 추출 모듈은 GCN 구조의 모델을 사용하여 관절 특징 정보를 도출하고, 상기 영상 정보가 입력되는 특징 추출 모듈은 3D-CNN 또는 2D-CNN 구조의 신경망 모델을 사용하여 영상 특징 정보를 도출한다.
바람직한 실시예에 있어서, 상기 관절 정보가 입력되는 경로(이하, '관절 경로', 라함) 기반의 융합 모듈은 상기 영상 특징 정보를 GAP에 통과시켜 해상도를 1로 줄인 후, 상기 관절 특징 정보에 상기 영상 특징 정보를 붙이기 전에 1x1 컨볼루션을 통과시켜 상기 관절 특징 정보에 필요한 정보로 변환시켜주는 작업을 수행한다.
바람직한 실시예에 있어서, 상기 영상 정보가 입력되는 경로(이하, '영상 경로', 라함) 기반의 융합 모듈은 상기 관절 특징 정보를 사용하여 상기 영상 특징 정보의 가중치를 계산하는 Attention 구조의 모델을 사용한다.
바람직한 실시예에 있어서, 상기 상호 행동 인식 모듈은 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경망 모델을 사용한다.
또한, 본 발명은 이미지 및 영상 기반의 상호 행동 인식 방법이 기록 매체에 저장된 컴퓨터 프로그램을 더 제공할 수 있다.
본 발명은 다음과 같은 우수한 효과를 가진다.
본 발명의 이미지 및 영상 기반의 상호 행동 인식 방법에 의하면, 검출된 복수 사람의 개별 행동 인식을 수행할뿐만 아니라 상호 행동 인식을 수행할 수 있어 이미지 및 영상에 포함된 사람을 보다 깊이 있게 이해할 수 있기 때문에 다양한 산업 분야에서 발생할 수 있는 특정 상황 파악을 위한 모니터링시 행동 인식 기반으로 한 상황 파악의 정확도를 향상시킬 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법을 설명하기 위한 순서도,
도 2는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델을 설명하기 위한 도면,
도 3은 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델에서 관절 경로 융합 모듈을 설명하기 위한 도면,
도 4는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델에서 영상 경로 융합 모듈을 설명하기 위한 도면,
도 5는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델에서 영상 경로 융합 모듈의 다른 예를 설명하기 위한 도면이다.
본 발명에서 사용되는 용어는 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있는데 이 경우에는 단순한 용어의 명칭이 아닌 발명의 상세한 설명 부분에 기재되거나 사용된 의미를 고려하여 그 의미가 파악되어야 할 것이다.
이하, 첨부한 도면에 도시된 바람직한 실시예들을 참조하여 본 발명의 기술적 구성을 상세하게 설명한다.
그러나, 본 발명은 여기서 설명되는 실시예에 한정되지 않고 다른 형태로 구체화될 수도 있으며, 명세서 전체에 걸쳐 동일한 참조번호는 동일한 구성요소를 나타낸다.
본 발명의 이미지 및 영상 기반의 상호 행동 인식 방법(S1000)은 사람이 촬영된 이미지 및 영상에서 복수의 사람을 검출한 후, 검출된 사람 간의 상호 행동 발생 여부를 판단하고 상호 행동이 발생한 것으로 판단하면 상호 행동을 인식하는 방법이다.
또한, 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법은 컴퓨터에 의해 수행되며, 상기 컴퓨터에는 상기 컴퓨터를 기능시켜 상기 이미지 및 영상 기반의 상호 행동 인식 방법을 수행하기 위한 컴퓨터 프로그램이 저장된다.
한편, 상기 이미지 및 영상 기반의 상호 행동 인식 방법은 상기 컴퓨터에 의해 수행될 수 있도록 컴퓨터 프로그램으로도 제공될 수 있다.
여기서, 상기 컴퓨터는 일반적인 퍼스널 컴퓨터뿐만 아니라, 통신망을 통해 접속 가능한 서버 컴퓨터, 클라우드 시스템, 스마트폰, 태블릿과 같은 스마트 기기, 임베디드 시스템을 포함하는 광의의 컴퓨터이다.
또한, 상기 컴퓨터 프로그램은 별도의 기록 매체에 저장되어 제공될 수 있으며, 상기 기록매체는 본 발명을 위하여 특별히 설계되어 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수 있다.
예를 들면, 상기 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD, DVD와 같은 광 기록 매체, 자기 및 광 기록을 겸할 수 있는 자기-광 기록 매체, 롬, 램, 플래시 메모리 등 단독 또는 조합에 의해 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치일 수 있다.
또한, 상기 컴퓨터 프로그램은 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등이 단독 또는 조합으로 구성된 프로그램일 수 있고, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라, 인터프리터 등을 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드로 짜여진 프로그램일 수 있다.
이하에서는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법에 대해 자세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법을 설명하기 위한 순서도로, 도 1을 참조하면, 본 발명의 이미지 및 영상 기반의 상호 행동 인식 방법(S1000)은 먼저 사람이 촬영된 이미지 및 영상을 입력받아 딥러닝 기반의 객체 검출기를 활용하여 사람을 검출한다(S1100).
여기서, 상기 딥러닝 기반의 객체 검출기는 Yolo, SSD 및 Faster R-CNN 등의 객체 검출 알고리즘 중 하나 이상의 알고리즘을 사용한다.
다음, 상기 검출된 사람 이미지에서 사람의 자세(포즈)를 추정하기 위한 관절 정보를 추출한다(S1200).
즉, 상기 관절 정보는 검출된 사람의 자세(포즈)를 추정한 자세 정보이다.
한편, 상기 사람이 검출된 이미지 또는 영상을 그대로 사용하여 상기 관절 정보를 추출할 경우, 연산량이 너무 많아질뿐만 아니라 검출 정확도가 떨어질 수 있는 문제가 발생할 수 있다.
이에 따라, 본 발명의 이미지 및 영상 기반의 상호 행동 인식 방법(S1000)은 상기 관절 정보를 추출하기(S1200) 전, 상기 검출된 사람 이미지를 전처리하는 단계(S1110)를 더 포함한다.
상기 사람 이미지를 전처리하는 단계(S1110)는 상기 검출된 사람 이미지의 입력 변수들을 새로운 변수 공간으로 전환함에 따라 상기 관절 정보 추출(S1200) 중 발생할 수 있는 많은 변수를 최소화할 수 있다.
상세하게는, 상기 사람 이미지를 전처리하는 단계(S1110)는 상기 검출된 사람 이지미에서 사람 영역만을 전처리를 통해 크롭하여 추출한 후 사람 영역만 추출된 이미지에서 상기 관절 정보 추출(S1200)을 수행함으로써 연산량을 최소화하고 복잡한 연산을 단순화시켜 상기 관절 정보를 빠르고 쉽게 추출할 수 있으며, 검출 정확도 또한 향상시킬 수 있는 장점이 있다.
이에, 상기 사람 이미지를 전처리하는 단계(S1110)에서 전처리된 사람 이미지를 기반으로 상기 관절 정보를 추출한다(S1200).
한편, 본 발명에서는 상기 관절 정보를 추출(S1200)시, HR-NET 알고리즘을 사용하였으나, 이에 한정되는 것은 아니며, 상기 관절 정보를 기반으로 상기 관절 정보를 효율적으로 추출할 수 있는 Top-Dowm 방식의 자세 추정 알고리즘을 사용할 수 있다.
다음, 각 사람의 추출된 연속 관절 정보와 검출된 사람이 포함된 영상 정보를 기반으로 검출된 사람의 개별 행동을 인식한다(S1300).
여기서, 상기 영상 정보는 사람이 검출된 이미지 및 영상에서 도출된 정보로, 검출된 사람이 존재하는 장소, 검출된 사람이 촬영된 시간, 검출된 사람의 성별 및 연령대 등의 정보이다.
또한, 상기 개별 행동 인식(S1300)시, 본 발명에서는 ST-GCN 또는 PoseC3D을 사용하였으나, 이에 한정되는 것은 아니며, 상기 연속 관절 정보 및 상기 영상 정보를 기반으로 개별 행동 인식을 수행할 수 있는 다양한 행동 인식 알고리즘을 사용할 수 있다.
다음, 상기 관절 정보, 상기 개별 행동 인식 과정 중에 도출되는 개별 행동 인식을 위한 특징 정보(이하, '개별 행동 특징 정보', 라함), 검출된 사람의 영상 정보 및 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정도에 대한 정보를 종합적으로 고려하여 상호 행동 발생 여부를 판단한다(S1400).
상세하게는, 상기 상호 행동 발생 여부 판단(S1400)은 검출된 사람 개개인의 관절 정보 및 개별 행동 인식 정보와 상기 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정보가 포함된 다수의 프레임을 축적한 정보를 기반으로 2인 이상의 사람 간에 상호 행동이 발생했는지에 대한 여부를 판단한다(S1400).
또한, 상기 상호 행동 발생 여부 판단 단계(S1400)는 먼저 검출된 사람들을 모두 1 대 1로 비교하여 상호 행동이 발생했는지에 대한 여부를 판단하고, 이후, 모든 비교 결과값을 기준으로 상기 상호 행동에 연관이 있는 사람들끼리 그룹으로 지정한다.
이에 따라, 상기 상호 행동 발생 여부 판단 단계(S1400)는 2인 이상 사람 간의 상호 행동이 발생했는지에 대한 여부를 판단할 수 있다.
예를 들면, 상기 2인 이상 사람 간의 상호 행동은 군중이 응원하는 행동, 두 사람이 한사람을 양쪽에서 부축하는 행동, 3인 이상 나란히 걷기 등일 수 있다.
한편, 상기 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정보는 먼저 검출된 사람의 바운딩 박스 정보를 추출하며, 상기 바운딩 박스 정보는 상기 검출된 사람들 간의 겹침 정도를 명료하게 정의하기 위해 상기 바운딩 박스의 크기를 박스의 중점을 기준으로 수평값이 1~3배수를 부여하여 획득한 바운딩 박스를 사용한다.
또한, 상기 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정보를 추출하기 위해 본 발명에서는 IoU(Intersection over Union) 알고리즘을 사용하였으나, 이에 한정되는 것은 아니며, 객체 간의 겹침 정도를 판별할 수 있는 다양한 알고리즘을 사용할 수 있다.
또한, 상기 상호 행동 발생 여부를 판단(S1400)시, 본 발명에서는 다층 퍼셉트론(Multi-Layer Pereptron, MLP)을 사용하였으나, 이에 한정되는 것은 아니며, 상기 관절 정보, 상기 개별 행동 인식 정보 및 상기 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정보를 기반으로 상기 상호 행동 발생 여부를 판단할 수 있는 다양한 신경망 모델을 사용할 수 있다.
한편, 상기 상호 행동 발생 여부를 판단하는 단계(S1400)에서 상기 상호 행동이 발생하지 않은 것으로 판단된 경우, 다시 사람 검출(S1100)부터 시작하며, 상기 상호 행동이 발생한 것으로 판단된 경우, 상기 상호 행동 발생으로 판단된 영역에서 발생한 상호 행동이 무엇인지 인식한다(S1500).
상세하게는, 상기 관절 정보, 상기 개별 행동 인식 과정 중에 도출되는 개별 행동 인식을 위한 특징 정보(이하, '개별 행동 특징 정보', 라함), 검출된 사람의 영상 정보 및 검출된 사람의 바운딩 박스 정보를 기반으로 상기 상호 행동 발생 여부를 판단 단계(S1400)에서 상호 행동이 발생한 것으로 판단한 상호 행동을 인식한다(S1500).
또한, 상기 상호 행동을 인식하는 단계(S1500)는 1:1인 두사람 간의 상호 행동 인식뿐만 아니라 1:다수 또는 다수 : 다수인 2인 이상 사람 간의 상호 행동을 인식할 수 있다.
상세하게는, 상기 상호 행동을 인식하는 단계(S1500)는 상기 상호 행동 발생 여부를 판단하는 단계(S1400)에서 그룹으로 지정한 상기 상호 행동이 발생한 것으로 판단되는 2인 이상의 사람 간의 상호 행동을 인식한다(S1500).
도 2는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델을 설명하기 위한 도면으로, 도 2을 참조하면, 상기 상호 행동 판단(S1500)시, 본 발명에서는 양방향 경로 구조를 갖는 네트워크를 사용한다.
상기 양방향 경로 구조를 갖는 네트워크는 각 경로에서 상기 관절 정보와 상기 영상 정보를 입력받아 최종적으로 상호 행동을 인식한다.
또한, 상기 양방향 경로 구조를 갖는 네트워크는 상기 상호 행동을 인식하기 위해 필요한 정보를 두 경로에서 각각 입력받아 특징을 추출하는 모듈과 중간에는 상기 두 경로의 정보를 융합하는 융합 모듈로 이루어져 있으며, 최종적으로 위에서 도출된 결과 정보와 별도로 추가 특징 정보를 입력받아 상호 행동을 판단하기 위한 상호 행동 판단 모듈로 구성된다.
여기서, 상기 관절 정보를 입력받는 특징 추출 모듈은 GCN 구조의 모델을 사용하였고, 상기 영상 정보를 입력받는 특징 추출 모듈은 3D-CNN 또는 2D-CNN를 사용하였으나, 이에 한정되는 것은 아니며, 각 정보의 특징 추출을 효율적으로 수행할 수 있는 다양한 알고리즘을 사용할 수 있다.
도 3은 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델에서 관절 경로 융합 모듈을 설명하기 위한 도면으로, 도 3을 참조하면, 상기 관절 정보가 입력되는 경로(이하, '관절 경로', 라함)에 형성된 융합 모듈은 상기 관절 정보를 입력받은 특징 추출 모듈에서 추출된 관절 특징 정보에 상기 영상 정보를 입력받은 특징 추출 모듈에서 추출된 영상 특징 정보를 입력받아 융합시킨 정보를 도출한다.
상세하게는, 상기 관절 경로에 형성된 융합 모듈은 상기 영상 특징 정보를 입력받아 GAP를 통과시켜 해상도를 1로 줄이고 1x1 컨볼루션을 통과시켜 상기 관절 정보를 입력받은 관절 특징 정보에 융합시킬 수 있는 정보로 변환시킨 후 상기 관절 특징 정보와 융합하여 도출한다.
도 4는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델에서 영상 경로 융합 모듈을 설명하기 위한 도면, 도 5는 본 발명의 일 실시예에 따른 이미지 및 영상 기반의 상호 행동 인식 방법의 상호 행동 인식 모델에서 영상 경로 융합 모듈의 다른 예를 설명하기 위한 도면이다.
도 4 및 도 5를 참조하여, 상기 영상 정보가 입력되는 경로(이하, '영상 경로', 라함)에 형성된 융합 모듈에 대하여 상세히 설명한다.
상기 영상 경로에 형성된 융합 모듈은 상기 영상 정보를 입력받은 특징 추출 모듈에서 추출된 영상 특징 정보에 상기 관절 정보를 입력받은 특징 추출 모듈에서 추출된 관절 특징 정보를 입력받아 융합시킨 정보를 도출한다.
상세하게는, 상기 영상 경로에 형성된 융합 모듈은 상기 관절 특징 정보를 기반으로 상기 영상 특징 정보의 가중치를 계산하여 결과를 도출한다.
여기서, 상기 영상 경로에 형성된 융합 모듈은 상기 관절 특징 정보를 시그모이드(Sigmoid) 함수 또는 소프트맥스(Softmax) 함수를 통해 도출된 값에 value값을 곱하여 가중치를 부여함으로써, Attention value를 도출하는 Attention 구조를 갖는 모델을 사용하였으나, 이에 한정되는 것은 아니며 가중치를 기반으로 결과를 도출할 수 있는 다양한 신경망 모델을 사용할 수 있다.
상기 상호 행동 판단 모듈은 상기 관절 경로에서 도출된 최종 결과값과 상기 영상 경로에서 도출된 최종 결과값 및 상호 행동을 판단에 영향을 미칠 수 있는 추가적인 특징 정보를 입력받아 상호 행동 발생으로 판단된 상호 행동을 판단한다.
여기서, 상기 상호 행동 판단 모듈은 다층 퍼셉트론(Multi-Layer Pereptron, MLP)을 사용하였으나, 이에 한정되는 것은 아니며, 상기 검출된 사람의 바운딩 박스 정보 및 검출된 사람 간의 겹침 정도에 대한 정보를 기반으로 상호 행동 발생 여부를 판단할 수 있는 다양한 신경망 모델을 사용할 수 있다.
또한, 상기 추가적인 특징 정보는 검출된 사람의 바운딩 박스 정보, 사람 간의 겹침 정도에 관한 정보 및 개별 행동 정보 등이다.
따라서, 본 발명의 이미지 및 영상 기반의 상호 행동 인식 방법(S1000)은 검출된 개개인의 개별 행동 인식뿐만 아니라 복수의 사람 간의 상호 행동 발생 여부를 판단하고 상호 행동이 발생한 것으로 판단한 경우, 상호 행동을 판단하여 인식할 수 있어 개별 행동으로 인식할 경우 알 수 없었던 상호 행동을 이해할 수 있기 때문에 영상 기반으로 검출된 사람의 이해도를 높일 수 있는 장점이 있다.
이상에서 살펴본 바와 같이 본 발명은 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.

Claims (13)

  1. 사람이 촬영된 이미지 및 영상에서 검출된 복수의 사람 간의 상호 행동을 인식하는 방법으로,
    딥러닝 기반의 객체 검출기를 활용하여 상기 이미지 및 영상에서 사람을 검출하는 단계;
    검출된 사람 이미지에서 사람의 자세(포즈)를 추정하기 위한 관절 정보를 추출하는 단계;
    검출된 각 사람의 연속 관절 정보와 검출된 사람이 포함된 영상 정보를 기반으로 각 사람의 개별 행동을 인식하는 단계;
    상기 관절 정보, 상기 개별 행동 인식 과정 중에 도출되는 개별 행동 인식을 위한 특징 정보(이하, '개별 행동 특징 정보', 라함), 검출된 사람의 영상 정보 및 검출된 사람의 바운딩 박스 정보를 기반으로 한 검출된 사람들 간의 겹침 정도에 대한 정보를 종합적으로 고려하여 상호 행동 발생 여부를 판단하는 단계; 및
    상기 상호 행동 발생 여부를 판단하는 단계에서 상호 행동이 발생한 것으로 판단한 경우, 상기 관절 정보 및 상기 영상 정보를 기반으로 상호 행동을 인식하는 단계;를 포함하며,
    상기 상호 행동 인식하는 단계는 검출된 2인 이상의 사람 간의 상호 행동을 인식하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  2. 제 1 항에 있어서,
    상기 사람을 검출하는 단계와 상기 관절 정보를 추출하는 단계 사이에 상기 사람이 검출된 이미지를 전처리하는 단계를 더 포함하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  3. 제 1 항에 있어서,
    상기 사람을 검출하는 단계에서는 딥러닝 기반의 객체 검출기는 Yolo, SSD 및 Faster R-CNN 등의 객체 검출 알고리즘 중 하나 이상의 알고리즘을 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  4. 제 1 항에 있어서,
    상기 관절 정보를 추출하는 단계는 자세 추정을 위해 Top-Down 방식의 알고리즘을 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  5. 제 1 항에 있어서,
    상기 개별 행동을 인식하는 단계는 개별 행동 인식을 위해 ST-GCN 및 PoseC3D 등의 행동 인식 알고리즘 중 하나 이상의 알고리즘을 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  6. 제 1 항에 있어서,
    상기 상호 행동 발생 여부를 판단하는 단계는 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경망 모델을 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  7. 제 1 항에 있어서,
    상기 상호 행동을 인식하는 단계는 상호 행동을 판별하기 위해 양방향 경로 구조를 갖는 네트워크를 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  8. 제 7 항에 있어서,
    상기 양방향 경로 구조를 갖는 네트워크:는
    각 경로에 입력되는 정보의 특징을 추출하는 특징 추출 모듈;
    두 경로의 정보를 융합하는 융합 모듈; 및
    상기 양방향 경로에서 각각 도출되는 결과 특징 정보와 추가로 입력되는 추가 특징 정보를 종합하여 상호 행동을 인식하는 상호 행동 인식 모듈;을 포함하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  9. 제 8 항에 있어서,
    각 경로의 특징 추출 모듈에는 각각 상기 관절 정보와 상기 영상 정보가 입력되며,
    상기 관절 정보가 입력되는 특징 추출 모듈은 GCN 구조의 모델을 사용하여 관절 특징 정보를 도출하고,
    상기 영상 정보가 입력되는 특징 추출 모듈은 3D-CNN 또는 2D-CNN 구조의 신경망 모델을 사용하여 영상 특징 정보를 도출하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  10. 제 8 항에 있어서,
    상기 관절 정보가 입력되는 경로(이하, '관절 경로', 라함) 기반의 융합 모듈은 상기 영상 특징 정보를 GAP에 통과시켜 해상도를 1로 줄인 후, 상기 관절 특징 정보에 상기 영상 특징 정보를 붙이기 전에 1x1 컨볼루션을 통과시켜 상기 관절 특징 정보에 필요한 정보로 변환시켜주는 작업을 수행하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  11. 제 8 항에 있어서,
    상기 영상 정보가 입력되는 경로(이하, '영상 경로', 라함) 기반의 융합 모듈은 상기 관절 특징 정보를 사용하여 상기 영상 특징 정보의 가중치를 계산하는 Attention 구조의 모델을 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  12. 제 8 항에 있어서,
    상기 상호 행동 인식 모듈은 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경망 모델을 사용하는 것을 특징으로 하는 이미지 및 영상 기반의 상호 행동 인식 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항의 이미지 및 영상 기반의 상호 행동 인식 방법이 기록 매체에 저장된 컴퓨터 프로그램.
KR1020220156782A 2022-11-21 2022-11-21 이미지 및 영상 기반의 상호 행동 인식 방법 KR20240074568A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220156782A KR20240074568A (ko) 2022-11-21 2022-11-21 이미지 및 영상 기반의 상호 행동 인식 방법
PCT/KR2023/013262 WO2024111816A1 (ko) 2022-11-21 2023-09-05 이미지 및 영상 기반의 상호 행동 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220156782A KR20240074568A (ko) 2022-11-21 2022-11-21 이미지 및 영상 기반의 상호 행동 인식 방법

Publications (1)

Publication Number Publication Date
KR20240074568A true KR20240074568A (ko) 2024-05-28

Family

ID=91195761

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220156782A KR20240074568A (ko) 2022-11-21 2022-11-21 이미지 및 영상 기반의 상호 행동 인식 방법

Country Status (2)

Country Link
KR (1) KR20240074568A (ko)
WO (1) WO2024111816A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102260120B1 (ko) * 2019-11-04 2021-06-03 주식회사 넥스트케이 딥러닝기반 행동인식장치 및 그 장치의 구동방법
KR102126498B1 (ko) * 2019-11-15 2020-06-25 한국건설기술연구원 영상 인식 기반의 위험상황 감지방법, 위험 관리 장치 및 위험상황 감지시스템
KR102533140B1 (ko) * 2020-08-24 2023-05-17 경기대학교 산학협력단 심층 신경망을 이용한 장면 그래프 생성 시스템
KR102580434B1 (ko) * 2021-02-05 2023-09-20 호서대학교 산학협력단 위험 상황 감지 장치 및 위험 상황 감지 방법
KR102410285B1 (ko) * 2021-10-14 2022-06-22 주식회사 씨앤에이아이 Cctv 영상 데이터를 통한 낙상 사고 감지 방법 및 시스템

Also Published As

Publication number Publication date
WO2024111816A1 (ko) 2024-05-30

Similar Documents

Publication Publication Date Title
Ballard Animat vision
Subetha et al. A survey on human activity recognition from videos
CN102831439B (zh) 手势跟踪方法及系统
US20080219502A1 (en) Tracking bimanual movements
Sikandar et al. ATM crime detection using image processing integrated video surveillance: a systematic review
KR20170025535A (ko) 스켈레톤 자세 데이터세트를 이용한 비디오 기반 상호 활동 모델링 방법
Asteriadis et al. Landmark-based multimodal human action recognition
Aftab et al. A boosting framework for human posture recognition using spatio-temporal features along with radon transform
Dharmalingam et al. Vector space based augmented structural kinematic feature descriptor for human activity recognition in videos
Favaro et al. AdaBoost
EP4287145A1 (en) Statistical model-based false detection removal algorithm from images
Werman Affine invariants
KR20240074568A (ko) 이미지 및 영상 기반의 상호 행동 인식 방법
Thabet et al. Algorithm of local features fusion and modified covariance-matrix technique for hand motion position estimation and hand gesture trajectory tracking approach
Yadav et al. Human Illegal Activity Recognition Based on Deep Learning Techniques
Elsayed et al. Abnormal Action detection in video surveillance
Ladjailia et al. Encoding human motion for automated activity recognition in surveillance applications
Keyvanpour et al. Detection of individual activities in video sequences based on fast interference discovery and semi-supervised method
Liu et al. A view-invariant action recognition based on multi-view space hidden markov models
Köser Affine Registration
Doulamis Vision based fall detector exploiting deep learning
KR102538919B1 (ko) 하이브리드 사물 추적 시스템 및 방법
Sultani et al. Action recognition in real-world videos
Doulamis et al. An architecture for a self configurable video supervision
Kang A Dance Somersault Pose Recognition Model Using Multifeature Fusion Algorithm