KR102213494B1 - 행동 인식 장치 및 방법 - Google Patents

행동 인식 장치 및 방법 Download PDF

Info

Publication number
KR102213494B1
KR102213494B1 KR1020190092550A KR20190092550A KR102213494B1 KR 102213494 B1 KR102213494 B1 KR 102213494B1 KR 1020190092550 A KR1020190092550 A KR 1020190092550A KR 20190092550 A KR20190092550 A KR 20190092550A KR 102213494 B1 KR102213494 B1 KR 102213494B1
Authority
KR
South Korea
Prior art keywords
image
skeleton
feature map
neural network
behavior
Prior art date
Application number
KR1020190092550A
Other languages
English (en)
Inventor
박강령
간바야르
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020190092550A priority Critical patent/KR102213494B1/ko
Application granted granted Critical
Publication of KR102213494B1 publication Critical patent/KR102213494B1/ko

Links

Images

Classifications

    • G06K9/00335
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 실시 예에 따른 행동 인식 장치는 열 영상을 입력 받는 입력부, 열 영상에 대한 전처리를 수행하는 전처리부, 열 영상에 대응하는 스켈레톤 영상을 생성하는 스켈레톤 생성부 및 스켈레톤 영상에 대응하는 행동 정보를 생성하는 행동 인식부를 포함한다.

Description

행동 인식 장치 및 방법{APPARATUS AND METHOD FOR IDENTIFYING ACTION}
본 발명은 행동 인식에 관한 것으로, 보다 상세하게는 사이클 생성 신경망(cycle generative neural networks, CycleGAN), 컨볼루션 신경망(convolutional neural network , CNN) 및 컨볼루션 신경망-롱숏텀메모리(CNN stacked with long short-term memory , CNN-LSTM)을 이용한 행동 인식 기술에 관한 것이다.
카메라 기반 감시 시스템을 이용한 행동 인식은 어려운 주제이며 특히 어두운 환경에서 취득한 영상에서 사람이 잘 안 보일 때 행동 인식하는 것은 어렵다. 이를 해결하기 위해서 기존 연구들은 near-infrared (NIR) 및 열카메라들을 이용 하였다. 열카메라는 NIR카메라를 비해 어두운 환경에서 추가 조명 없이도 원거리 및 근거리 대상체를 눈에 보이게 할 수 있다. 그러나, 열카메라는 두 가지의 단점을 가지고 있는데 그것은 바로 헤일로 효과(halo effect) 와 온도 유사성(temperature similarity)이다. 헤일로 효과는 온도가 높은 객체의 주변에 생기는 것인데 사람의 경우 몸 영역 밑에서 그림자와 비슷하게 생기며, 헤일로 효과가 생긴 영상에서 사람 영역만을 추출하는 것이 더 어렵다. 또한, 배경과 사람의 온도가 비슷할 시 사람 영역을 추출하는 것은 어렵다. 위와 같은 헤일로 효과와 온도 유사성에 따라 사람 영역 추출(segmentation)의 정확도에 영향을 미친다. 사람 영역을 정확하게 추출하지 못하게 되는 경우, 카메라 기반 행동 인식 시스템에서 행동 인식의 성능이 떨어지는 문제가 있다.
본 발명의 배경기술은 대한민국 공개특허 제2017-0017588호에 개시되어 있다.
본 발명의 해결하고자 하는 과제는 CycleGAN, CNN 및 CNN-LSTM을 이용한 행동 인식 장치 및 방법을 제공하는 것이다.
본 발명의 일 측면에 따르면, 열 영상을 입력 받는 입력부; 상기 열 영상에 대한 전처리를 수행하는 전처리부; 상기 열 영상에 대응하는 스켈레톤 영상을 생성하는 스켈레톤 생성부; 및 상기 스켈레톤 영상에 대응하는 행동 정보를 생성하는 행동 인식부; 를 포함하는 행동 인식 장치가 제공된다.
상기 전처리는 사이클 생성 신경망(cycle generative neural networks)을 통해 상기 열 영상을 복원하는 과정 또는 상기 열 영상의 헤일로 효과를 제거하는 과정일 수 있다.
상기 사이클 생성 신경망은 3개의 컨볼루션 신경망 및 3개의 정류 선형 유닛을 포함하는 다운 샘플링 그룹과 업 샘플링 그룹을 포함하고, 6개의 잔여 블록을 포함하는 구조의 사이클 생성 신경망일 수 있다.
상기 스켈레톤 생성부는 컨벌루션 신경망을 통해 상기 영상에 대응하는 스켈레톤 영상을 생성할 수 있다.
상기 행동인식부는 컨볼루션 신경망-롱숏텀메모리(CNN stacked with long short-term memory)를 통해 상기 스켈레톤 영상에 대한 상기 행동 정보를 생성할 수 있다.
상기 컨볼루션 신경망-롱숏텀메모리는 6개의 컨볼루션 신경망, 3개의 풀 레이어 및 1개의 롱숏텀메모리를 포함할 수 있다.
본 발명의 다른 측면에 따르면, 행동 인식 장치가 행동을 인식하는 방법에 있어서,열 영상을 입력 받는 단계; 상기 열 영상에 대한 전처리를 수행하는 단계; 상기 열 영상에 대응하는 스켈레톤 영상을 생성하는 단계; 및 상기 스켈레톤 영상에 대응하는 행동 정보를 생성하는 단계;를 포함하는 행동 인식 방법이 제공된다.
상기 전처리는 사이클 생성 신경망(cycle generative neural networks)을 통해 상기 열 영상을 복원하는 과정 또는 상기 열 영상의 헤일로 효과를 제거하는 과정일 수 있다.
상기 사이클 생성 신경망은 3개의 컨볼루션 신경망 및 3개의 정류 선형 유닛을 포함하는 다운 샘플링 그룹과 업 샘플링 그룹을 포함하고, 6개의 잔여 블록을 포함하는 구조의 사이클 생성 신경망일 수 있다.
상기 열 영상에 대응하는 스켈레톤 영상을 생성하는 단계는 컨벌루션 신경망을 통해 상기 영상에 대응하는 스켈레톤 영상을 생성하는 단계일 수 있다.
상기 스켈레톤 영상에 대응하는 행동 정보를 생성하는 단계는 컨볼루션 신경망-롱숏텀메모리(CNN stacked with long short-term memory)를 통해 상기 스켈레톤 영상에 대한 상기 행동 정보를 생성하는 단계일 수 있다.
상기 컨볼루션 신경망-롱숏텀메모리는 6개의 컨볼루션 신경망, 3개의 풀 레이어 및 1개의 롱숏텀메모리를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 상기 행동 인식 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램이 제공된다.
본 발명의 일 실시 예에 따르면, 어두운 환경에서 범죄 행동, 응급 상황 등의 사람의 행동을 높은 정확도로 인식할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 행동 인식 장치를 예시한 도면.
도 2는 본 발명의 일 실시 예에 따른 행동 인식 장치가 입력 받는 영상 및 대상체의 검출 결과를 예시한 도면.
도 3은 본 발명의 일 실시 예에 따른 행동 인식 장치가 영상을 복원하는 과정을 예시한 도면.
도 4는 본 발명의 일 실시 예에 따른 행동 인식 장치가 이용하는 CycleGAN의 구조를 예시한 도면.
도 5는 본 발명의 일 실시 예에 따른 행동 인식 장치가 이용하는 CycleGAN 중 잔여 블록을 예시한 도면.
도 6은 본 발명의 일 실시 예에 따른 행동 인식 장치의 CycleGAN 중 구분자 컨볼루션 신경망을 예시한 도면.
도 7은 본 발명의 일 실시 예에 따른 행동 인식 장치가 입력 받는 영상 및 헤일로 효과에 따른 대상체의 검출 결과를 예시한 도면.
도 8은 본 발명의 일 실시 예에 따른 행동 인식 장치가 헤일로 효과를 제거하는 과정을 예시한 도면.
도 9는 본 발명의 일 실시 예에 따른 행동 인식 장치가 생성하는 스켈레톤 영상을 생성하기 위한 방법을 예시한 도면.
도 10은 본 발명의 일 실시 예에 따른 행동 인식 장치가 스켈레톤 영상을 생성하는 과정을 예시한 도면.
도 11은 본 발명의 일 실시 예에 따른 행동 인식 장치가 인식하는 행동을 예시한 도면.
도 12는 본 발명의 일 실시 예에 따른 행동 인식 장치가 이용하는 CNN-LSTM를 개념적으로 예시한 도면.
도 13은 본 발명의 일 실시예에 따른 행동 인ㅇ식 장치가 이용하는 CNN-LSTM의 구체적인 구조를 예시한 도면.
도 14는 본 발명의 일 실시예에 따른 행동 인식 장치가 행동 인식을 하는 방법을 예시한 순서도.
도 15는 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법에 따른 정확도를 나타낸 도면.
도 16은 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법의 구체적인 정확도를 나타낸 도면.
도 17은 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법 중 일 방법의 정확도에 대한 confusion matrix를 나타낸 도면.
도 18은 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법 중 다른 방법의 정확도에 대한 confusion matrix를 나타낸 도면.
도 19는 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법의 처리 시간을 나타낸 도면.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 행동 인식 장치를 예시한 도면이고, 도 2는 본 발명의 일 실시 예에 따른 행동 인식 장치가 입력 받는 영상 및 대상체의 검출 결과를 예시한 도면이고, 도 3은 본 발명의 일 실시 예에 따른 행동 인식 장치가 영상을 복원하는 과정을 예시한 도면이고, 도 4는 본 발명의 일 실시 예에 따른 행동 인식 장치가 이용하는 CycleGAN의 구조를 예시한 도면이고, 도 5는 본 발명의 일 실시 예에 따른 행동 인식 장치가 이용하는 CycleGAN 중 잔여 블록을 예시한 도면이고, 도 6은 본 발명의 일 실시 예에 따른 행동 인식 장치의 CycleGAN 중 구분자 컨볼루션 신경망을 예시한 도면이고, 도 7은 본 발명의 일 실시 예에 따른 행동 인식 장치가 입력 받는 영상 및 헤일로 효과에 따른 대상체의 검출 결과를 예시한 도면이고, 도 8은 본 발명의 일 실시 예에 따른 행동 인식 장치가 헤일로 효과를 제거하는 과정을 예시한 도면이고, 도 9는 본 발명의 일 실시 예에 따른 행동 인식 장치가 생성하는 스켈레톤 영상을 생성하기 위한 방법을 예시한 도면이고, 도 10은 본 발명의 일 실시 예에 따른 행동 인식 장치가 스켈레톤 영상을 생성하는 과정을 예시한 도면이고, 도 11은 본 발명의 일 실시 예에 따른 행동 인식 장치가 인식하는 행동을 예시한 도면이고, 도 12는 본 발명의 일 실시 예에 따른 행동 인식 장치가 이용하는 CNN-LSTM를 개념적으로 예시한 도면이고, 도 13은 본 발명의 일 실시예에 따른 행동 인ㅇ식 장치가 이용하는 CNN-LSTM의 구체적인 구조를 예시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 행동 인식 장치는 입력부(110), 전처리부(120), 스켈레톤 생성부(130) 및 행동 인식부(140)를 포함한다.
입력부(110)는 지정된 프로토콜의 단자 또는 네트워크를 통해 영상을 수신한다. 이 때, 영상은 열카메라로 촬영한 열 영상일 수 있다. 입력부(110)는 영상을 전처리부(120)로 전송한다.
전처리부(120)는 입력부(110)로부터 수신한 영상에 대해 전처리 과정을 수행한다. 예를 들어, 전처리부(120)는 CycleGAN을 이용하여 저화질의 영상을 고화질 영상으로 복원할 수 있다. 도 2의 (a) 및 (b)는 다른 온도에서 촬영한 영상이다. 이 때, (a)와 같은 영상에서 대상체를 검출하면 (c)와 같은 사람의 몸 영역의 일부가 사라지거나 잘리는 현상이 발생하여 대상체 검출 방법의 정확도가 떨어진다. 반면, (b)와 같은 영상에서 대상체를 검출하는 경우, (d)와 같이 좋은 검출 결과가 나올 수 있다. 따라서, 행동 인식을 정확하게 하기 위해서는 (a)와 같은 영상을 입력 받는 경우, (b)와 같이 복원할 필요가 있다. 전처리부(120)는 도 3과 같이 CycleGAN(사이클 생성 신경망)를 이용하여 영상을 복원할 수 있다. 이 때, Conv는 컨볼루션 레이어(convolutional layer), BN는 배치 정규화 레이어(batch normalization layer), Relu는 정류 선형 유닛(rectified linear unit), 그리고 Add는 부가 펑션(addition function)을 나타낸다. 도 4를 참조하여 CycleGAN을 구체적으로 설명하면, CycleGAN은 입력(Input) 다운 샘플링(Down sampling), 잔여 블록(Residual block), 업 샘플링(Up sampling) 및 출력(Output) 그룹을 포함한다.
입력 그룹은 224x224x1의 특징맵(feature map)을 생성하는 입력 레이어(Input layer)를 포함한다.
다운 샘플링 그룹은 216x216x32의 특징맵을 입력받는 제1 컨볼루션 레이어(Conv1) 및 제1 정류 선형 유닛(ReLU1)을 포함한다. 이 때, 제1 컨볼루션 레이어에서 사용된 필터 사이즈는 9x9이고, 필터 수는 32개이고, 스트라이드(stride)는 1x1일 수 있다. 또한, 다운 샘플링 그룹은 104x104x64의 특징맵을 입력받는 제2 컨볼루션 레이어(Conv2) 및 제2 정류 선형 유닛(ReLU2)을 포함한다. 이 때, 제2 컨볼루션 레이어에서 사용된 필터 사이즈는 9x9이고, 필터 수는 64개이고, 스트라이드(stride)는 2x2일 수 있다. 다운 샘플링 그룹은 51x51x128의 특징맵을 입력받는 제3 컨볼루션 레이어(Conv3) 및 제3 정류 선형 유닛(ReLU3)을 포함한다. 이 때, 제3 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 128개이고, 스트라이드(stride)는 2x2일 수 있다.
잔여 블록 그룹은 제1 잔여블록(ResBlock1), 제2 잔여블록(ResBlock2), 제3 잔여블록(ResBlock1), 제4 잔여블록(ResBlock4), 제5 잔여블록(ResBlock5) 및 제6 잔여블록(ResBlock6)을 포함한다. 이 때, 각 잔여 블록에서 사용된 필터 사이즈는 51x51x128일 수 있다. 구체적으로 각 잔여 블록은 도 5와 같이 51x51x128의 특징맵을 생성하고, 3x3의 필터 사이즈, 128개의 필터 수, 1x1의 스트라이드, 1x1의 패딩으로 설정된 컨볼루션 레이어와 51x51x128의 특징맵을 입력받는 배치 정규화 레이어, 정류 선형 유닛 및 부가 펑션을 포함한다. 이 때, 잔여 블록은 컨볼루션 레이어, 배치 정규화 레이어, 정류 선형 유닛, 컨볼루션 레이어, 배치 정규화 레이어, 부가 펑션 순의 레이어를 포함할 수 있다.
업 샘플링 그룹은 103x103x64의 특징맵을 입력받는 제4 컨볼루션 레이어(DeConv4) 및 제4 정류 선형 유닛(ReLU4)을 포함한다. 이 때, 제4 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 64개이고, 스트라이드(stride)는 2x2일 수 있다. 또한, 업 샘플링 그룹은 208x208x32의 특징맵을 입력받는 제5 컨볼루션 레이어(DeConv5) 및 제5 정류 선형 유닛(ReLU5)을 포함한다. 이 때, 제5 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 32개이고, 스트라이드(stride)는 2x2일 수 있다. 또한, 업 샘플링 그룹은 216x216x3의 특징맵을 입력받는 제6 컨볼루션 레이어(DeConv6) 및 제6 정류 선형 유닛(ReLU6)을 포함한다. 이 때, 제6 컨볼루션 레이어에서 사용된 필터 사이즈는 9x9이고, 필터 수는 3개이고, 스트라이드(stride)는 1x1일 수 있다.
출력 그룹은 224x224x1의 특징맵을 입력받는 제7 컨볼루션 레이어(DeConv7), 제7 정류 선형 유닛(ReLU7) 및 출력 레이어(Output layer)를 포함한다. 이 때, 제7 컨볼루션 레이어에서 사용된 필터 사이즈는 9x9이고, 필터 수는 1개이고, 스트라이드(stride)는 1x1일 수 있다.
이 때, 전처리부(120)는 CycleGAN을 통해 출력된 영상을 도 6과 같은 구분자 컨볼루션 신경망을 통해 리얼 이미지(real image)와 페이크 이미지(fake image) 중 어느 하나로 판단할 수 있다.
또한, 전처리부(120)는 GAN을 이용하여 영상의 헤일로 효과를 제거할 수 있다. 헤일로 효과는 도 7의 (a)와 같이 영상에서 사람의 몸 영역 밑에 그림자와 같은 영역이 발생하는 것을 의미한다. 도 7의 (a)에서 몸 영역을 검출하고자하는 경우, (c)와 같이 헤일로 효과에 따른 영역까지 몸 영역으로 검출되어 대상체에 대한 검출 정확도가 떨어지는 현상이 발생한다. 반대로, (b)와 같이 헤일로 효과가 없는 영상에서 사람 몸 영역을 검출하고자 하는 경우, (d)와 같이 정확하게 검출이 가능하다. 따라서, 전처리부(120)는 도 8과 같이 GAN을 이용하여 영상의 헤일로 효과를 제거하는 과정을 수행한다. 이 때, 도 8에 예시한 GAN의 각 블록은 도 4에서 상술한 구조와 동일하고, 도 8에서 예시한 구분자 컨볼루션 신경망은 도 6과 같은 구조를 가질 수 있다.
구체적으로 도 8과 같이 구분자 컨볼루션 신경망은 224x224x1의 특징맵(feature map)을 생성하는 입력 레이어(Input layer)를 포함한다.
또한, 구분자 컨볼루션 신경망은 112x112x32의 특징맵을 입력받는 제1 컨볼루션 레이어(Conv1 1) 및 제1 정류 선형 유닛(ReLU1_1)을 포함한다. 이 때, 제1 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 32개이고, 스트라이드(stride)는 2x2이고, 패딩은 1x1일 수 있다. 또한, 구분자 컨볼루션 신경망은 56x56x64의 특징맵을 입력받는 제2 컨볼루션 레이어(Conv1_2), 제2 정류 선형 유닛(ReLU1 2) 및 제1 인스턴스 정규화 레이어(instance normalization layers, InsNorm_1)를 포함한다. 이 때, 제2 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 64개이고, 스트라이드(stride)는 2x2이고, 패딩은 1x1일 수 있다. 또한, 구분자 컨볼루션 신경망은 28x28x128의 특징맵을 입력받는 제3 컨볼루션 레이어(Conv2 1), 제3 정류 선형 유닛(ReLU2_1) 및 제2 인스턴스 정규화 레이어(InsNorm_2)를 포함한다. 이 때, 제3 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 128개이고, 스트라이드(stride)는 2x2이고, 패딩은 1x1일 수 있다. 또한, 구분자 컨볼루션 신경망은 14x14x256의 특징맵을 입력받는 제4 컨볼루션 레이어(Conv3 1), 제4 정류 선형 유닛(ReLU3_1) 및 제3 인스턴스 정규화 레이어(instance normalization layers, InsNorm_3)를 포함한다. 이 때, 제4 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 256개이고, 스트라이드(stride)는 2x2이고, 패딩은 1x1일 수 있다. 또한, 구분자 컨볼루션 신경망은 7x7x384의 특징맵을 입력받는 제5 컨볼루션 레이어(Conv4 1), 제5 정류 선형 유닛(ReLU4_1) 및 제4 인스턴스 정규화 레이어(instance normalization layers, InsNorm_4)를 포함한다. 이 때, 제5 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 384개이고, 스트라이드(stride)는 2x2이고, 패딩은 1x1일 수 있다. 또한, 구분자 컨볼루션 신경망은 7x7x1의 특징맵을 입력받는 제6 컨볼루션 레이어(Conv5_1), 출력 레이어(Output layer)를 포함한다. 이 때, 제6 컨볼루션 레이어에서 사용된 필터 사이즈는 4x4이고, 필터 수는 1개이고, 스트라이드(stride)는 1x1일 수 있다.
전처리부(120)는 전처리된 영상을 스켈레톤 생성부(130)로 전송한다.
스켈레톤 생성부(130)는 전처리된 영상을 컨볼루션 신경망을 통해 스켈레톤 영상을 생성한다. 도 9의 (a)와 같이 밝은 환경에서 촬영된 영상의 경우, 관절의 공간 정보(spatial information)을 도 9의 (c)에 비해 많이 포함하고 있기 때문에 도 9 (b)와 같이 쉽게 관절의 위치는 검출될 수 있다. 도 9 (c)의 경우에는 thinning 방법을 도 9 (d)와 같이 스켈레톤을 생성할 수 있다. 하지만, 도 9 (e) 및 도 9 (f)와 같은 열 영상의 경우, 상술한 방법을 통해서는 스켈레톤을 생성하기 어렵다. 스켈레톤 생성부(130)는 도 10과 같이 스켈레톤을 나타내는 영상인 스켈레톤 영상을 생성하도록 훈련된 컨볼루션 신경망을 이용하여 스켈레톤 영상을 생성한다. 스켈레톤 생성부(130)는 스켈레톤 영상을 행동 인식부(140)로 전송한다.
행동 인식부(140)는 스켈레톤 영상에 따른 행동을 인식하여 행동 정보를 생성한다. 예를 들어, 행동 인식부(140)는 도 11과 같은 한손 흔들기, 두손 흔들기, 다양한 펀칭, 다양한 발차기, 앉기, 서 있기, 걷기, 뛰기, 눕기, 떠나가기, 접근하기 등의 다양한 행동을 인식하기 위해서 CNN-LSTM을 이용하여 스켈레톤 영상에 대응하는 행동을 인식할 수 있다. 행동 인식부(140)는 도 12와 같은 CNN-LSTM을 이용할 수 있다.
도 13을 참조하여 구체적으로 설명하면, CNN-LSTM은 5x224x224x3의 특징맵을 입력받는 입력 레이어를 포함한다.
또한, CNN-LSTM은 5x222x222x64의 특징맵을 입력받는 제1 컨볼루션 레이어(Conv1 1) 및 제1 정류 선형 유닛(ReLU1_1)을 포함한다. 이 때, 제1 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 64개이고, 스트라이드(stride)는 1x1이고, 패딩은 0x0일 수 있다. 또한, CNN-LSTM은 5x220x220x64의 특징맵을 입력받는 제2 컨볼루션 레이어(Conv1 2) 및 제2 정류 선형 유닛(ReLU1 2)을 포함한다. 이 때, 제2 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 64개이고, 스트라이드(stride)는 1x1이고, 패딩은 0x0일 수 있다. 또한, CNN-LSTM은 5x110x110x64의 특징맵을 생성하고, 2x2의 1개 필터, 2x2의 스트라이더, 0x0의 패딩이 설정된 제1 풀 레이어(Pool 1)를 포함할 수 있다.
또한, CNN-LSTM은 5x108x108x128의 특징맵을 입력받는 제3 컨볼루션 레이어(Conv2 1) 및 제3 정류 선형 유닛(ReLU2 1)을 포함한다. 이 때, 제3 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 128개이고, 스트라이드(stride)는 1x1이고, 패딩은 0x0일 수 있다. 또한, CNN-LSTM은 5x106x106x128의 특징맵을 입력받는 제4 컨볼루션 레이어(Conv2_2) 및 제4 정류 선형 유닛(ReLU2 2)을 포함한다. 이 때, 제4 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 128개이고, 스트라이드(stride)는 1x1이고, 패딩은 0x0일 수 있다. 또한, CNN-LSTM은 5x53x53x128의 특징맵을 생성하고, 2x2의 1개 필터, 2x2의 스트라이더, 0x0의 패딩이 설정된 제2 풀 레이어(Pool 2)를 포함할 수 있다.
또한, CNN-LSTM은 5x51x51x256의 특징맵을 입력받는 제5 컨볼루션 레이어(Conv3 1) 및 제5 정류 선형 유닛(ReLU3_1)을 포함한다. 이 때, 제5 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 256개이고, 스트라이드(stride)는 1x1이고, 패딩은 0x0일 수 있다. 또한, CNN-LSTM은 5x49x49x256의 특징맵을 입력받는 제6 컨볼루션 레이어(Conv3 2) 및 제6 정류 선형 유닛(ReLU3_2)을 포함한다. 이 때, 제6 컨볼루션 레이어에서 사용된 필터 사이즈는 3x3이고, 필터 수는 256개이고, 스트라이드(stride)는 1x1이고, 패딩은 0x0일 수 있다. 또한, CNN-LSTM은 5x24x24x256의 특징맵을 생성하고, 2x2의 1개 필터, 2x2의 스트라이더, 0x0의 패딩이 설정된 제3 풀 레이어(Pool 3)를 포함할 수 있다.
또한, CNN-LSTM은 5x1000x1의 특징맵을 입력받는 제1 완전 연결 레이어(fully connected layers, Fc4), 제1 정류 선형 유닛(ReLU4), 드롭 아웃 레이어(Dropout4)를 포함한다. CNN-LSTM은 1000x1의 특징맵을 입력받는 LSTM을 포함하고, 50x1의 특징맵을 입력받는 제1 완전 연결 레이어(Fct5) 및 소프트맥스 레이어(50x1)를 포함한다. 또한, CNN-LSTM은 클래스의 수만큼의 특징맵을 입력받는 출력 레이어(Output layer)를 포함한다.
도 14는 본 발명의 일 실시예에 따른 행동 인식 장치가 행동 인식을 하는 방법을 예시한 순서도이다. 이하 설명하는 각 단계는 도 1을 참조하여 상술한 행동 인식 장치의 각 기능부에 의해 수행되는 것이나, 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 행동 인식 장치로 통칭하도록 한다.
도 14를 참조하면, 단계 1410에서 행동 인식 장치는 영상을 입력 받는다. 이 때, 영상은 열카메라를 통해 촬영된 열 영상일 수 있다.
단계 1420에서 행동 인식 장치는 영상에 대해 전처리 과정을 수행한다. 이 때, 전처리 과정은 CycleGAN을 이용하여 저화질의 영상을 고화질 영상으로 복원할 과정 및 GAN을 이용하여 영상의 헤일로 효과를 제거하는 과정 중 하나 이상을 포함할 수 있다. 복원 과정 및 헤일로 효과 제거 과정은 도 2 내지 도 8을 참조하여 상술하였다.
단계 1430에서 행동 인식 장치는 전처리된 영상에 대응하는 스켈레톤 영상을 생성한다. 예를 들어, 행동 인식 장치는 스켈레톤 영상을 생성하도록 훈련된 컨볼루션 신경망에 영상을 입력하여 스켈레톤 영상을 생성할 수 있다.
단계 1440에서 행동 인식 장치는 CNN-LSTM을 이용하여 스켈레톤 영상에 대응하는 행동을 인식하여 행동 정보를 생성한다. 이 때, CNN-LSTM는 스켈레톤 영상에 대한 행동을 인식하도록 훈련된 신경망일 수 있다. CNN-LSTM의 구체적은 구조는 도 12 및 도 13을 참조하여 상술하였다.
도 15는 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법에 따른 정확도를 나타낸 도면이고, 도 16은 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법의 구체적인 정확도를 나타낸 도면이고, 도 17은 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법 중 일 방법의 정확도에 대한 confusion matrix를 나타낸 도면이고, 도 18은 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법 중 다른 방법의 정확도에 대한 confusion matrix를 나타낸 도면이고, 도 19는 본 발명의 일 실시 예에 따른 행동 인식 장치가 행동을 인식하는 방법의 처리 시간을 나타낸 도면이다.
이 때, 각 행동을 인식하는 방법은 하기와 같다.
Method 1: 영상 -> 행동 인식
Method 2: 영상 -> 영상 복원 -> 행동 인식
Method 3: 영상 -> 스켈레톤 생성 -> 행동 인식
Method 4: 영상 -> 헤일로 효과 제거 -> 행동 인식
Method 5: 영상 -> 영상 복원 -> 헤일로 효과 제거 -> 행동 인식
Method 6: 영상 -> 영상 복원 및 헤일로 효과 제거 -> 행동 인식
Method 7: 영상 -> 영상 복원 -> 헤일로 효과 제거 -> 스켈레톤 생성 -> 행동 인식
Method 8: 영상 -> 영상 복원 -> 헤일로 효과 제거 -> 스켈레톤 생성 -> thinning -> 행동 인식
Method 9: 영상 -> 영상 복원 -> 스켈레톤 생성 -> thinning -> 행동 인식
Method 10: 영상 -> 영상 복원 -> 스켈레톤 생성 -> 행동 인식
Method 11: 영상 -> 헤일로 효과 제거 -> 스켈레톤 생성 -> 행동 인식
도 15에 따르면 Method 10 및 Method 11이 가정 높은 정확도를 보여준다.
도 16은 Method 10 및 Method 11을 테스트 영상에 적용하였을 때 각 행동 인식에 대한 정확도를 나타낸다. 또한, 도 17은 Method 10의 정확성을 나타내는 confusion matrix이고, 도 18은 Method 11의 정확성을 나타내는 confusion matrix이다. 도 19는 각 방법에 대한 처리 시간을 나타낸 것이다.
따라서, 본 발명의 일 실시 예에 따른 행동 인식 장치는 크게 처리 속도가 높지 않으면서 열 영상에 따른 행동 인식의 정확성이 높다.
상술한 행동 인식 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (13)

  1. 열 영상을 입력 받는 입력부;
    상기 열 영상에 대한 전처리를 수행하는 전처리부;
    상기 열 영상에 대응하는 스켈레톤 영상을 생성하는 스켈레톤 생성부; 및
    상기 스켈레톤 영상에 대응하는 행동 정보를 생성하는 행동 인식부;
    를 포함하되,
    상기 전처리부는
    상기 열 영상을 사이클 생성 신경망(Cycle Generative Neural Networks)을 통해 고화질로 복원하는 과정 또는 상기 열 영상을 생산적 적대 신경망(Generative Neural Networks)을 통해 헤일로 효과를 제거하는 과정 중 하나 이상을 수행하고,
    상기 사이클 생성 신경망(Cycle Generative Neural Networks) 또는 생산적 적대 신경망(Generative Neural Networks)을 통해 출력된 영상을 구분자 컨볼루션 신경망(discriminator CNN)을 이용해 리얼 이미지(real image)와 페이크 이미지(fake image) 중 어느 하나로 판단하고,
    상기 사이클 생성 신경망은
    3개의 컨볼루션 레이어 및 3개의 정류 선형 유닛을 포함하는 다운 샘플링 그룹과 업 샘플링 그룹을 포함하고, 6개의 잔여 블록을 포함하는 구조이고, 입력 레이어는 224*224*1의 특징맵이고, 출력 레이어는 224*224*1의 특징맵이고,
    상기 구분자 컨볼루션 신경망(discriminator CNN)은
    6개의 컨볼루션 레이어와 5개의 정류 선형 유닛 및 4개의 인스턴스 정규화 레이어를 포함하고, 입력 레이어는 224*224*1의 특징맵이고, 출력 레이어는 7*7*1의 특징맵이고,
    상기 스켈레톤 생성부는
    컨볼루션 신경망을 통해 상기 열 영상에 대응하는 스켈레톤 영상을 생성하고,
    상기 행동 인식부는
    컨볼루션 신경망-롱숏텀메모리(CNN stacked with long shortterm memory)를 통해 상기 스켈레톤 영상에 대한 상기 행동 정보를 생성하고,
    상기 컨볼루션 신경망-롱숏텀메모리는 6개의 컨볼루션 레이어, 3개의 풀 레이어 및 1개의 롱숏텀메모리를 포함하고, 입력 레이어는 5*224*224*1의 특징맵인 행동 인식 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 행동 인식 장치가 행동을 인식하는 방법에 있어서,
    열 영상을 입력 받는 단계;
    상기 열 영상에 대한 전처리를 수행하는 단계;
    상기 열 영상에 대응하는 스켈레톤 영상을 생성하는 단계; 및
    상기 스켈레톤 영상에 대응하는 행동 정보를 생성하는 단계;
    를 포함하되,
    상기 전처리는
    상기 열 영상을 사이클 생성 신경망(Cycle Generative Neural Networks)을 통해 고화질로 복원하는 과정 또는 상기 열 영상을 생산적 적대 신경망(Generative Neural Networks)을 통해 헤일로 효과를 제거하는 과정 중 하나 이상을 수행하고,
    상기 사이클 생성 신경망(Cycle Generative Neural Networks) 또는 생산적 적대 신경망(Generative Neural Networks)을 통해 출력된 영상을 구분자 컨볼루션 신경망(discriminator CNN)을 통해 리얼 이미지(real image)와 페이크 이미지(fake image) 중 어느 하나로 판단하고,
    상기 사이클 생성 신경망은 3개의 컨볼루션 신경망 및 3개의 정류 선형 유닛을 포함하는 다운 샘플링 그룹과 업 샘플링 그룹을 포함하고,
    6개의 잔여 블록을 포함하는 구조이고, 입력 레이어는 224*224*1의 특징맵이고, 출력 레이어는 224*224*1의 특징맵이고,
    상기 구분자 컨볼루션 신경망(discriminator CNN)은
    6개의 컨볼루션 레이어와 5개의 정류 선형 유닛 및 4개의 인스턴스 정규화 레이어를 포함하고, 입력 레이어는 224*224*1의 특징맵이고, 출력 레이어는 7*7*1의 특징맵이고,
    상기 열 영상에 대응하는 스켈레톤 영상을 생성하는 단계는
    컨벌루션 신경망을 통해 상기 영상에 대응하는 스켈레톤 영상을 생성하고,
    상기 스켈레톤 영상에 대응하는 행동 정보를 생성하는 단계는
    컨볼루션 신경망-롱숏텀메모리(CNN stacked with long short-term memory)를 통해 상기 스켈레톤 영상에 대한 상기 행동 정보를 생성하고,
    상기 컨볼루션 신경망-롱숏텀메모리는 6개의 컨볼루션 신경망, 3개의 풀 이어 및 1개의 롱숏텀메모리를 포함하고, 입력 레이어는 5*224*224*1의 특징맵인 행동 인식 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제7항의 행동 인식 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.

KR1020190092550A 2019-07-30 2019-07-30 행동 인식 장치 및 방법 KR102213494B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190092550A KR102213494B1 (ko) 2019-07-30 2019-07-30 행동 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190092550A KR102213494B1 (ko) 2019-07-30 2019-07-30 행동 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102213494B1 true KR102213494B1 (ko) 2021-02-09

Family

ID=74559199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190092550A KR102213494B1 (ko) 2019-07-30 2019-07-30 행동 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102213494B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102266165B1 (ko) * 2021-03-26 2021-06-17 인하대학교 산학협력단 적대적 생성신경망에서의 개인별 변조를 이용한 얼굴 연령 편집 방법 및 장치
KR20230040708A (ko) 2021-09-16 2023-03-23 현대자동차주식회사 행위 인식 장치 및 방법
KR102521694B1 (ko) * 2021-11-18 2023-04-17 박채원 카메라단에서의 기계학습을 활용하여 동물의 행동을 분석하기 위한 방법
CN116071825A (zh) * 2023-01-31 2023-05-05 天翼爱音乐文化科技有限公司 一种动作行为识别方法、系统、电子设备及存储介质
KR20230096496A (ko) * 2021-12-23 2023-06-30 광운대학교 산학협력단 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101771655B1 (ko) * 2016-10-27 2017-09-05 동국대학교 산학협력단 행위 인식 장치 및 방법
KR20180028198A (ko) * 2016-09-08 2018-03-16 연세대학교 산학협력단 실시간 영상을 이용하여 위험 상황을 예측하기 위한 영상 처리 방법, 장치 및 그를 이용하여 위험 상황을 예측하는 방법, 서버
KR20190087258A (ko) * 2018-01-15 2019-07-24 삼성전자주식회사 객체 자세 추정 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180028198A (ko) * 2016-09-08 2018-03-16 연세대학교 산학협력단 실시간 영상을 이용하여 위험 상황을 예측하기 위한 영상 처리 방법, 장치 및 그를 이용하여 위험 상황을 예측하는 방법, 서버
KR101771655B1 (ko) * 2016-10-27 2017-09-05 동국대학교 산학협력단 행위 인식 장치 및 방법
KR20190087258A (ko) * 2018-01-15 2019-07-24 삼성전자주식회사 객체 자세 추정 방법 및 장치

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102266165B1 (ko) * 2021-03-26 2021-06-17 인하대학교 산학협력단 적대적 생성신경망에서의 개인별 변조를 이용한 얼굴 연령 편집 방법 및 장치
KR20230040708A (ko) 2021-09-16 2023-03-23 현대자동차주식회사 행위 인식 장치 및 방법
US11907771B2 (en) 2021-09-16 2024-02-20 Hyundai Motor Company Action recognition device and action recognition method
KR102521694B1 (ko) * 2021-11-18 2023-04-17 박채원 카메라단에서의 기계학습을 활용하여 동물의 행동을 분석하기 위한 방법
KR20230096496A (ko) * 2021-12-23 2023-06-30 광운대학교 산학협력단 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램
KR102678174B1 (ko) * 2021-12-23 2024-06-24 광운대학교 산학협력단 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램
CN116071825A (zh) * 2023-01-31 2023-05-05 天翼爱音乐文化科技有限公司 一种动作行为识别方法、系统、电子设备及存储介质
CN116071825B (zh) * 2023-01-31 2024-04-19 天翼爱音乐文化科技有限公司 一种动作行为识别方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
KR102213494B1 (ko) 행동 인식 장치 및 방법
Kang et al. Real-time sign language fingerspelling recognition using convolutional neural networks from depth map
Htike et al. Human activity recognition for video surveillance using sequences of postures
Perera et al. A multiviewpoint outdoor dataset for human action recognition
US20090041312A1 (en) Image processing apparatus and method
US9489582B2 (en) Video anomaly detection based upon a sparsity model
KR101890538B1 (ko) 영상 변환 방법 및 장치
Dawar et al. Continuous detection and recognition of actions of interest among actions of non-interest using a depth camera
KR102540208B1 (ko) 딥러닝을 이용한 화재감지방법
WO2022227765A1 (zh) 生成图像修复模型的方法、设备、介质及程序产品
WO2023101679A1 (en) Text-image cross-modal retrieval based on virtual word expansion
JP2020127194A (ja) コンピュータシステムおよびプログラム
Chen et al. Multi-modality gesture detection and recognition with un-supervision, randomization and discrimination
Singh et al. Feature based method for human facial emotion detection using optical flow based analysis
Padhi et al. Hand gesture recognition using densenet201-mediapipe hybrid modelling
Monisha et al. Enhanced automatic recognition of human emotions using machine learning techniques
Srinivasan et al. Python And Opencv For Sign Language Recognition
Rajalaxmi et al. Deepfake Detection using Inception-ResNet-V2 Network
WO2022159214A2 (en) Fusion-based sensing intelligence and reporting
Shane et al. Sign Language Detection Using Faster RCNN Resnet
Rahmon et al. Evaluation of Different Decision Fusion Mechanisms for Robust Moving Object Detection
CN111209807A (zh) 一种基于yolov3的视频结构化方法及系统
KR101482970B1 (ko) 행동 포즈렛과 2단계 분류 모델을 이용한 정지 영상에서의 사람 행동 인식 방법
Pawar et al. Sign Language Recognition Using Keypoints Through DTW
Asawa et al. Recognition of emotions using energy based bimodal information fusion and correlation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant