KR20190024689A - 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 - Google Patents

객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 Download PDF

Info

Publication number
KR20190024689A
KR20190024689A KR1020180091901A KR20180091901A KR20190024689A KR 20190024689 A KR20190024689 A KR 20190024689A KR 1020180091901 A KR1020180091901 A KR 1020180091901A KR 20180091901 A KR20180091901 A KR 20180091901A KR 20190024689 A KR20190024689 A KR 20190024689A
Authority
KR
South Korea
Prior art keywords
feature map
frame
current frame
image
pooled
Prior art date
Application number
KR1020180091901A
Other languages
English (en)
Inventor
지아 리
펑 스
웨이헝 리우
동칭 쪼우
류현석
박근주
치앙 왕
이현구
Original Assignee
삼성전자주식회사
베이징 삼성 텔레콤 알 앤 디 센터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 베이징 삼성 텔레콤 알 앤 디 센터 filed Critical 삼성전자주식회사
Publication of KR20190024689A publication Critical patent/KR20190024689A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템을 제공한다. 객체 검출 방법은 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계, 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계, 및 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함하되, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다. 본 발명에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다.

Description

객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템{OBJECT DETECTION METHOD AND NEURAL NETWORK SYSTEM FOR OBJECT DETECTION}
본 발명은 객체 검출 분야에 관한 것으로, 좀 더 상세하게는 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템에 관한 것이다.
객체 검출은 컴퓨터의 비전(vision) 분야에서 관심이 많은 주제이고, 객체 검출은 주로 이미지 또는 비디오에 대한 관심 대상을 식별하고 검출하는 것이다. 객체 검출은 자율 주행, 무인 항공기, 및 제스처 기반의 상호작용 시스템에 대한 분야들에서 중요한 역할을 담당한다. 이로 인하여, 객체 검출에 대한 연구들이 점점 관심 받고 있다.
일반적인 객체 검출 방법은 주로 변형 가능한 멤버 모듈 및 이의 변형을 사용하여 객체를 검출하고, 이러한 방법은 일반적으로 최대 응답 영역을 검색하기 위한 특징들로 이미지 디스크립터(descriptor)들(예를 들어, HOG (Histogram of Oriented Gradients), SIFT (Scale Invariant Feature Transformation) and LBP (Local Binary Patterns) 등)을 사용함으로써, 슬라이딩 윈도우를 통하여 전체 이미지를 가로지르며, 객체를 검출한다.
게다가, 깊이(depth) 학습 기술의 발전과 함께, 딥 뉴럴 네트워크에 기초한 객체 검출 방법이 나타나고, 이러한 방법은 고효율성으로 인하여 빠르고 널리 사용된다.
그러나, 상술된 방법들은 오로지 단일한 프레임 이미지에 기초하여 객체 검출 동작을 수행하므로, 단일 이미지에 기초한 객체 검출 국면에서 뛰어난 검출 효과를 갖지만, 비디오 이미지에 기초한 객체 검출에서 이상적인 검출 결과를 달성하기 어렵다.
최근에, 다이나믹 비전 센서(DVS, Dynamic Vision Sensor) 카메라는 시각적인 다이나믹 신호를 비동기의 마이크로초 정밀 이벤트 플로우로 인코딩할 수 있으며, 이벤트 플로우를 통하여 프레임 이미지들을 생성하여 빠르게 움직이는 객체를 추적할 수 있으므로, 널리 관심 받는다. 다이나믹 비전 센서 카메라를 통하여 캡쳐된 프레임 이미지들을 사용하여 객체를 검출함으로써, 빠르게 움직이는 객체는 정확하게 검출될 수 있다. 따라서, 객체의 이동 속도가 매우 빠를 때, 다이나믹 비전 센서 카메라에 의하여 캡쳐된 비디오 이미지에 기초하여, 더 나은 객체 검출 결과가 상술된 두가지 방법들을 사용함으로써, 획득될 수 있다. 그러나, 객체의 이동 속도가 느릴 때, 다이나믹 비전 센서 카메라에 의하여 캡쳐된 이미지에 기초하여 객체를 정확하게 검출하기 어렵다.
본 발명의 예시적인 실시예는 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템을 제공하는 것을 목적으로 한다. 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템은 이동 속도가 낮은 객체가 현재의 객체 검출 방법들에 의하여 정확하게 검출될 수 없는 결점을 극복할 수 있고, 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템은 적은 계산 양을 통하여 정확한 검출 결과를 획득할 수 있고, 이로 인하여 객체 검출의 효율성을 향상시킬 수 있다.
본 발명의 예시적인 실시예의 일 양상에 따른 객체 검출 방법이 제공되며, 객체 검출 방법은 (A) 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계, (B) 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계, (C) 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계, 및 (D) 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함한다. 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, (C) 단계는 첫번째 프레임의 특징 맵을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득하는 단계를 포함하고, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, (C) 단계는 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계를 포함한다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, (C) 단계는 (C1) 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득하는 단계, 및 (C2) 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계를 포함한다.
또한, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은
Figure pat00001
로 계산되되,
Figure pat00002
는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고,
Figure pat00003
의 범위 값은 [0, 1]이고,
Figure pat00004
는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고,
Figure pat00005
Figure pat00006
는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,
Figure pat00007
는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고,
Figure pat00008
는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
또한, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은
Figure pat00009
로 계산되되,
Figure pat00010
는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
Figure pat00011
Figure pat00012
Figure pat00013
의 곱셈에 사용되고, 함수
Figure pat00014
는 풀링된 함수이되, 함수
Figure pat00015
Figure pat00016
를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수
Figure pat00017
Figure pat00018
를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, (C) 단계는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용하는 단계를 포함한다.
또한, 이미지 시퀀스는 다이나믹 비전 센서 카메라에 의한 캡쳐를 수행함으로써 생성된다.
또한, (B) 단계는 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 현재 프레임의 특징 맵을 획득하는 단계를 포함한다.
본 발명의 예시적인 실시예의 다른 양상에 따른 객체 검출을 위한 뉴럴 네트워크 시스템이 제공되며, 뉴럴 네트워크 시스템은 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 특징 추출 서브네트워크, 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 시간 도메인 풀링 서브네트워크, 및 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 검출 서브네트워크를 포함한다. 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득하고, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크는 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득한다.
또한, 시간 도메인 풀링 서브네트워크는, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득하고, 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득한다.
또한, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은
Figure pat00019
로 계산되되,
Figure pat00020
는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고,
Figure pat00021
의 범위 값은 [0, 1]이고,
Figure pat00022
는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고,
Figure pat00023
Figure pat00024
는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,
Figure pat00025
는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고,
Figure pat00026
는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
또한, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은
Figure pat00027
로 계산되되,
Figure pat00028
는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
Figure pat00029
Figure pat00030
Figure pat00031
의 곱셈에 사용되고, 함수
Figure pat00032
는 풀링된 함수이되, 함수
Figure pat00033
Figure pat00034
를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수
Figure pat00035
Figure pat00036
를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용한다.
또한, 이미지 시퀀스는 다이나믹 비전 센서 카메라에 의한 캡쳐를 수행함으로써 생성된다.
또한, 특징 추출 서브네트워크는 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 현재 프레임의 특징 맵을 획득한다.
본 발명의 예시적인 실시예의 다른 양상에 따른 컴퓨터 판독 가능한 저장 매체는 프로세서에 의하여 실행될 때, 프로세서가 상술된 객체 검출 방법을 수행하게 하는 프로그램 명령어들을 저장하도록 제공된다.
본 발명의 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템에 따르면, 객체가 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다.
도 1은 본 발명의 예시적인 실시예에 따른 객체 검출 방법의 순서도이다.
도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.
도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.
도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.
도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다.
이하, 본 발명의 예시적인 실시예는 도면들을 참조하여 더욱 충분하게 설명될 것이며, 예시적인 실시예는 도면들에 도시된다. 다만, 예시적인 실시예는 여기에서 설명되는 예시적인 실시예들로 제한되어 해석된다기 보다 오히려, 다른 형식들로도 구현될 수 있다. 반면에, 이러한 예시적인 실시예들은 본 발명이 완전하고 완벽하도록 제공되고, 예시적인 실시예의 권리범위는 당업자들에 완전하게 전달될 것이다.
도 1은 본 발명의 예시적인 실시예에 따른 객체 검출 방법의 순서도이다.
도 1을 참조하면, S100 단계에서, 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지가 획득된다.
일례로, 이미지 시퀀스는 다이나믹 비전 센서 카메라(dynamic vision sensor camera)에 의한 캡쳐를 수행함으로써 생성될 수 있다. 여기에서, 다이나믹 비전 센서 카메라는 객체에 대해 캡쳐를 수행함으로써 움직이는 객체에 의하여 생성되는 이벤트 플로우(event flow)를 검출할 수 있고, 기결정된 기간(예를 들어, 20 밀리초) 이내에 생성된 이벤트 플로우를 사용하여 하나의 프레임 이미지를 생성할 수 있다. 따라서, 비전 센서 카메라는 시간 순서에 따른 복수의 프레임 이미지들을 포함하는 이미지 시퀀스를 생성할 수 있다.
S200 단계에서, 현재 프레임의 특징 맵은 현재 프레임 이미지로부터 추출된다.
일례로, 현재 프레임의 특징 맵은 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다. 예를 들어, 컨볼루션 커널은 미리 학습 및 훈련에 의하여 획득될 수 있고, 이후 현재 프레임의 특징 맵은 여러 번 컨볼루션 커널을 통하여 현재 프레임에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다.
S300 단계에서, 현재 프레임의 특징 맵은 현재 프레임의 풀링된(pooled) 특징 맵을 획득하도록 풀링되되, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
여기에서, 이동 속도가 느린 객체는, 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 현재 프레임의 풀링된 특징 맵을 획득함으로써, 더욱 효율적으로 검출될 수 있다. (즉, 현재 프레임에 대하여 획득된 풀링된 특징 맵은 움직이는 객체에 관한 더 많은 정보를 포함한다.)
다이나믹 비전 센서 카메라는 상술된 바와 같이, 기결정된 기간 이내에 생성된 이벤트 플로우를 통하여 하나의 프레임 이미지를 생성하므로, 객체의 이동 속도가 느릴 때, 다이나믹 비전 센서 카메라는 단지 기결정된 시간 이내에 적은 양의 이벤트 플로우를 검출할 수 있다. 따라서, 생성된 프레임 이미지에 포함된 객체에 관한 정보가 적어지고, 그 결과, 다이나믹 비전 센서 카메라로부터 획득된 단일한 프레임 이미지로부터 객체를 정확하게 검출하기 어렵게 된다. 그러나, 다이나믹 비전 센서 카메라가 계속적으로 이벤트 플로우를 검출하므로, 다이나믹 비전 센서 카메라에 의하여 계속적으로 검출된 이벤트 플로우는 객체에 관한 더 많은 정보를 포함할 수 있다.
이하, 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시는 도 2를 참조하여 자세하게 설명될 것이다.
도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.
도 2의 (a) 및 (e)를 참조하면, 직사각형 프레임 전체는 객체의 이동 속도가 빠른 경우, 및 객체의 이동 속도가 느린 경우에서, 다이나믹 비전 센서 카메라에 의하여 획득되는 이벤트 플로우를 나타낸다. 직사각형 프레임 전체 내에서 쇄선의 곡선은 이벤트 플로우의 밀도 또는 다른 정보를 반영하는데 사용되지 않고, 단지 이벤트 플로우를 개략적으로 나타낸다.
도 2의 (b)는 객체의 이동 속도가 빠른 경우에 기간 T 이내에 획득된 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다. 도 2의 (c)는 객체의 이동 속도가 느린 경우에 기간 T 이내에 획득된 이벤트 플로우를 사용하여, 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다. 도 2의 (d)는 객체의 이동 속도가 느린 경우에 기간 T보다 긴 기간 T' 이내에 획득된 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다.
도 2의 (b)와 도 2의 (c)를 비교하면, 도 2의 (b)의 이미지에서 객체는 더욱 명료하고, 도 2의 (c)의 이미지에서 객체는 더욱 불명료한 것으로 보여진다. 따라서, 하나의 프레임 이미지는 객체의 이동 속도가 빠를 때, 객체를 더욱 정확하게 검출하는데 사용될 수 있는 반면, 하나의 프레임 이미지는 객체의 이동 속도가 느릴 때, 객체를 더욱 정확하게 검출하는데 사용되기 어려울 수 있다.
또한, 도 2의 (d)와 도 2의 (c)를 비교하면, 객체의 이동 속도가 느린 경우에 더욱 긴 기간 이내에 획득된 이벤트 플로우가 사용될 때, 생성된 이미지에서 객체는 더 명료한 것으로 보여진다. 즉, 더욱 긴 기간 이내에 획득된 이벤트 플로우를 사용하여 생성된 이미지는 객체에 관한 더 많은 정보를 포함할 수 있다.
따라서, 도 2로부터, 다이나믹 비전 센서 카메라에 의하여 획득되는 이벤트 플로우가 객체를 검출하기 위하여 충분한 정보를 포함하고, 더욱 긴 기간 내의 이벤트 플로우를 사용하는 것이 움직이는 객체에 대한 더욱 명료한 이미지를 생성할 수 있는 것으로 보여진다. 다만, 객체의 이동 속도가 매우 느릴 때, 더욱 긴 기간 내의 이벤트 플로우가 사용되더라도, 움직이는 객체에 대한 명료한 이미지는 획득될 수 없다. 따라서, 객체가 단일한 프레임 이미지로부터 정확하게 검출될 수 없다. 그러나, 본 발명에서, 현재 프레임의 풀링된 특징 맵은 현재 프레임의 풀링된 특징 맵이 현재 프레임 이전에 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하도록 복수의 풀링된 특징 맵들을 반복적으로 사용함으로써 획득될 수 있다. 따라서, 객체의 이동 속도가 매우 느린 경우에 현재 프레임의 풀링된 특징 맵으로부터 객체가 정확하게 검출될 수 있다.
특히, 일 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 첫번째 프레임의 특징 맵은 도 1의 S300 단계에서 첫번째 프레임의 풀링된 특징 맵을 획득하는데에만 사용될 수 있다. 여기에서, 첫번째 프레임 이미지가 획득될 때, 어떤 이미지도 첫번째 프레임 이미지 이전에 획득되지 않기 때문에, 첫번째 프레임의 특징 맵이 첫번째 프레임의 풀링된 특징 맵을 획득하는데에만 사용될 수 있다. 일례로, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 첫번째 프레임의 특징 맵은 S300 단계에서 첫번째 프레임의 풀링된 특징 맵으로 사용될 수 있다.
다른 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 현재 프레임의 풀링된 특징 맵은 S300 단계에서 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용함으로써 획득될 수 있다. 여기에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 특징 맵을 반복적으로 사용함으로써 획득될 수 있고, 이로 인하여 현재 프레임 이전에 획득된 이벤트 플로우를 더욱 충분하게 사용할 수 있다.
이하, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, S300 단계에서 현재 프레임의 풀링된 특징 맵을 획득하는 과정이 도 3을 참조하여, 자세하게 설명될 것이다.
도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.
도 3을 참조하면, S310 단계에서, 현재 프레임의 가중치 이미지는 이전 프레임의 특징 맵과 현재 프레임의 특징 맵을 사용하여 획득된다.
여기에서, 현재 프레임의 가중치 이미지는 현재 프레임과 이전 프레임 사이의 관계를 나타내며, 예를 들어 유사도를 나타낸다. 현재 프레임과 이전 프레임 사이의 유사도가 높을수록, 가중치 값은 1에 가까워지고, 현재 프레임과 이전 프레임 사이의 유사도가 낮을수록, 가중치 값은 0에 가까워진다.
특히, 일례로, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은 아래의 수학식 1을 통하여 계산된다.
Figure pat00037
수학식 1에서,
Figure pat00038
는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고,
Figure pat00039
의 범위 값은 [0, 1]이고,
Figure pat00040
는 멀티 레이어 퍼셉트론(multilayer perceptron, MLP) 뉴럴 네트워크를 나타내고,
Figure pat00041
Figure pat00042
는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,
Figure pat00043
는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고,
Figure pat00044
는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
일례로, 멀티 레이어 퍼셉트론 뉴럴 네트워크(
Figure pat00045
)는 복수의 1x1 컨볼루션 레이어들과 범위 값 [0, 1]을 갖는 가중치 값을 출력하는 시그모이드 레이어(Sigmoid layer)를 갖는 말단에 의해 형성되는 완전 컨볼루션 네트워크(fully convolution network)를 통하여 구현될 수 있다. 상술된 네트워크는 단지 멀티 레이어 퍼셉트론 뉴럴 네트워크(
Figure pat00046
)의 예시로 이해될 것이고, 멀티 레이어 퍼셉트론 뉴럴 네트워크는 풀링된 특징 값(
Figure pat00047
)과 특징 값(
Figure pat00048
)을 입력들로 함에 따라 가중치 값을 출력할 수 있는 임의의 멀티 레이어 퍼셉트론 뉴럴 네트워크일 수 있다.
여기에서,
Figure pat00049
는 스칼라이고,
Figure pat00050
Figure pat00051
는 벡터들이다. 일례로,
Figure pat00052
Figure pat00053
는 좌표 i에 대한 각각의 채널 값들이 벡터 성분들이고, 각각의 채널 값들에 대한 범위 값들이 실수 범위인 벡터들일 수 있다.
Figure pat00054
에 대한 성분들로써 채널 값들은 풀링된 특징 값들이고,
Figure pat00055
에 대한 성분들로써 채널 값들은 특징 값들인 것으로 이해될 것이다. 예를 들어,
Figure pat00056
Figure pat00057
는 좌표 i에 대한 레드 채널 값, 그린 채널 값, 및 블루 채널 값이 벡터 성분들인 백터들일 수 있다. 좌표 i는 X축 값과 Y축 값에 의하여 형성되는 2차원 좌표일 수 있다.
상술된 수학식 1을 통하여 획득된 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값(
Figure pat00058
)은 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값에 대응되는 가중치 값인 것으로 이해될 것이다.
S320 단계에서, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용함으로써 획득된다.
여기에서, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 포괄적으로 고려함으로써 더욱 정확하게 획득될 수 있다.
일례로, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은 수학식 2를 통하여 계산될 수 있다.
Figure pat00059
수학식 2에서,
Figure pat00060
는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
Figure pat00061
Figure pat00062
Figure pat00063
의 곱셈에 사용되고, 함수
Figure pat00064
는 풀링된 함수이되, 함수
Figure pat00065
Figure pat00066
를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수
Figure pat00067
Figure pat00068
를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
여기에서, 현재 프레임의 풀링된 특징 값(
Figure pat00069
)을 획득하는 동안, 풀링된 결과에 대한 이전 프레임의 풀링된 특징 값(
Figure pat00070
)의 영향은 가중치 값(
Figure pat00071
)을
Figure pat00072
에 적용함으로써 다른 좌표들(i)에 따라 조절될 수 있다.
다시 도 1을 참조하면, S400 단계에서, 객체는 현재 프레임의 풀링된 특징 맵으로부터 검출된다. 여기에서, 객체는 다양한 방법들을 통해 현재 프레임의 풀링된 특징 맵으로부터 검출될 수 있고, 더 이상 상세하게 다루지 않는다.
도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.
도 4를 참조하면, 도 4의 (a)는 t-2번째 프레임의 특징 맵(
Figure pat00073
), t-1번째 프레임의 특징 맵(
Figure pat00074
), 및 t번째 프레임의 특징 맵(
Figure pat00075
)을 도시하고, 도 4의 (b)는 특징 맵들(
Figure pat00076
,
Figure pat00077
,
Figure pat00078
)에 대응되는 t-2번째 프레임, t-1번째 프레임, 및 t번째 프레임의 이미지들을 대응되는 위치에 도시한다. t값은 도 4의 예시에서, 2보다 큰 정수로 이해될 것이다.
t-2번째 프레임에 대하여, 우선 t-2번째 프레임의 가중치 이미지(
Figure pat00079
)는 이전 프레임(미도시)의 풀링된 특징 맵(미도시) 및 t-2번째 프레임의 특징 맵(
Figure pat00080
)을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t-2번째 프레임의 풀링된 특징 맵(
Figure pat00081
)은 t-2번째 프레임에 대하여 획득된 가중치 이미지(
Figure pat00082
), t-2번째 프레임 이전의 프레임의 풀링된 특징 맵, 및 t-2번째 프레임의 특징 맵(
Figure pat00083
)을 통하여 획득된다.
t-1번째 프레임에 대하여, 우선 t-1번째 프레임의 가중치 이미지(
Figure pat00084
)는 이전 프레임(즉, t-2번째 프레임)의 풀링된 특징 맵(
Figure pat00085
) 및 t-1번째 프레임의 특징 맵(
Figure pat00086
)을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t-1번째 프레임의 풀링된 특징 맵(
Figure pat00087
)은 t-1번째 프레임에 대하여 획득된 가중치 이미지(
Figure pat00088
), t-2번째 프레임의 풀링된 특징 맵(
Figure pat00089
), 및 t-1번째 프레임의 특징 맵(
Figure pat00090
)을 통하여 획득된다.
t번째 프레임에 대하여, 우선 t번째 프레임의 가중치 이미지(
Figure pat00091
)는 이전 프레임(즉, t-1번째 프레임)의 풀링된 특징 맵(
Figure pat00092
) 및 t번째 프레임의 특징 맵(
Figure pat00093
)을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t번째 프레임의 풀링된 특징 맵(
Figure pat00094
)은 t번째 프레임에 대하여 획득된 가중치 이미지(
Figure pat00095
), t-1번째 프레임의 풀링된 특징 맵(
Figure pat00096
), 및 t번째 프레임의 특징 맵(
Figure pat00097
)을 통하여 획득된다.
도 4의 (c)에서 위쪽 부분은 t번째 프레임에 대하여 최종적으로 획득된 풀링된 특징 맵을 도시한다. 상술된 분석으로부터, 현재 프레임(t번째 프레임)의 풀링된 특징 맵이 이전의 프레임의 풀링된 특징 맵을 반복적으로 사용함으로써 획득되는 풀링된 특징 맵이므로, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 것으로 보여진다.
도 4의 (c)에서 아래쪽 부분은 t번째 프레임의 풀링된 특징 맵으로부터 객체 검출의 검출 결과를 도시한다. 도 4의 (c)에서 아래쪽 부분에 도시된 그림에서의 프레임은 예측 프레임이고, 예측 프레임의 위치는 검출된 객체의 위치이다. 도 4의 예시에서, 검출된 객체는 사용자의 손이다.
본 발명의 객체 검출 방법에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다. 게다가, 본 발명의 객체 검출을 위한 뉴럴 네트워크 시스템은 더 적은 계산 량을 통하여 정확한 검출 결과를 신속하게 획득할 수 있고, 이로 인하여 객체 검출의 효율성을 향상시킬 수 있다.
도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다. 일례로, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 FRCNN(fast regional convolution neural network) 프레임 기반의 뉴럴 네트워크 시스템이다.
도 5에 도시된 바와 같이, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 특징 추출 서브네트워크(100), 시간 도메인 풀링 서브네트워크(200), 및 검출 서브네트워크(300)를 포함한다.
특히, 특징 추출 서브네트워크(100)는 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출한다.
일례로, 이미지 시퀀스는 다이나믹 비전 센서(DVS) 카메라에 의한 캡쳐를 수행함으로써 생성될 수 있다. 여기에서, 다이나믹 비전 센서 카메라는 객체에 대해 캡쳐를 수행함으로써 움직이는 객체에 의하여 생성되는 이벤트 플로우를 검출할 수 있고, 기결정된 기간 이내에 생성된 이벤트 플로우를 사용하여 하나의 프레임 이미지를 생성할 수 있다. 따라서, 비전 센서 카메라는 시간 순서에 따른 복수의 프레임 이미지들을 포함하는 이미지 시퀀스를 생성할 수 있다.
일례로, 현재 프레임의 특징 맵은 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다. 예를 들어, 컨볼루션 커널은 미리 학습 및 훈련에 의하여 획득될 수 있고, 이후 현재 프레임의 특징 맵은 여러 번 컨볼루션 커널을 통하여 현재 프레임에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다.
시간 도메인 풀링 서브네트워크(200)는 현재 프레임의 풀링된 특징 맵을 획득하도록 현재 프레임의 특징 맵을 풀링할 수 있으며, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
여기에서, 이동 속도가 느린 객체는, 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 현재 프레임의 풀링된 특징 맵을 획득함으로써, 더욱 효율적으로 검출될 수 있다. (즉, 현재 프레임에 대하여 획득된 풀링된 특징 맵은 움직이는 객체에 관한 더 많은 정보를 포함한다.)
이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의한 프레임 이미지들을 생성하는 예시, 및 다이나믹 비전 센서 카메라에 의하여 획득된 단일한 프레임 이미지를 사용하여 이동 속도가 느린 객체를 검출하기 어려운 이유는 도 2를 참조하여 자세하게 설명되었으며, 더 이상 여기에서 상세하게 다루지 않는다.
본 발명의 예시적인 실시예에 따르면, 일 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵만을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득할 수 있다. 여기에서, 첫번째 프레임 이미지가 ?득될 때, 어떤 이미지도 첫번째 프레임 이미지 이전에 획득되지 않으므로, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵만을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득할 수 있다. 일례로, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용할 수 있다.
다른 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다. 여기에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 특징 맵을 반복적으로 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다.
특히, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득할 수 있고, 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다.
여기에서, 현재 프레임의 가중치 이미지는 현재 프레임과 이전 프레임 사이의 관계를 나타내며, 예를 들어 유사도를 나타낸다. 현재 프레임과 이전 프레임 사이의 유사도가 높을수록, 가중치 값은 1에 가까워지고, 현재 프레임과 이전 프레임 사이의 유사도가 낮을수록, 가중치 값은 0에 가까워진다.
특히, 일례로, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 시간 도메인 풀링 서브네트워크(200)는 현재 프레임의 가중치 이미지에서 가중치 값들 각각을 상술된 수학식 1을 통하여 계산할 수 있다.
수학식 1을 참조하면,
Figure pat00098
는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고,
Figure pat00099
의 범위 값은 [0, 1]이고,
Figure pat00100
는 멀티 레이어 퍼셉트론(multilayer perceptron, MLP) 뉴럴 네트워크를 나타내고,
Figure pat00101
Figure pat00102
는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,
Figure pat00103
는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고,
Figure pat00104
는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
일례로, 멀티 레이어 퍼셉트론 뉴럴 네트워크(
Figure pat00105
)는 복수의 1x1 컨볼루션 레이어들과 범위 값 [0, 1]을 갖는 가중치 값을 출력하는 시그모이드 레이어(Sigmoid layer)를 갖는 말단에 의해 형성되는 완전 컨볼루션 네트워크(fully convolution network)를 통하여 구현될 수 있다. 상술된 네트워크는 단지 멀티 레이어 퍼셉트론 뉴럴 네트워크(
Figure pat00106
)의 예시로 이해될 것이고, 멀티 레이어 퍼셉트론 뉴럴 네트워크는 풀링된 특징 값(
Figure pat00107
)과 특징 값(
Figure pat00108
)을 입력들로 함에 따라 가중치 값을 출력할 수 있는 임의의 멀티 레이어 퍼셉트론 뉴럴 네트워크일 수 있다.
여기에서,
Figure pat00109
는 스칼라이고,
Figure pat00110
Figure pat00111
는 벡터들이다. 일례로,
Figure pat00112
Figure pat00113
는 좌표 i에 대한 각각의 채널 값들이 벡터 성분들이고, 각각의 채널 값들에 대한 범위 값들이 실수 범위인 벡터들일 수 있다.
Figure pat00114
에 대한 성분들로써 채널 값들은 풀링된 특징 값들이고,
Figure pat00115
에 대한 성분들로써 채널 값들은 특징 값들인 것으로 이해될 것이다. 예를 들어,
Figure pat00116
Figure pat00117
는 좌표 i에 대한 레드 채널 값, 그린 채널 값, 및 블루 채널 값이 벡터 성분들인 백터들일 수 있다. 좌표 i는 X축 값과 Y축 값에 의하여 형성되는 2차원 좌표일 수 있다.
상술된 수학식 1을 통하여 획득된 t번째 프레임의 가중치 이미지에서 좌표 i의 가중치 값(
Figure pat00118
)은 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값에 대응되는 가중치 값인 것으로 이해될 것이다.
이후, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 포괄적으로 고려함으로써 더욱 정확하게 획득될 수 있다.
일례로, 시간 도메인 풀링 서브네트워크(200)는 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각을 상술된 수학식 2를 통하여 계산할 수 있다.
수학식 2를 참조하면,
Figure pat00119
는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
Figure pat00120
Figure pat00121
Figure pat00122
의 곱셈에 사용되고, 함수
Figure pat00123
는 풀링된 함수이되, 함수
Figure pat00124
Figure pat00125
를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수
Figure pat00126
Figure pat00127
를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
여기에서, 현재 프레임의 풀링된 특징 값(
Figure pat00128
)을 획득하는 동안, 풀링된 결과에 대한 이전 프레임의 풀링된 특징 값(
Figure pat00129
)의 영향은 가중치 값(
Figure pat00130
)을
Figure pat00131
에 적용함으로써 다른 좌표들(i)에 따라 조절될 수 있다.
검출 서브네트워크(300)는 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출한다. 여기에서, 검출 서브네트워크(300)는 다양한 방법들을 통해 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출할 수 있고, 더 이상 상세하게 다루지 않는다.
본 발명의 예시적인 실시예에 따른 객체를 검출하는 과정은 도 4를 참조하여 자세하게 설명되었고, 더 이상 여기에서 상세하게 다루지 않는다.
본 발명의 예시적인 실시예의 객체 검출을 위한 뉴럴 네트워크 시스템 및 객체 검출을 위한 현재의 뉴럴 네트워크 시스템들(예를 들어, LSTM(long and short term memory network), Seq-NMS(sequence non-maximum suppressionnetwork))을 예시들로 도입함으로써, 실험들을 통하여 획득된 RATP, LSTM, 및 Seq-NMS의 검출 정확도는 아래의 표에 도시된다.
검출 방법 검출 정확도(IOU=0.3) 평균 IOU
기본적인 뉴럴 네트워크 73.69% 0.634
RATP 79.37% 0.663
LSTM 79.78% 0.687
Seq-NMS 80.06% 0.810
LSTM+RATP 84.05% 0.682
Seq-NMS+RATP 86.53% 0.811
표 1을 참조하면, 제1 열은 객체를 검출하기 위한 검출 방법을 도시하고, 여기에서, 기본적인 뉴럴 네트워크는 임의의 다른 구조를 추가하지 않은 FRCNN을 나타내고, LSTM+RATP는 LSTM과 RATP를 공동으로 사용하는 검출 방법을 나타내고, Seq-NMS+RATP는 Seq-NMS와 RATP 공동으로 사용하는 검출 방법을 나타낸다. 제2 열은 IOU(Intersection over Union)의 임계 값이 0.3인 경우의 검출 정확도를 나타내고, 여기에서, 검출 정확도는 도 4의 객체를 예측하기 위한 예측 프레임의 정확도를 나타낼 수 있다. IOU의 임계 값이 0.3인 경우의 검출 정확도는, 예측 프레임에 대응되는 IOU 값이 0.3 이상일 때, 검출 결과가 올바른 것으로 결정되는 경우의 검출 정확도를 나타낸다. (즉, 예측 프레임은 올바른 예측 프레임이다.) 평균 IOU는 실험 과정 동안 실제 IOU들의 평균 값을 나타내며, 즉 올바른 예측 프레임에 대응되는 실제 IOU들의 평균 값을 나타낸다. 여기에서, IOU 평균은 도 4의 객체를 예측하기 위한 예측 프레임의 예측 위치의 정확도를 반영한다.
표 1로부터, 본 발명의 예시적인 실시예에 따른 뉴럴 네트워크 시스템(RATP)은 기본적인 뉴럴 네트워크 시스템의 검출 정확도보다 높은 검출 정확도를 갖고, 현재의 LSTM 및 Seq-NMS에 대한 검출 정확도와 실질적으로 동일한 검출 정확도를 갖는 것으로 보여진다. 나아가, 뉴럴 네트워크 시스템이 현재의 LSTM 또는 Seq-NMS와 함께 공동으로 사용될 경우, 검출 정확도는 LSTM 또는 Seq-NMS이 분리되어 사용될 경우의 검출 정확도보다 명백하게 높다. 따라서, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템과 현재의 LSTM 및 Seq-NMS는 객체 검출에 대하여 상호 보완적인 특성들을 갖는 것으로 보여진다. 따라서, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 현재의 LSTM 및 Seq-NMS의 검출 국면들에서의 부족함을 보완한다. 현재의 LSTM 및 Seq-NMS는 이동 속도가 높은 객체에 대하여 더 나은 검출 효과들을 생성하나, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 이동 속도가 낮은 객체를 검출하는 국면에서 현저한 이점을 갖는다.
본 발명의 객체 검출을 위한 뉴럴 네트워크에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다. 게다가, 본 발명의 객체 검출을 위한 뉴럴 네트워크 시스템은 엔드-투-엔드(end-to-end) 뉴럴 네트워크 시스템이므로, 적은 계산 양을 통하여 정확한 검출 결과를 신속하게 획득할 수 있고, 이로 인하여 객체를 검출하는 효율성을 향상시킬 수 있다.
본 발명의 예시적인 실시예에 따르면, 컴퓨터 판독 가능한 저장 매체가 더 제공된다. 컴퓨터 판독 가능한 저장 매체는 프로세서에 의하여 실행될 때, 프로세서가 상술된 객체 검출 방법을 수행하게 하는 프로그램 명령어들을 저장한다. 컴퓨터 판독 가능한 저장 매체는 컴퓨터 시스템에 의하여 읽혀지는 데이터를 저장할 수 있는 임의의 데이터 저장 장치이다. 컴퓨터 판독 가능한 저장 매체의 예시들은 ROM(Read-Only Memory), RAM(Random-Access Memory), CD-ROM들, 자기 테이프들, 플로피 디스크들, 광학 데이터 저장 장치들, 및 (유선 또는 무선 전송 경로를 경유하여 인터넷을 통한 데이터 전송과 같은) 캐리어를 포함한다. 또한, 컴퓨터 판독 가능한 저장 매체는 인터넷에 연결되는 컴퓨터 시스템으로 분산되어, 컴퓨터 판독 가능한 코드들이 분산된 방식으로 저장 및 실행될 수 있다. 또한, 본 발명을 달성하기 위한 기능적인 프로그램들, 코드들, 및 코드 세그먼트들이 본 발명의 권리범위 내에서 본 발명과 연관된 분야에 통상의 프로그래머들에 의하여 용이하게 설명될 수 있다.
본 발명의 상술된 실시예들은 단순히 예시적인 실시예들로 언급되어야 하고, 본 발명이 이에 제한되지 않는다. 당업자들은 이러한 예시적인 실시예들이 본 발며의 원리 및 사상으로부터 벗어나지 안게 변경될 수 있는 것으로 이해하여야 하며, 본 발명의 권리범위는 청구항들 및 이의 균등물들로 제한된다.
100: 특징 추출 서브네트워크
200: 시간 도메인 풀링 서브네트워크
300: 검출 서브네트워크

Claims (10)

  1. 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계;
    상기 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계;
    상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 풀링된 특징 맵을 획득하는 단계; 및
    상기 현재 프레임의 상기 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함하되,
    상기 현재 프레임의 상기 풀링된 특징 맵은 상기 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 객체 검출 방법.
  2. 제1 항에 있어서,
    상기 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
    첫번째 프레임의 특징 맵을 사용하여 상기 첫번째 프레임의 풀링된 특징 맵을 획득하는 단계를 포함하고,
    상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
    이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계를 포함하는 객체 검출 방법.
  3. 제1 항에 있어서,
    상기 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
    이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 가중치 이미지를 획득하는 단계; 및
    상기 이전 프레임의 상기 풀링된 특징 맵, 상기 현재 프레임의 상기 특징 맵, 및 상기 현재 프레임의 상기 가중치 이미지를 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계를 포함하는 객체 검출 방법.
  4. 제3 항에 있어서,
    상기 현재 프레임 이미지가 t번째 프레임 이미지이고, 상기 t는 1보다 큰 정수인 경우, 상기 현재 프레임의 상기 가중치 이미지에서 가중치 값들 각각은,
    Figure pat00132
    로 계산되되,
    상기
    Figure pat00133
    는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 상기
    Figure pat00134
    의 범위 값은 [0, 1]이고, 상기
    Figure pat00135
    는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 상기
    Figure pat00136
    및 상기
    Figure pat00137
    는 상기 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 상기
    Figure pat00138
    는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 상기
    Figure pat00139
    는 상기 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, 상기 i는 2차원 좌표를 나타내는 객체 검출 방법.
  5. 제4 항에 있어서,
    상기 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은,
    Figure pat00140
    로 계산되되,
    상기
    Figure pat00141
    는 t번째 프레임의 상기 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
    Figure pat00142
    는 상기
    Figure pat00143
    및 상기
    Figure pat00144
    의 곱셈에 사용되고, 함수
    Figure pat00145
    는 풀링된 함수이되, 상기 함수
    Figure pat00146
    와 상기
    Figure pat00147
    를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 상기 함수
    Figure pat00148
    와 상기
    Figure pat00149
    를 통하여 계산되는 값의 평균 값을 계산하는데 사용되는 객체 검출 방법.
  6. 객체 검출을 위한 뉴럴 네트워크 시스템에 있어서,
    복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 상기 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 특징 추출 서브네트워크;
    상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 풀링된 특징 맵을 획득하는 시간 도메인 풀링 서브네트워크; 및
    상기 현재 프레임의 상기 풀링된 특징 맵으로부터 객체를 검출하는 검출 서브네트워크를 포함하되,
    상기 현재 프레임의 상기 풀링된 특징 맵은 상기 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 시스템.
  7. 제6 항에 있어서,
    상기 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 상기 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 사용하여 상기 첫번째 프레임의 풀링된 특징 맵을 획득하고,
    상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 시간 도메인 풀링 서브네트워크는 이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 시스템.
  8. 제7 항에 있어서,
    상기 시간 도메인 풀링 서브네트워크는, 상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 이전 프레임의 상기 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 가중치 이미지를 획득하고, 상기 이전 프레임의 상기 풀링된 특징 맵, 상기 현재 프레임의 상기 특징 맵, 및 상기 현재 프레임의 상기 가중치 이미지를 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 시스템.
  9. 제8 항에 있어서,
    상기 현재 프레임 이미지가 t번째 프레임 이미지이고, 상기 t는 1보다 큰 정수인 경우, 상기 현재 프레임의 상기 가중치 이미지에서 가중치 값들 각각은,
    Figure pat00150
    로 계산되되,
    상기
    Figure pat00151
    는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 상기
    Figure pat00152
    의 범위 값은 [0, 1]이고, 상기
    Figure pat00153
    는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 상기
    Figure pat00154
    및 상기
    Figure pat00155
    는 상기 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 상기
    Figure pat00156
    는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 상기
    Figure pat00157
    는 상기 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, 상기 i는 2차원 좌표를 나타내는 시스템.
  10. 제9 항에 있어서,
    상기 시간 도메인 서브네트워크는 상기 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각을,
    Figure pat00158
    로 계산하되,
    상기
    Figure pat00159
    는 t번째 프레임의 상기 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
    Figure pat00160
    는 상기
    Figure pat00161
    및 상기
    Figure pat00162
    의 곱셈에 사용되고, 함수
    Figure pat00163
    는 풀링된 함수이되, 상기 함수
    Figure pat00164
    와 상기
    Figure pat00165
    를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 상기 함수
    Figure pat00166
    와 상기
    Figure pat00167
    를 통하여 계산되는 값의 평균 값을 계산하는데 사용되는 시스템.
KR1020180091901A 2017-08-29 2018-08-07 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 KR20190024689A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710756068.6A CN109426782B (zh) 2017-08-29 2017-08-29 对象检测方法和用于对象检测的神经网络系统
CN201710756068.6 2017-08-29

Publications (1)

Publication Number Publication Date
KR20190024689A true KR20190024689A (ko) 2019-03-08

Family

ID=65437350

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180091901A KR20190024689A (ko) 2017-08-29 2018-08-07 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템

Country Status (3)

Country Link
US (1) US10769480B2 (ko)
KR (1) KR20190024689A (ko)
CN (1) CN109426782B (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102095152B1 (ko) * 2019-06-07 2020-03-30 건국대학교 산학협력단 상황 인지 방법 및 이를 수행하는 장치
KR102159645B1 (ko) 2019-05-28 2020-09-25 서울시립대학교 산학협력단 시뮬레이션 장치 및 방법
WO2020231035A1 (en) * 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Image processing apparatus and operating method of the same
KR20200130768A (ko) * 2019-04-30 2020-11-20 한양대학교 산학협력단 비디오 시간 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 장치
WO2022066388A1 (en) * 2020-09-28 2022-03-31 Nec Laboratories America, Inc. Multi-hop transformer for spatio-temporal reasoning and localization
KR20220078832A (ko) * 2020-12-04 2022-06-13 포항공과대학교 산학협력단 신경망 모델 기반 비디오의 움직임 특징 정보 추출 방법 및 분석장치
US12001519B2 (en) 2020-10-08 2024-06-04 Sony Group Corporation Object classification and related applications based on frame and event camera processing

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102143928B1 (ko) * 2018-02-05 2020-08-13 고려대학교 산학협력단 인공 신경망 장치 및 그 동작 방법
US11048935B2 (en) * 2019-01-28 2021-06-29 Adobe Inc. Generating shift-invariant neural network outputs
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
CN109993772B (zh) * 2019-03-26 2022-12-20 东北大学 基于时空采样的实例级别特征聚合方法
CN111753821A (zh) * 2019-03-27 2020-10-09 杭州海康威视数字技术股份有限公司 一种文本检测方法和装置
CN110399908B (zh) * 2019-07-04 2021-06-08 西北工业大学 基于事件型相机的分类方法和装置、存储介质、电子装置
CN110390685B (zh) * 2019-07-24 2021-03-09 中国人民解放军国防科技大学 一种基于事件相机的特征点跟踪方法
CN110555865B (zh) * 2019-08-07 2022-04-19 清华大学无锡应用技术研究院 一种基于帧图像的动态视觉传感器样本集建模方法
WO2021033251A1 (ja) * 2019-08-20 2021-02-25 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、画像処理方法およびプログラム
US11363461B2 (en) 2019-08-23 2022-06-14 Electronics And Telecommunications Research Institute Method for managing security key of mobile communication system, and apparatus therefor
CN110570460B (zh) * 2019-09-06 2024-02-13 腾讯云计算(北京)有限责任公司 目标跟踪方法、装置、计算机设备及计算机可读存储介质
CN111179310B (zh) * 2019-12-20 2024-06-25 腾讯科技(深圳)有限公司 视频数据处理方法、装置、电子设备及计算机可读介质
KR102583960B1 (ko) 2020-01-06 2023-09-27 한국전자통신연구원 무인 비행체의 데이터 세트 생성 방법 및 장치
CN111242066B (zh) * 2020-01-17 2023-09-05 中国人民解放军国防科技大学 大尺寸图像目标检测方法、装置及计算机可读存储介质
WO2021161652A1 (ja) * 2020-02-10 2021-08-19 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、イメージセンサ、撮像装置、信号処理方法
CN113496136B (zh) * 2020-03-18 2024-08-13 中强光电股份有限公司 无人机及其影像识别方法
CN112435295B (zh) * 2020-11-12 2024-06-21 浙江华感科技有限公司 黑体位置检测方法、电子装置以及计算机可读存储介质
US11790508B2 (en) 2021-04-21 2023-10-17 Baker Hughes Holdings Llc Computer vision predictions for non-destructive testing
CN113688750A (zh) * 2021-08-27 2021-11-23 上海高德威智能交通系统有限公司 车厢状态检测方法及装置
CN114612791B (zh) * 2022-05-11 2022-07-29 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN115358962B (zh) * 2022-10-18 2023-01-10 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置
CN116152919A (zh) * 2022-12-27 2023-05-23 北京凌宇智控科技有限公司 手部姿态跟踪方法、装置、存储介质及设备
CN116883648B (zh) * 2023-09-06 2024-02-13 南方电网数字电网研究院股份有限公司 一种异物检测方法、装置、电子设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2114080A1 (en) 2008-04-30 2009-11-04 Thomson Licensing Method for assessing the quality of a distorted version of a frame sequence
US8886533B2 (en) 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US9275308B2 (en) 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
US10043112B2 (en) 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9928213B2 (en) 2014-09-04 2018-03-27 Qualcomm Incorporated Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals
WO2016054778A1 (en) 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Generic object detection in images
KR20160091786A (ko) * 2015-01-26 2016-08-03 삼성전자주식회사 사용자 관리 방법 및 사용자 관리 장치
US9524450B2 (en) 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
CN105354528A (zh) * 2015-07-15 2016-02-24 中国科学院深圳先进技术研究院 基于深度图像序列的人体动作识别的方法及系统
US10068138B2 (en) 2015-09-17 2018-09-04 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
US9805264B2 (en) 2015-10-19 2017-10-31 Disney Enterprises, Inc. Incremental learning framework for object detection in videos
US9959468B2 (en) 2015-11-06 2018-05-01 The Boeing Company Systems and methods for object tracking and classification
JP6658033B2 (ja) * 2016-02-05 2020-03-04 富士通株式会社 演算処理回路、および情報処理装置
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106203450A (zh) 2016-07-11 2016-12-07 国家新闻出版广电总局广播科学研究院 基于深度学习框架对图像进行特征提取的目标检测方法
US20180129742A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Natural language object tracking

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200130768A (ko) * 2019-04-30 2020-11-20 한양대학교 산학협력단 비디오 시간 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 장치
WO2020231035A1 (en) * 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Image processing apparatus and operating method of the same
US11380081B2 (en) 2019-05-16 2022-07-05 Samsung Electronics Co., Ltd. Image processing apparatus and operating method of the same
KR102159645B1 (ko) 2019-05-28 2020-09-25 서울시립대학교 산학협력단 시뮬레이션 장치 및 방법
KR102095152B1 (ko) * 2019-06-07 2020-03-30 건국대학교 산학협력단 상황 인지 방법 및 이를 수행하는 장치
WO2020246655A1 (ko) * 2019-06-07 2020-12-10 건국대학교 산학협력단 상황 인지 방법 및 이를 수행하는 장치
WO2022066388A1 (en) * 2020-09-28 2022-03-31 Nec Laboratories America, Inc. Multi-hop transformer for spatio-temporal reasoning and localization
US20220101007A1 (en) * 2020-09-28 2022-03-31 Nec Laboratories America, Inc. Multi-hop transformer for spatio-temporal reasoning and localization
US11741712B2 (en) * 2020-09-28 2023-08-29 Nec Corporation Multi-hop transformer for spatio-temporal reasoning and localization
US12001519B2 (en) 2020-10-08 2024-06-04 Sony Group Corporation Object classification and related applications based on frame and event camera processing
KR20220078832A (ko) * 2020-12-04 2022-06-13 포항공과대학교 산학협력단 신경망 모델 기반 비디오의 움직임 특징 정보 추출 방법 및 분석장치

Also Published As

Publication number Publication date
CN109426782A (zh) 2019-03-05
US20190065885A1 (en) 2019-02-28
US10769480B2 (en) 2020-09-08
CN109426782B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
KR20190024689A (ko) 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
Fischer et al. Flownet: Learning optical flow with convolutional networks
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
Shao et al. Computer vision and machine learning with RGB-D sensors
US20230042187A1 (en) Behavior recognition method and system, electronic device and computer-readable storage medium
US10748294B2 (en) Method, system, and computer-readable recording medium for image object tracking
KR20200036002A (ko) 제스처 인식 방법, 장치 및 디바이스
CN109727275B (zh) 目标检测方法、装置、系统和计算机可读存储介质
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
CN109300151B (zh) 图像处理方法和装置、电子设备
WO2008020598A1 (fr) Dispositif et procédé de détection d'un nombre d'objets
CN111914878A (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
KR20210099450A (ko) 딥러닝을 이용한 원거리 소형 드론 탐지 방법
CN106097383A (zh) 一种针对遮挡问题的目标跟踪方法及设备
KR101681104B1 (ko) 부분적 가림을 갖는 영상 객체 내의 주요 특징점 기반 다중 객체 추적 방법
KR20220074782A (ko) 동시적 위치추정 및 지도작성(slam) 방법 및 장치
Raza et al. Framework for estimating distance and dimension attributes of pedestrians in real-time environments using monocular camera
US20190325306A1 (en) Device and a method for processing data sequences using a convolutional neural network
CN112560620B (zh) 一种基于目标检测和特征融合的目标跟踪方法及系统
Xu et al. Geometry-aware video object detection for static cameras
CN111179331A (zh) 深度估计方法、装置、电子设备及计算机可读存储介质
KR101355976B1 (ko) 시공간 특징점 정합을 이용한 객체 추적방법 및 그 장치
CN111259701A (zh) 行人再识别方法、装置及电子设备
KR20230099369A (ko) 객체의 위치 추정을 위한 가려짐 판별과 객체 좌표 보정