KR20190024689A - 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 - Google Patents
객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 Download PDFInfo
- Publication number
- KR20190024689A KR20190024689A KR1020180091901A KR20180091901A KR20190024689A KR 20190024689 A KR20190024689 A KR 20190024689A KR 1020180091901 A KR1020180091901 A KR 1020180091901A KR 20180091901 A KR20180091901 A KR 20180091901A KR 20190024689 A KR20190024689 A KR 20190024689A
- Authority
- KR
- South Korea
- Prior art keywords
- feature map
- frame
- current frame
- image
- pooled
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/188—Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/183—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템을 제공한다. 객체 검출 방법은 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계, 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계, 및 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함하되, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다. 본 발명에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다.
Description
본 발명은 객체 검출 분야에 관한 것으로, 좀 더 상세하게는 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템에 관한 것이다.
객체 검출은 컴퓨터의 비전(vision) 분야에서 관심이 많은 주제이고, 객체 검출은 주로 이미지 또는 비디오에 대한 관심 대상을 식별하고 검출하는 것이다. 객체 검출은 자율 주행, 무인 항공기, 및 제스처 기반의 상호작용 시스템에 대한 분야들에서 중요한 역할을 담당한다. 이로 인하여, 객체 검출에 대한 연구들이 점점 관심 받고 있다.
일반적인 객체 검출 방법은 주로 변형 가능한 멤버 모듈 및 이의 변형을 사용하여 객체를 검출하고, 이러한 방법은 일반적으로 최대 응답 영역을 검색하기 위한 특징들로 이미지 디스크립터(descriptor)들(예를 들어, HOG (Histogram of Oriented Gradients), SIFT (Scale Invariant Feature Transformation) and LBP (Local Binary Patterns) 등)을 사용함으로써, 슬라이딩 윈도우를 통하여 전체 이미지를 가로지르며, 객체를 검출한다.
게다가, 깊이(depth) 학습 기술의 발전과 함께, 딥 뉴럴 네트워크에 기초한 객체 검출 방법이 나타나고, 이러한 방법은 고효율성으로 인하여 빠르고 널리 사용된다.
그러나, 상술된 방법들은 오로지 단일한 프레임 이미지에 기초하여 객체 검출 동작을 수행하므로, 단일 이미지에 기초한 객체 검출 국면에서 뛰어난 검출 효과를 갖지만, 비디오 이미지에 기초한 객체 검출에서 이상적인 검출 결과를 달성하기 어렵다.
최근에, 다이나믹 비전 센서(DVS, Dynamic Vision Sensor) 카메라는 시각적인 다이나믹 신호를 비동기의 마이크로초 정밀 이벤트 플로우로 인코딩할 수 있으며, 이벤트 플로우를 통하여 프레임 이미지들을 생성하여 빠르게 움직이는 객체를 추적할 수 있으므로, 널리 관심 받는다. 다이나믹 비전 센서 카메라를 통하여 캡쳐된 프레임 이미지들을 사용하여 객체를 검출함으로써, 빠르게 움직이는 객체는 정확하게 검출될 수 있다. 따라서, 객체의 이동 속도가 매우 빠를 때, 다이나믹 비전 센서 카메라에 의하여 캡쳐된 비디오 이미지에 기초하여, 더 나은 객체 검출 결과가 상술된 두가지 방법들을 사용함으로써, 획득될 수 있다. 그러나, 객체의 이동 속도가 느릴 때, 다이나믹 비전 센서 카메라에 의하여 캡쳐된 이미지에 기초하여 객체를 정확하게 검출하기 어렵다.
본 발명의 예시적인 실시예는 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템을 제공하는 것을 목적으로 한다. 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템은 이동 속도가 낮은 객체가 현재의 객체 검출 방법들에 의하여 정확하게 검출될 수 없는 결점을 극복할 수 있고, 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템은 적은 계산 양을 통하여 정확한 검출 결과를 획득할 수 있고, 이로 인하여 객체 검출의 효율성을 향상시킬 수 있다.
본 발명의 예시적인 실시예의 일 양상에 따른 객체 검출 방법이 제공되며, 객체 검출 방법은 (A) 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계, (B) 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계, (C) 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계, 및 (D) 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함한다. 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, (C) 단계는 첫번째 프레임의 특징 맵을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득하는 단계를 포함하고, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, (C) 단계는 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계를 포함한다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, (C) 단계는 (C1) 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득하는 단계, 및 (C2) 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계를 포함한다.
또한, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은 로 계산되되, 는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 의 범위 값은 [0, 1]이고, 는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 및 는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
또한, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은 로 계산되되, 는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수 는 및 의 곱셈에 사용되고, 함수 는 풀링된 함수이되, 함수 와 를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수 와 를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, (C) 단계는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용하는 단계를 포함한다.
또한, 이미지 시퀀스는 다이나믹 비전 센서 카메라에 의한 캡쳐를 수행함으로써 생성된다.
또한, (B) 단계는 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 현재 프레임의 특징 맵을 획득하는 단계를 포함한다.
본 발명의 예시적인 실시예의 다른 양상에 따른 객체 검출을 위한 뉴럴 네트워크 시스템이 제공되며, 뉴럴 네트워크 시스템은 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 특징 추출 서브네트워크, 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 시간 도메인 풀링 서브네트워크, 및 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 검출 서브네트워크를 포함한다. 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득하고, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크는 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득한다.
또한, 시간 도메인 풀링 서브네트워크는, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득하고, 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득한다.
또한, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은 로 계산되되, 는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 의 범위 값은 [0, 1]이고, 는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 및 는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
또한, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은 로 계산되되, 는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수 는 및 의 곱셈에 사용되고, 함수 는 풀링된 함수이되, 함수 와 를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수 와 를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용한다.
또한, 이미지 시퀀스는 다이나믹 비전 센서 카메라에 의한 캡쳐를 수행함으로써 생성된다.
또한, 특징 추출 서브네트워크는 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 현재 프레임의 특징 맵을 획득한다.
본 발명의 예시적인 실시예의 다른 양상에 따른 컴퓨터 판독 가능한 저장 매체는 프로세서에 의하여 실행될 때, 프로세서가 상술된 객체 검출 방법을 수행하게 하는 프로그램 명령어들을 저장하도록 제공된다.
본 발명의 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템에 따르면, 객체가 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다.
도 1은 본 발명의 예시적인 실시예에 따른 객체 검출 방법의 순서도이다.
도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.
도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.
도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.
도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다.
도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.
도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.
도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.
도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다.
이하, 본 발명의 예시적인 실시예는 도면들을 참조하여 더욱 충분하게 설명될 것이며, 예시적인 실시예는 도면들에 도시된다. 다만, 예시적인 실시예는 여기에서 설명되는 예시적인 실시예들로 제한되어 해석된다기 보다 오히려, 다른 형식들로도 구현될 수 있다. 반면에, 이러한 예시적인 실시예들은 본 발명이 완전하고 완벽하도록 제공되고, 예시적인 실시예의 권리범위는 당업자들에 완전하게 전달될 것이다.
도 1은 본 발명의 예시적인 실시예에 따른 객체 검출 방법의 순서도이다.
도 1을 참조하면, S100 단계에서, 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지가 획득된다.
일례로, 이미지 시퀀스는 다이나믹 비전 센서 카메라(dynamic vision sensor camera)에 의한 캡쳐를 수행함으로써 생성될 수 있다. 여기에서, 다이나믹 비전 센서 카메라는 객체에 대해 캡쳐를 수행함으로써 움직이는 객체에 의하여 생성되는 이벤트 플로우(event flow)를 검출할 수 있고, 기결정된 기간(예를 들어, 20 밀리초) 이내에 생성된 이벤트 플로우를 사용하여 하나의 프레임 이미지를 생성할 수 있다. 따라서, 비전 센서 카메라는 시간 순서에 따른 복수의 프레임 이미지들을 포함하는 이미지 시퀀스를 생성할 수 있다.
S200 단계에서, 현재 프레임의 특징 맵은 현재 프레임 이미지로부터 추출된다.
일례로, 현재 프레임의 특징 맵은 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다. 예를 들어, 컨볼루션 커널은 미리 학습 및 훈련에 의하여 획득될 수 있고, 이후 현재 프레임의 특징 맵은 여러 번 컨볼루션 커널을 통하여 현재 프레임에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다.
S300 단계에서, 현재 프레임의 특징 맵은 현재 프레임의 풀링된(pooled) 특징 맵을 획득하도록 풀링되되, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
여기에서, 이동 속도가 느린 객체는, 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 현재 프레임의 풀링된 특징 맵을 획득함으로써, 더욱 효율적으로 검출될 수 있다. (즉, 현재 프레임에 대하여 획득된 풀링된 특징 맵은 움직이는 객체에 관한 더 많은 정보를 포함한다.)
다이나믹 비전 센서 카메라는 상술된 바와 같이, 기결정된 기간 이내에 생성된 이벤트 플로우를 통하여 하나의 프레임 이미지를 생성하므로, 객체의 이동 속도가 느릴 때, 다이나믹 비전 센서 카메라는 단지 기결정된 시간 이내에 적은 양의 이벤트 플로우를 검출할 수 있다. 따라서, 생성된 프레임 이미지에 포함된 객체에 관한 정보가 적어지고, 그 결과, 다이나믹 비전 센서 카메라로부터 획득된 단일한 프레임 이미지로부터 객체를 정확하게 검출하기 어렵게 된다. 그러나, 다이나믹 비전 센서 카메라가 계속적으로 이벤트 플로우를 검출하므로, 다이나믹 비전 센서 카메라에 의하여 계속적으로 검출된 이벤트 플로우는 객체에 관한 더 많은 정보를 포함할 수 있다.
이하, 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시는 도 2를 참조하여 자세하게 설명될 것이다.
도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.
도 2의 (a) 및 (e)를 참조하면, 직사각형 프레임 전체는 객체의 이동 속도가 빠른 경우, 및 객체의 이동 속도가 느린 경우에서, 다이나믹 비전 센서 카메라에 의하여 획득되는 이벤트 플로우를 나타낸다. 직사각형 프레임 전체 내에서 쇄선의 곡선은 이벤트 플로우의 밀도 또는 다른 정보를 반영하는데 사용되지 않고, 단지 이벤트 플로우를 개략적으로 나타낸다.
도 2의 (b)는 객체의 이동 속도가 빠른 경우에 기간 T 이내에 획득된 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다. 도 2의 (c)는 객체의 이동 속도가 느린 경우에 기간 T 이내에 획득된 이벤트 플로우를 사용하여, 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다. 도 2의 (d)는 객체의 이동 속도가 느린 경우에 기간 T보다 긴 기간 T' 이내에 획득된 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다.
도 2의 (b)와 도 2의 (c)를 비교하면, 도 2의 (b)의 이미지에서 객체는 더욱 명료하고, 도 2의 (c)의 이미지에서 객체는 더욱 불명료한 것으로 보여진다. 따라서, 하나의 프레임 이미지는 객체의 이동 속도가 빠를 때, 객체를 더욱 정확하게 검출하는데 사용될 수 있는 반면, 하나의 프레임 이미지는 객체의 이동 속도가 느릴 때, 객체를 더욱 정확하게 검출하는데 사용되기 어려울 수 있다.
또한, 도 2의 (d)와 도 2의 (c)를 비교하면, 객체의 이동 속도가 느린 경우에 더욱 긴 기간 이내에 획득된 이벤트 플로우가 사용될 때, 생성된 이미지에서 객체는 더 명료한 것으로 보여진다. 즉, 더욱 긴 기간 이내에 획득된 이벤트 플로우를 사용하여 생성된 이미지는 객체에 관한 더 많은 정보를 포함할 수 있다.
따라서, 도 2로부터, 다이나믹 비전 센서 카메라에 의하여 획득되는 이벤트 플로우가 객체를 검출하기 위하여 충분한 정보를 포함하고, 더욱 긴 기간 내의 이벤트 플로우를 사용하는 것이 움직이는 객체에 대한 더욱 명료한 이미지를 생성할 수 있는 것으로 보여진다. 다만, 객체의 이동 속도가 매우 느릴 때, 더욱 긴 기간 내의 이벤트 플로우가 사용되더라도, 움직이는 객체에 대한 명료한 이미지는 획득될 수 없다. 따라서, 객체가 단일한 프레임 이미지로부터 정확하게 검출될 수 없다. 그러나, 본 발명에서, 현재 프레임의 풀링된 특징 맵은 현재 프레임의 풀링된 특징 맵이 현재 프레임 이전에 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하도록 복수의 풀링된 특징 맵들을 반복적으로 사용함으로써 획득될 수 있다. 따라서, 객체의 이동 속도가 매우 느린 경우에 현재 프레임의 풀링된 특징 맵으로부터 객체가 정확하게 검출될 수 있다.
특히, 일 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 첫번째 프레임의 특징 맵은 도 1의 S300 단계에서 첫번째 프레임의 풀링된 특징 맵을 획득하는데에만 사용될 수 있다. 여기에서, 첫번째 프레임 이미지가 획득될 때, 어떤 이미지도 첫번째 프레임 이미지 이전에 획득되지 않기 때문에, 첫번째 프레임의 특징 맵이 첫번째 프레임의 풀링된 특징 맵을 획득하는데에만 사용될 수 있다. 일례로, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 첫번째 프레임의 특징 맵은 S300 단계에서 첫번째 프레임의 풀링된 특징 맵으로 사용될 수 있다.
다른 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 현재 프레임의 풀링된 특징 맵은 S300 단계에서 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용함으로써 획득될 수 있다. 여기에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 특징 맵을 반복적으로 사용함으로써 획득될 수 있고, 이로 인하여 현재 프레임 이전에 획득된 이벤트 플로우를 더욱 충분하게 사용할 수 있다.
이하, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, S300 단계에서 현재 프레임의 풀링된 특징 맵을 획득하는 과정이 도 3을 참조하여, 자세하게 설명될 것이다.
도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.
도 3을 참조하면, S310 단계에서, 현재 프레임의 가중치 이미지는 이전 프레임의 특징 맵과 현재 프레임의 특징 맵을 사용하여 획득된다.
여기에서, 현재 프레임의 가중치 이미지는 현재 프레임과 이전 프레임 사이의 관계를 나타내며, 예를 들어 유사도를 나타낸다. 현재 프레임과 이전 프레임 사이의 유사도가 높을수록, 가중치 값은 1에 가까워지고, 현재 프레임과 이전 프레임 사이의 유사도가 낮을수록, 가중치 값은 0에 가까워진다.
특히, 일례로, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은 아래의 수학식 1을 통하여 계산된다.
수학식 1에서, 는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 의 범위 값은 [0, 1]이고, 는 멀티 레이어 퍼셉트론(multilayer perceptron, MLP) 뉴럴 네트워크를 나타내고, 및 는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
일례로, 멀티 레이어 퍼셉트론 뉴럴 네트워크()는 복수의 1x1 컨볼루션 레이어들과 범위 값 [0, 1]을 갖는 가중치 값을 출력하는 시그모이드 레이어(Sigmoid layer)를 갖는 말단에 의해 형성되는 완전 컨볼루션 네트워크(fully convolution network)를 통하여 구현될 수 있다. 상술된 네트워크는 단지 멀티 레이어 퍼셉트론 뉴럴 네트워크()의 예시로 이해될 것이고, 멀티 레이어 퍼셉트론 뉴럴 네트워크는 풀링된 특징 값()과 특징 값()을 입력들로 함에 따라 가중치 값을 출력할 수 있는 임의의 멀티 레이어 퍼셉트론 뉴럴 네트워크일 수 있다.
여기에서, 는 스칼라이고, 및 는 벡터들이다. 일례로, 및 는 좌표 i에 대한 각각의 채널 값들이 벡터 성분들이고, 각각의 채널 값들에 대한 범위 값들이 실수 범위인 벡터들일 수 있다. 에 대한 성분들로써 채널 값들은 풀링된 특징 값들이고, 에 대한 성분들로써 채널 값들은 특징 값들인 것으로 이해될 것이다. 예를 들어, 및 는 좌표 i에 대한 레드 채널 값, 그린 채널 값, 및 블루 채널 값이 벡터 성분들인 백터들일 수 있다. 좌표 i는 X축 값과 Y축 값에 의하여 형성되는 2차원 좌표일 수 있다.
상술된 수학식 1을 통하여 획득된 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값()은 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값에 대응되는 가중치 값인 것으로 이해될 것이다.
S320 단계에서, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용함으로써 획득된다.
여기에서, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 포괄적으로 고려함으로써 더욱 정확하게 획득될 수 있다.
일례로, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은 수학식 2를 통하여 계산될 수 있다.
수학식 2에서, 는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수 는 및 의 곱셈에 사용되고, 함수 는 풀링된 함수이되, 함수 와 를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수 와 를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
여기에서, 현재 프레임의 풀링된 특징 값()을 획득하는 동안, 풀링된 결과에 대한 이전 프레임의 풀링된 특징 값()의 영향은 가중치 값()을 에 적용함으로써 다른 좌표들(i)에 따라 조절될 수 있다.
다시 도 1을 참조하면, S400 단계에서, 객체는 현재 프레임의 풀링된 특징 맵으로부터 검출된다. 여기에서, 객체는 다양한 방법들을 통해 현재 프레임의 풀링된 특징 맵으로부터 검출될 수 있고, 더 이상 상세하게 다루지 않는다.
도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.
도 4를 참조하면, 도 4의 (a)는 t-2번째 프레임의 특징 맵(), t-1번째 프레임의 특징 맵(), 및 t번째 프레임의 특징 맵()을 도시하고, 도 4의 (b)는 특징 맵들(, , )에 대응되는 t-2번째 프레임, t-1번째 프레임, 및 t번째 프레임의 이미지들을 대응되는 위치에 도시한다. t값은 도 4의 예시에서, 2보다 큰 정수로 이해될 것이다.
t-2번째 프레임에 대하여, 우선 t-2번째 프레임의 가중치 이미지()는 이전 프레임(미도시)의 풀링된 특징 맵(미도시) 및 t-2번째 프레임의 특징 맵()을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t-2번째 프레임의 풀링된 특징 맵()은 t-2번째 프레임에 대하여 획득된 가중치 이미지(), t-2번째 프레임 이전의 프레임의 풀링된 특징 맵, 및 t-2번째 프레임의 특징 맵()을 통하여 획득된다.
t-1번째 프레임에 대하여, 우선 t-1번째 프레임의 가중치 이미지()는 이전 프레임(즉, t-2번째 프레임)의 풀링된 특징 맵() 및 t-1번째 프레임의 특징 맵()을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t-1번째 프레임의 풀링된 특징 맵()은 t-1번째 프레임에 대하여 획득된 가중치 이미지(), t-2번째 프레임의 풀링된 특징 맵(), 및 t-1번째 프레임의 특징 맵()을 통하여 획득된다.
t번째 프레임에 대하여, 우선 t번째 프레임의 가중치 이미지()는 이전 프레임(즉, t-1번째 프레임)의 풀링된 특징 맵() 및 t번째 프레임의 특징 맵()을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t번째 프레임의 풀링된 특징 맵()은 t번째 프레임에 대하여 획득된 가중치 이미지(), t-1번째 프레임의 풀링된 특징 맵(), 및 t번째 프레임의 특징 맵()을 통하여 획득된다.
도 4의 (c)에서 위쪽 부분은 t번째 프레임에 대하여 최종적으로 획득된 풀링된 특징 맵을 도시한다. 상술된 분석으로부터, 현재 프레임(t번째 프레임)의 풀링된 특징 맵이 이전의 프레임의 풀링된 특징 맵을 반복적으로 사용함으로써 획득되는 풀링된 특징 맵이므로, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 것으로 보여진다.
도 4의 (c)에서 아래쪽 부분은 t번째 프레임의 풀링된 특징 맵으로부터 객체 검출의 검출 결과를 도시한다. 도 4의 (c)에서 아래쪽 부분에 도시된 그림에서의 프레임은 예측 프레임이고, 예측 프레임의 위치는 검출된 객체의 위치이다. 도 4의 예시에서, 검출된 객체는 사용자의 손이다.
본 발명의 객체 검출 방법에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다. 게다가, 본 발명의 객체 검출을 위한 뉴럴 네트워크 시스템은 더 적은 계산 량을 통하여 정확한 검출 결과를 신속하게 획득할 수 있고, 이로 인하여 객체 검출의 효율성을 향상시킬 수 있다.
도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다. 일례로, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 FRCNN(fast regional convolution neural network) 프레임 기반의 뉴럴 네트워크 시스템이다.
도 5에 도시된 바와 같이, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 특징 추출 서브네트워크(100), 시간 도메인 풀링 서브네트워크(200), 및 검출 서브네트워크(300)를 포함한다.
특히, 특징 추출 서브네트워크(100)는 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출한다.
일례로, 이미지 시퀀스는 다이나믹 비전 센서(DVS) 카메라에 의한 캡쳐를 수행함으로써 생성될 수 있다. 여기에서, 다이나믹 비전 센서 카메라는 객체에 대해 캡쳐를 수행함으로써 움직이는 객체에 의하여 생성되는 이벤트 플로우를 검출할 수 있고, 기결정된 기간 이내에 생성된 이벤트 플로우를 사용하여 하나의 프레임 이미지를 생성할 수 있다. 따라서, 비전 센서 카메라는 시간 순서에 따른 복수의 프레임 이미지들을 포함하는 이미지 시퀀스를 생성할 수 있다.
일례로, 현재 프레임의 특징 맵은 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다. 예를 들어, 컨볼루션 커널은 미리 학습 및 훈련에 의하여 획득될 수 있고, 이후 현재 프레임의 특징 맵은 여러 번 컨볼루션 커널을 통하여 현재 프레임에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다.
시간 도메인 풀링 서브네트워크(200)는 현재 프레임의 풀링된 특징 맵을 획득하도록 현재 프레임의 특징 맵을 풀링할 수 있으며, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.
여기에서, 이동 속도가 느린 객체는, 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 현재 프레임의 풀링된 특징 맵을 획득함으로써, 더욱 효율적으로 검출될 수 있다. (즉, 현재 프레임에 대하여 획득된 풀링된 특징 맵은 움직이는 객체에 관한 더 많은 정보를 포함한다.)
이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의한 프레임 이미지들을 생성하는 예시, 및 다이나믹 비전 센서 카메라에 의하여 획득된 단일한 프레임 이미지를 사용하여 이동 속도가 느린 객체를 검출하기 어려운 이유는 도 2를 참조하여 자세하게 설명되었으며, 더 이상 여기에서 상세하게 다루지 않는다.
본 발명의 예시적인 실시예에 따르면, 일 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵만을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득할 수 있다. 여기에서, 첫번째 프레임 이미지가 ?득될 때, 어떤 이미지도 첫번째 프레임 이미지 이전에 획득되지 않으므로, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵만을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득할 수 있다. 일례로, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용할 수 있다.
다른 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다. 여기에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 특징 맵을 반복적으로 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다.
특히, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득할 수 있고, 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다.
여기에서, 현재 프레임의 가중치 이미지는 현재 프레임과 이전 프레임 사이의 관계를 나타내며, 예를 들어 유사도를 나타낸다. 현재 프레임과 이전 프레임 사이의 유사도가 높을수록, 가중치 값은 1에 가까워지고, 현재 프레임과 이전 프레임 사이의 유사도가 낮을수록, 가중치 값은 0에 가까워진다.
특히, 일례로, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 시간 도메인 풀링 서브네트워크(200)는 현재 프레임의 가중치 이미지에서 가중치 값들 각각을 상술된 수학식 1을 통하여 계산할 수 있다.
수학식 1을 참조하면, 는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 의 범위 값은 [0, 1]이고, 는 멀티 레이어 퍼셉트론(multilayer perceptron, MLP) 뉴럴 네트워크를 나타내고, 및 는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.
일례로, 멀티 레이어 퍼셉트론 뉴럴 네트워크()는 복수의 1x1 컨볼루션 레이어들과 범위 값 [0, 1]을 갖는 가중치 값을 출력하는 시그모이드 레이어(Sigmoid layer)를 갖는 말단에 의해 형성되는 완전 컨볼루션 네트워크(fully convolution network)를 통하여 구현될 수 있다. 상술된 네트워크는 단지 멀티 레이어 퍼셉트론 뉴럴 네트워크()의 예시로 이해될 것이고, 멀티 레이어 퍼셉트론 뉴럴 네트워크는 풀링된 특징 값()과 특징 값()을 입력들로 함에 따라 가중치 값을 출력할 수 있는 임의의 멀티 레이어 퍼셉트론 뉴럴 네트워크일 수 있다.
여기에서, 는 스칼라이고, 및 는 벡터들이다. 일례로, 및 는 좌표 i에 대한 각각의 채널 값들이 벡터 성분들이고, 각각의 채널 값들에 대한 범위 값들이 실수 범위인 벡터들일 수 있다. 에 대한 성분들로써 채널 값들은 풀링된 특징 값들이고, 에 대한 성분들로써 채널 값들은 특징 값들인 것으로 이해될 것이다. 예를 들어, 및 는 좌표 i에 대한 레드 채널 값, 그린 채널 값, 및 블루 채널 값이 벡터 성분들인 백터들일 수 있다. 좌표 i는 X축 값과 Y축 값에 의하여 형성되는 2차원 좌표일 수 있다.
상술된 수학식 1을 통하여 획득된 t번째 프레임의 가중치 이미지에서 좌표 i의 가중치 값()은 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값에 대응되는 가중치 값인 것으로 이해될 것이다.
이후, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 포괄적으로 고려함으로써 더욱 정확하게 획득될 수 있다.
일례로, 시간 도메인 풀링 서브네트워크(200)는 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각을 상술된 수학식 2를 통하여 계산할 수 있다.
수학식 2를 참조하면, 는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수 는 및 의 곱셈에 사용되고, 함수 는 풀링된 함수이되, 함수 와 를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수 와 를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.
여기에서, 현재 프레임의 풀링된 특징 값()을 획득하는 동안, 풀링된 결과에 대한 이전 프레임의 풀링된 특징 값()의 영향은 가중치 값()을 에 적용함으로써 다른 좌표들(i)에 따라 조절될 수 있다.
검출 서브네트워크(300)는 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출한다. 여기에서, 검출 서브네트워크(300)는 다양한 방법들을 통해 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출할 수 있고, 더 이상 상세하게 다루지 않는다.
본 발명의 예시적인 실시예에 따른 객체를 검출하는 과정은 도 4를 참조하여 자세하게 설명되었고, 더 이상 여기에서 상세하게 다루지 않는다.
본 발명의 예시적인 실시예의 객체 검출을 위한 뉴럴 네트워크 시스템 및 객체 검출을 위한 현재의 뉴럴 네트워크 시스템들(예를 들어, LSTM(long and short term memory network), Seq-NMS(sequence non-maximum suppressionnetwork))을 예시들로 도입함으로써, 실험들을 통하여 획득된 RATP, LSTM, 및 Seq-NMS의 검출 정확도는 아래의 표에 도시된다.
검출 방법 | 검출 정확도(IOU=0.3) | 평균 IOU |
기본적인 뉴럴 네트워크 | 73.69% | 0.634 |
RATP | 79.37% | 0.663 |
LSTM | 79.78% | 0.687 |
Seq-NMS | 80.06% | 0.810 |
LSTM+RATP | 84.05% | 0.682 |
Seq-NMS+RATP | 86.53% | 0.811 |
표 1을 참조하면, 제1 열은 객체를 검출하기 위한 검출 방법을 도시하고, 여기에서, 기본적인 뉴럴 네트워크는 임의의 다른 구조를 추가하지 않은 FRCNN을 나타내고, LSTM+RATP는 LSTM과 RATP를 공동으로 사용하는 검출 방법을 나타내고, Seq-NMS+RATP는 Seq-NMS와 RATP 공동으로 사용하는 검출 방법을 나타낸다. 제2 열은 IOU(Intersection over Union)의 임계 값이 0.3인 경우의 검출 정확도를 나타내고, 여기에서, 검출 정확도는 도 4의 객체를 예측하기 위한 예측 프레임의 정확도를 나타낼 수 있다. IOU의 임계 값이 0.3인 경우의 검출 정확도는, 예측 프레임에 대응되는 IOU 값이 0.3 이상일 때, 검출 결과가 올바른 것으로 결정되는 경우의 검출 정확도를 나타낸다. (즉, 예측 프레임은 올바른 예측 프레임이다.) 평균 IOU는 실험 과정 동안 실제 IOU들의 평균 값을 나타내며, 즉 올바른 예측 프레임에 대응되는 실제 IOU들의 평균 값을 나타낸다. 여기에서, IOU 평균은 도 4의 객체를 예측하기 위한 예측 프레임의 예측 위치의 정확도를 반영한다.
표 1로부터, 본 발명의 예시적인 실시예에 따른 뉴럴 네트워크 시스템(RATP)은 기본적인 뉴럴 네트워크 시스템의 검출 정확도보다 높은 검출 정확도를 갖고, 현재의 LSTM 및 Seq-NMS에 대한 검출 정확도와 실질적으로 동일한 검출 정확도를 갖는 것으로 보여진다. 나아가, 뉴럴 네트워크 시스템이 현재의 LSTM 또는 Seq-NMS와 함께 공동으로 사용될 경우, 검출 정확도는 LSTM 또는 Seq-NMS이 분리되어 사용될 경우의 검출 정확도보다 명백하게 높다. 따라서, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템과 현재의 LSTM 및 Seq-NMS는 객체 검출에 대하여 상호 보완적인 특성들을 갖는 것으로 보여진다. 따라서, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 현재의 LSTM 및 Seq-NMS의 검출 국면들에서의 부족함을 보완한다. 현재의 LSTM 및 Seq-NMS는 이동 속도가 높은 객체에 대하여 더 나은 검출 효과들을 생성하나, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 이동 속도가 낮은 객체를 검출하는 국면에서 현저한 이점을 갖는다.
본 발명의 객체 검출을 위한 뉴럴 네트워크에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다. 게다가, 본 발명의 객체 검출을 위한 뉴럴 네트워크 시스템은 엔드-투-엔드(end-to-end) 뉴럴 네트워크 시스템이므로, 적은 계산 양을 통하여 정확한 검출 결과를 신속하게 획득할 수 있고, 이로 인하여 객체를 검출하는 효율성을 향상시킬 수 있다.
본 발명의 예시적인 실시예에 따르면, 컴퓨터 판독 가능한 저장 매체가 더 제공된다. 컴퓨터 판독 가능한 저장 매체는 프로세서에 의하여 실행될 때, 프로세서가 상술된 객체 검출 방법을 수행하게 하는 프로그램 명령어들을 저장한다. 컴퓨터 판독 가능한 저장 매체는 컴퓨터 시스템에 의하여 읽혀지는 데이터를 저장할 수 있는 임의의 데이터 저장 장치이다. 컴퓨터 판독 가능한 저장 매체의 예시들은 ROM(Read-Only Memory), RAM(Random-Access Memory), CD-ROM들, 자기 테이프들, 플로피 디스크들, 광학 데이터 저장 장치들, 및 (유선 또는 무선 전송 경로를 경유하여 인터넷을 통한 데이터 전송과 같은) 캐리어를 포함한다. 또한, 컴퓨터 판독 가능한 저장 매체는 인터넷에 연결되는 컴퓨터 시스템으로 분산되어, 컴퓨터 판독 가능한 코드들이 분산된 방식으로 저장 및 실행될 수 있다. 또한, 본 발명을 달성하기 위한 기능적인 프로그램들, 코드들, 및 코드 세그먼트들이 본 발명의 권리범위 내에서 본 발명과 연관된 분야에 통상의 프로그래머들에 의하여 용이하게 설명될 수 있다.
본 발명의 상술된 실시예들은 단순히 예시적인 실시예들로 언급되어야 하고, 본 발명이 이에 제한되지 않는다. 당업자들은 이러한 예시적인 실시예들이 본 발며의 원리 및 사상으로부터 벗어나지 안게 변경될 수 있는 것으로 이해하여야 하며, 본 발명의 권리범위는 청구항들 및 이의 균등물들로 제한된다.
100: 특징 추출 서브네트워크
200: 시간 도메인 풀링 서브네트워크
300: 검출 서브네트워크
200: 시간 도메인 풀링 서브네트워크
300: 검출 서브네트워크
Claims (10)
- 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계;
상기 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계;
상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 풀링된 특징 맵을 획득하는 단계; 및
상기 현재 프레임의 상기 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함하되,
상기 현재 프레임의 상기 풀링된 특징 맵은 상기 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 객체 검출 방법. - 제1 항에 있어서,
상기 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
첫번째 프레임의 특징 맵을 사용하여 상기 첫번째 프레임의 풀링된 특징 맵을 획득하는 단계를 포함하고,
상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계를 포함하는 객체 검출 방법. - 제1 항에 있어서,
상기 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 가중치 이미지를 획득하는 단계; 및
상기 이전 프레임의 상기 풀링된 특징 맵, 상기 현재 프레임의 상기 특징 맵, 및 상기 현재 프레임의 상기 가중치 이미지를 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계를 포함하는 객체 검출 방법. - 제3 항에 있어서,
상기 현재 프레임 이미지가 t번째 프레임 이미지이고, 상기 t는 1보다 큰 정수인 경우, 상기 현재 프레임의 상기 가중치 이미지에서 가중치 값들 각각은,
로 계산되되,
상기 는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 상기 의 범위 값은 [0, 1]이고, 상기 는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 상기 및 상기 는 상기 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 상기 는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 상기 는 상기 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, 상기 i는 2차원 좌표를 나타내는 객체 검출 방법. - 객체 검출을 위한 뉴럴 네트워크 시스템에 있어서,
복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 상기 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 특징 추출 서브네트워크;
상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 풀링된 특징 맵을 획득하는 시간 도메인 풀링 서브네트워크; 및
상기 현재 프레임의 상기 풀링된 특징 맵으로부터 객체를 검출하는 검출 서브네트워크를 포함하되,
상기 현재 프레임의 상기 풀링된 특징 맵은 상기 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 시스템. - 제6 항에 있어서,
상기 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 상기 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 사용하여 상기 첫번째 프레임의 풀링된 특징 맵을 획득하고,
상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 시간 도메인 풀링 서브네트워크는 이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 시스템. - 제7 항에 있어서,
상기 시간 도메인 풀링 서브네트워크는, 상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 이전 프레임의 상기 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 가중치 이미지를 획득하고, 상기 이전 프레임의 상기 풀링된 특징 맵, 상기 현재 프레임의 상기 특징 맵, 및 상기 현재 프레임의 상기 가중치 이미지를 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 시스템. - 제8 항에 있어서,
상기 현재 프레임 이미지가 t번째 프레임 이미지이고, 상기 t는 1보다 큰 정수인 경우, 상기 현재 프레임의 상기 가중치 이미지에서 가중치 값들 각각은,
로 계산되되,
상기 는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 상기 의 범위 값은 [0, 1]이고, 상기 는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 상기 및 상기 는 상기 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 상기 는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 상기 는 상기 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, 상기 i는 2차원 좌표를 나타내는 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710756068.6A CN109426782B (zh) | 2017-08-29 | 2017-08-29 | 对象检测方法和用于对象检测的神经网络系统 |
CN201710756068.6 | 2017-08-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190024689A true KR20190024689A (ko) | 2019-03-08 |
Family
ID=65437350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180091901A KR20190024689A (ko) | 2017-08-29 | 2018-08-07 | 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10769480B2 (ko) |
KR (1) | KR20190024689A (ko) |
CN (1) | CN109426782B (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102095152B1 (ko) * | 2019-06-07 | 2020-03-30 | 건국대학교 산학협력단 | 상황 인지 방법 및 이를 수행하는 장치 |
KR102159645B1 (ko) | 2019-05-28 | 2020-09-25 | 서울시립대학교 산학협력단 | 시뮬레이션 장치 및 방법 |
WO2020231035A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Image processing apparatus and operating method of the same |
KR20200130768A (ko) * | 2019-04-30 | 2020-11-20 | 한양대학교 산학협력단 | 비디오 시간 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 장치 |
WO2022066388A1 (en) * | 2020-09-28 | 2022-03-31 | Nec Laboratories America, Inc. | Multi-hop transformer for spatio-temporal reasoning and localization |
KR20220078832A (ko) * | 2020-12-04 | 2022-06-13 | 포항공과대학교 산학협력단 | 신경망 모델 기반 비디오의 움직임 특징 정보 추출 방법 및 분석장치 |
US12001519B2 (en) | 2020-10-08 | 2024-06-04 | Sony Group Corporation | Object classification and related applications based on frame and event camera processing |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102143928B1 (ko) * | 2018-02-05 | 2020-08-13 | 고려대학교 산학협력단 | 인공 신경망 장치 및 그 동작 방법 |
US11048935B2 (en) * | 2019-01-28 | 2021-06-29 | Adobe Inc. | Generating shift-invariant neural network outputs |
CN111666960B (zh) * | 2019-03-06 | 2024-01-19 | 南京地平线机器人技术有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
CN109993772B (zh) * | 2019-03-26 | 2022-12-20 | 东北大学 | 基于时空采样的实例级别特征聚合方法 |
CN111753821A (zh) * | 2019-03-27 | 2020-10-09 | 杭州海康威视数字技术股份有限公司 | 一种文本检测方法和装置 |
CN110399908B (zh) * | 2019-07-04 | 2021-06-08 | 西北工业大学 | 基于事件型相机的分类方法和装置、存储介质、电子装置 |
CN110390685B (zh) * | 2019-07-24 | 2021-03-09 | 中国人民解放军国防科技大学 | 一种基于事件相机的特征点跟踪方法 |
CN110555865B (zh) * | 2019-08-07 | 2022-04-19 | 清华大学无锡应用技术研究院 | 一种基于帧图像的动态视觉传感器样本集建模方法 |
WO2021033251A1 (ja) * | 2019-08-20 | 2021-02-25 | 株式会社ソニー・インタラクティブエンタテインメント | 画像処理装置、画像処理方法およびプログラム |
US11363461B2 (en) | 2019-08-23 | 2022-06-14 | Electronics And Telecommunications Research Institute | Method for managing security key of mobile communication system, and apparatus therefor |
CN110570460B (zh) * | 2019-09-06 | 2024-02-13 | 腾讯云计算(北京)有限责任公司 | 目标跟踪方法、装置、计算机设备及计算机可读存储介质 |
CN111179310B (zh) * | 2019-12-20 | 2024-06-25 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、电子设备及计算机可读介质 |
KR102583960B1 (ko) | 2020-01-06 | 2023-09-27 | 한국전자통신연구원 | 무인 비행체의 데이터 세트 생성 방법 및 장치 |
CN111242066B (zh) * | 2020-01-17 | 2023-09-05 | 中国人民解放军国防科技大学 | 大尺寸图像目标检测方法、装置及计算机可读存储介质 |
WO2021161652A1 (ja) * | 2020-02-10 | 2021-08-19 | ソニーセミコンダクタソリューションズ株式会社 | 信号処理装置、イメージセンサ、撮像装置、信号処理方法 |
CN113496136B (zh) * | 2020-03-18 | 2024-08-13 | 中强光电股份有限公司 | 无人机及其影像识别方法 |
CN112435295B (zh) * | 2020-11-12 | 2024-06-21 | 浙江华感科技有限公司 | 黑体位置检测方法、电子装置以及计算机可读存储介质 |
US11790508B2 (en) | 2021-04-21 | 2023-10-17 | Baker Hughes Holdings Llc | Computer vision predictions for non-destructive testing |
CN113688750A (zh) * | 2021-08-27 | 2021-11-23 | 上海高德威智能交通系统有限公司 | 车厢状态检测方法及装置 |
CN114612791B (zh) * | 2022-05-11 | 2022-07-29 | 西南民族大学 | 一种基于改进注意力机制的目标检测方法及装置 |
CN115358962B (zh) * | 2022-10-18 | 2023-01-10 | 中国第一汽车股份有限公司 | 一种端到端视觉里程计方法及装置 |
CN116152919A (zh) * | 2022-12-27 | 2023-05-23 | 北京凌宇智控科技有限公司 | 手部姿态跟踪方法、装置、存储介质及设备 |
CN116883648B (zh) * | 2023-09-06 | 2024-02-13 | 南方电网数字电网研究院股份有限公司 | 一种异物检测方法、装置、电子设备及存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2114080A1 (en) | 2008-04-30 | 2009-11-04 | Thomson Licensing | Method for assessing the quality of a distorted version of a frame sequence |
US8886533B2 (en) | 2011-10-25 | 2014-11-11 | At&T Intellectual Property I, L.P. | System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification |
US9275308B2 (en) | 2013-05-31 | 2016-03-01 | Google Inc. | Object detection using deep neural networks |
US10043112B2 (en) | 2014-03-07 | 2018-08-07 | Qualcomm Incorporated | Photo management |
US9536293B2 (en) | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US9928213B2 (en) | 2014-09-04 | 2018-03-27 | Qualcomm Incorporated | Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals |
WO2016054778A1 (en) | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Generic object detection in images |
KR20160091786A (ko) * | 2015-01-26 | 2016-08-03 | 삼성전자주식회사 | 사용자 관리 방법 및 사용자 관리 장치 |
US9524450B2 (en) | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
CN105354528A (zh) * | 2015-07-15 | 2016-02-24 | 中国科学院深圳先进技术研究院 | 基于深度图像序列的人体动作识别的方法及系统 |
US10068138B2 (en) | 2015-09-17 | 2018-09-04 | Canon Kabushiki Kaisha | Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification |
US9805264B2 (en) | 2015-10-19 | 2017-10-31 | Disney Enterprises, Inc. | Incremental learning framework for object detection in videos |
US9959468B2 (en) | 2015-11-06 | 2018-05-01 | The Boeing Company | Systems and methods for object tracking and classification |
JP6658033B2 (ja) * | 2016-02-05 | 2020-03-04 | 富士通株式会社 | 演算処理回路、および情報処理装置 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN106203450A (zh) | 2016-07-11 | 2016-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于深度学习框架对图像进行特征提取的目标检测方法 |
US20180129742A1 (en) * | 2016-11-10 | 2018-05-10 | Qualcomm Incorporated | Natural language object tracking |
-
2017
- 2017-08-29 CN CN201710756068.6A patent/CN109426782B/zh active Active
-
2018
- 2018-08-07 KR KR1020180091901A patent/KR20190024689A/ko unknown
- 2018-08-27 US US16/113,409 patent/US10769480B2/en active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200130768A (ko) * | 2019-04-30 | 2020-11-20 | 한양대학교 산학협력단 | 비디오 시간 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 장치 |
WO2020231035A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Image processing apparatus and operating method of the same |
US11380081B2 (en) | 2019-05-16 | 2022-07-05 | Samsung Electronics Co., Ltd. | Image processing apparatus and operating method of the same |
KR102159645B1 (ko) | 2019-05-28 | 2020-09-25 | 서울시립대학교 산학협력단 | 시뮬레이션 장치 및 방법 |
KR102095152B1 (ko) * | 2019-06-07 | 2020-03-30 | 건국대학교 산학협력단 | 상황 인지 방법 및 이를 수행하는 장치 |
WO2020246655A1 (ko) * | 2019-06-07 | 2020-12-10 | 건국대학교 산학협력단 | 상황 인지 방법 및 이를 수행하는 장치 |
WO2022066388A1 (en) * | 2020-09-28 | 2022-03-31 | Nec Laboratories America, Inc. | Multi-hop transformer for spatio-temporal reasoning and localization |
US20220101007A1 (en) * | 2020-09-28 | 2022-03-31 | Nec Laboratories America, Inc. | Multi-hop transformer for spatio-temporal reasoning and localization |
US11741712B2 (en) * | 2020-09-28 | 2023-08-29 | Nec Corporation | Multi-hop transformer for spatio-temporal reasoning and localization |
US12001519B2 (en) | 2020-10-08 | 2024-06-04 | Sony Group Corporation | Object classification and related applications based on frame and event camera processing |
KR20220078832A (ko) * | 2020-12-04 | 2022-06-13 | 포항공과대학교 산학협력단 | 신경망 모델 기반 비디오의 움직임 특징 정보 추출 방법 및 분석장치 |
Also Published As
Publication number | Publication date |
---|---|
CN109426782A (zh) | 2019-03-05 |
US20190065885A1 (en) | 2019-02-28 |
US10769480B2 (en) | 2020-09-08 |
CN109426782B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190024689A (ko) | 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템 | |
US11195038B2 (en) | Device and a method for extracting dynamic information on a scene using a convolutional neural network | |
Fischer et al. | Flownet: Learning optical flow with convolutional networks | |
US10872262B2 (en) | Information processing apparatus and information processing method for detecting position of object | |
Shao et al. | Computer vision and machine learning with RGB-D sensors | |
US20230042187A1 (en) | Behavior recognition method and system, electronic device and computer-readable storage medium | |
US10748294B2 (en) | Method, system, and computer-readable recording medium for image object tracking | |
KR20200036002A (ko) | 제스처 인식 방법, 장치 및 디바이스 | |
CN109727275B (zh) | 目标检测方法、装置、系统和计算机可读存储介质 | |
JP7093427B2 (ja) | オブジェクト追跡方法および装置、電子設備並びに記憶媒体 | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
WO2008020598A1 (fr) | Dispositif et procédé de détection d'un nombre d'objets | |
CN111914878A (zh) | 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质 | |
KR20210099450A (ko) | 딥러닝을 이용한 원거리 소형 드론 탐지 방법 | |
CN106097383A (zh) | 一种针对遮挡问题的目标跟踪方法及设备 | |
KR101681104B1 (ko) | 부분적 가림을 갖는 영상 객체 내의 주요 특징점 기반 다중 객체 추적 방법 | |
KR20220074782A (ko) | 동시적 위치추정 및 지도작성(slam) 방법 및 장치 | |
Raza et al. | Framework for estimating distance and dimension attributes of pedestrians in real-time environments using monocular camera | |
US20190325306A1 (en) | Device and a method for processing data sequences using a convolutional neural network | |
CN112560620B (zh) | 一种基于目标检测和特征融合的目标跟踪方法及系统 | |
Xu et al. | Geometry-aware video object detection for static cameras | |
CN111179331A (zh) | 深度估计方法、装置、电子设备及计算机可读存储介质 | |
KR101355976B1 (ko) | 시공간 특징점 정합을 이용한 객체 추적방법 및 그 장치 | |
CN111259701A (zh) | 行人再识别方法、装置及电子设备 | |
KR20230099369A (ko) | 객체의 위치 추정을 위한 가려짐 판별과 객체 좌표 보정 |