KR20200041253A - 이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이를 이용하는 방법 - Google Patents

이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이를 이용하는 방법 Download PDF

Info

Publication number
KR20200041253A
KR20200041253A KR1020190110812A KR20190110812A KR20200041253A KR 20200041253 A KR20200041253 A KR 20200041253A KR 1020190110812 A KR1020190110812 A KR 1020190110812A KR 20190110812 A KR20190110812 A KR 20190110812A KR 20200041253 A KR20200041253 A KR 20200041253A
Authority
KR
South Korea
Prior art keywords
binocular
pedestrians
neural network
image
disparity
Prior art date
Application number
KR1020190110812A
Other languages
English (en)
Other versions
KR102182356B1 (ko
Inventor
지샤오 판
Original Assignee
틴데이 네트워크 테크놀로지 (상하이) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 틴데이 네트워크 테크놀로지 (상하이) 컴퍼니 리미티드 filed Critical 틴데이 네트워크 테크놀로지 (상하이) 컴퍼니 리미티드
Publication of KR20200041253A publication Critical patent/KR20200041253A/ko
Application granted granted Critical
Publication of KR102182356B1 publication Critical patent/KR102182356B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06K9/00362
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/246Calibration of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 개시 내용의 양태들은 쌍안 보행자 검출 시스템(BPDS)에 관한 것이다. BPDS는, 미리 결정된 영역을 통과하는 보행자의 소정의 쌍안 화상을 캡처하는 쌍안 카메라; 캡처된 쌍안 화상을 처리하는 화상/비디오 처리 ASIC; 및 프로세서, 네트워크 인터페이스, 및 운영 체제와 컴퓨터 실행가능 명령어를 저장하는 메모리를 갖는 쌍안 보행자 검출 시스템 제어기를 포함한다. 컴퓨터 실행가능 명령어는, 프로세서에 의해 실행되는 경우, 프로세서로 하여금, 쌍안 카메라에 의해, 보행자의 쌍안 화상을 캡처하는 단계; 쌍안 화상을 쌍안 정류하는 단계; 정류된 쌍안 화상의 디스패리티 맵을 계산하는 단계; 이중 스트림 딥 러닝 뉴럴 네트워크를 트레이닝하는 단계; 및 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 미리 결정된 영역을 통과하는 보행자를 검출하는 단계를 수행하게 한다. 이중 스트림 딥 러닝 뉴럴 네트워크는, 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 정류된 좌측 화상으로부터의 특징부를 학습하고 이를 쌍안 화상의 디스패리티 맵과 융합하기 위한 뉴럴 네트워크를 포함한다.

Description

이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이를 이용하는 방법{BINOCULAR PEDESTRIAN DETECTION SYSTEM HAVING DUAL-STREAM DEEP LEARNING NEURAL NETWORK AND THE METHODS OF USING THE SAME}
본 개시 내용은, 일반적으로, 보행자 검출에 관한 것으로서, 더욱 구체적으로는, 이중 스트림 딥 러닝(dual-stream deep learning) 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템을 이용하는 방법에 관한 것이다.
보행자 검출은, 상점, 거리, 또는 스포츠 경기장과 같은 한정된 영역에서의 비디오 감시 및 보행자 카운팅에 있어서 중요한 역할을 한다. 많은 방법을 이용하여 보행자를 검출할 수 있는데, 예컨대, (a) 단일 프레임 영상에 기초하는 단안(monocular) 비디오 보행자 검출, (b) 프레임 움직임 정보에 기초하는 단안 비디오 보행자 검출, (c) 쌍안 비전에 기초하는 보행자 검출, (d) 3D 데이터 획득 시스템 등을 이용한 보행자 검출이 있다. 방법 (a)는 단안 RGB 화상의 색 및 텍스처 정보만을 이용한다. 그림자, 발자국, 또는 모자를 쓰고 있는 보행자와 같이 구별하기 어려운 대상의 경우, 검출 견고성이 불량하고 오검출이 자주 발생한다. 방법 (b)는 후속 프레임들 간의 해당 에지 특징부에 기초하여 보행자의 움직임 정보를 추출하며, 움직이고 있는 보행자에 대한 검출 결과와 견고성 모두가 양호하다. 그러나, 후속 프레임들 간의 에지 특징부를 추출하는 것이 쉽지 않고 보행자 검출이 종종 실패하기 때문에, 정지 상태의 보행자에 대해서는 그다지 양호하지 않다. 방법 (c)는 더욱 정확한 보행자 검출 결과를 위해 쌍안 정보를 사용한다. 그러나, 기존 방법은 관심 영역을 선택하기 위해 디스패리티 맵(disparity map)만을 사용하는 것이며, 관심 영역의 보행자 검출은 여전히 단안 RGB 화상 특성에 기초한다. 따라서, 이 방법은 잘못된 보행자 대상(예를 들어, 그림자, 발자국)을 제거하는 데에만 사용될 수 있으며, 모자를 착용하고 있는 대상과 같은 특수한 보행자 대상의 검출 효과는 여전히 불량하다. 3D 데이터 획득 장비에 의존하는 보행자 검출 방법의 도움으로, 방법 (d)를 사용하여 3차원 정보를 수집함으로써 3차원 위치를 정확하게 결정할 수 있다. 그러나, 이 방법은, 흔한 공공장소에 설치하기 어려운 LiDAR와 같은 고가의 3D 데이터 획득 시스템을 추가로 사용해야 하므로, 실제 시나리오에서는 이 방법이 덜 실용적이다.
전술한 결점 및 부적합성을 해결하기 위해 당업계에는 지금까지 해결되지 않은 요구가 여전히 존재한다.
일 양태에서, 본 개시 내용은 쌍안 보행자 검출 시스템에 관한 것이다. 소정의 실시예에서, 쌍안 보행자 검출 시스템은, 쌍안 카메라, 화상/비디오 처리 주문형 집적회로(ASIC), 및 쌍안 보행자 검출 시스템 제어기를 포함한다. 쌍안 카메라는, 미리 결정된 영역을 통과하는 보행자의 소정 개수의 쌍안 화상을 캡처하도록 제1 카메라 및 제2 카메라를 갖는다. 제1 카메라는, 제1 렌즈, 및 제1 렌즈를 통해 좌측 화상을 캡처하기 위한 제1 CMOS 센서를 포함한다. 제2 카메라는, 제2 렌즈, 및 제2 렌즈를 통해 우측 화상을 캡처하기 위한 제2 CMOS 센서를 포함한다. 좌측 화상과 우측 화상은 쌍안 화상을 형성한다. 화상/비디오 처리 ASIC은, 쌍안 카메라에 의해 캡처되는 보행자의 쌍안 화상을 전처리(preprocess)한다. 쌍안 보행자 검출 시스템 제어기는, 프로세서, 네트워크 인터페이스, 및 운영 체제와 컴퓨터 실행가능 명령어를 저장하는 메모리를 포함한다. 컴퓨터 실행가능 명령어가 프로세서에서 실행되는 경우, 컴퓨터 실행가능 명령어는, 프로세서로 하여금, 쌍안 카메라에 의해, 미리 결정된 영역을 통과하는 보행자의 쌍안 화상을 캡처하는 단계; 화상/비디오 처리 ASIC에 의해, 캡처된 보행자의 쌍안 화상을 쌍안 정류하는 단계; 쌍안 정류된 보행자의 쌍안 화상의 디스패리티 맵을 계산하는 단계; 이중 스트림 딥 러닝 뉴럴 네트워크를 트레이닝하는 단계; 및 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크를 통해, 미리 결정된 영역을 통과하는 보행자를 검출하는 단계 중 하나 이상을 수행하게 한다. 이중 스트림 딥 러닝 뉴럴 네트워크는, 보행자의 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 RGB 특징부를 학습하고 보행자의 쌍안 화상으로부터의 디스패리티 맵과 융합하기 위한 뉴럴 네트워크를 포함한다.
소정의 실시예에서, 보행자의 쌍안 화상은, 보행자의 소정의 트레이닝 쌍안 화상, 및 보행자 검출용 쌍안 카메라에 의해 캡처되는 보행자의 소정의 실시간 쌍안 화상을 포함한다. 화상/비디오 처리 ASIC은, 쌍안 카메라의 교정을 수행하고, 보행자의 쌍안 화상을 쌍안 정류하고, 트레이닝 페이즈 동안, 보행자의 트레이닝 쌍안 화상의 디스패리티 맵을 계산하고, 애플리케이션 페이즈 동안 보행자의 실시간 쌍안 화상의 디스패리티 맵을 계산하도록 프로그래밍된다.
소정의 실시예에서, 트레이닝 페이즈는, 1) 보행자의 쌍안 화상의 디스패리티 맵을 사용하여 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 트레이닝하는 단계; 2) RGB 특징부를 학습하고 RGB 특징부와 디스패리티를 융합하기 위한 뉴럴 네트워크를 트레이닝하는 단계로서, RGB 특징부의 학습은 보행자의 좌측 화상에만 기초하는, 단계; 3) 상술한 트레이닝된 뉴럴 네트워크를 적층하여 이중 스트림 딥 러닝 뉴럴 네트워크를 형성하는 단계; 및 4) 형성된 이중 스트림 딥 러닝 뉴럴 네트워크를, 보행자의 쌍안 화상의 디스패리티 맵과 좌측 화상을 이용하여 미세조정하는 단계를 포함한다.
소정의 실시예에서, 애플리케이션 페이즈는, 쌍안 카메라에 의해, 보행자의 실시간 쌍안 화상을 캡처하는 단계; 화상/비디오 처리 ASIC에 의해, 캡처된 보행자의 실시간 쌍안 화상을 쌍안 정류하는 단계; 화상/비디오 처리 ASIC에 의해, 쌍안 정류된 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계; 트레이닝 페이즈 동안 형성된 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 실시간 쌍안 화상의 디스패리티 맵에 연관된 좌측 화상으로부터 보행자를 검출하는 단계; 및 검출 결과에 대하여 비최대 억제(non-maximum suppression) 연산을 수행하여 최종 보행자 검출 결과를 취득하는 단계를 포함한다.
소정의 실시예에서, 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 보행자를 검출하는 프로세스는, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 실시간 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하는 단계; RGB 특징부를 학습하고 이를 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크의 처음 N개의 층을 사용하여 좌측 화상으로부터의 RGB 특징부를 학습하는 단계; 추출된 디스패리티 특징부 및 학습된 RGB 특징부를 다수의 채널을 통해 적층하는 단계; 및 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 최종 M-N개의 층을 사용하여 디스패리티 특징부와 RGB 특징부를 융합하여 최종 보행자 검출 결과를 취득하는 단계를 포함한다. 소정의 실시예에서, N은 양수이고, M은, N보다 큰 양수이고, 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 층들의 총 수이다. 일 실시예에서, N은 7이고, M은 15이다.
일 실시예에서, 쌍안 보행자 검출 시스템은, 출입구를 통과하는 보행자를 내려다보는 쌍안 카메라를 가지고 그 출입구 위에 설치된다. 다른 일 실시예에서, 쌍안 보행자 검출 시스템은, 출입구를 통과하는 보행자를 대면하는 쌍안 카메라를 가지고 그 출입구 위에 미리 결정된 각도로 설치된다.
소정의 실시예에서, 네트워크 인터페이스는 파워-온-이더넷(POE) 네트워크 인터페이스를 포함한다. 쌍안 보행자 검출 시스템으로의 전력 공급은 POE 네트워크 인터페이스에 의해 제공되고, 최종 보행자 검출 결과는, 네트워크 인터페이스와 통신 네트워크를 통해 최종 보행자 검출 결과를 수집하는 서버에 송신된다.
다른 일 양태에서, 본 개시 내용은, 쌍안 보행자 검출 시스템을 이용하여 보행자를 검출하는 방법에 관한 것이다. 소정의 실시예에서, 방법은, 쌍안 보행자 검출 시스템의 쌍안 카메라를 사용하여, 미리 결정된 영역을 통과하는 보행자의 소정의 쌍안 화상을 캡처하는 단계; 쌍안 보행자 검출 시스템의 화상/비디오 처리 ASIC를 통해, 캡처된 보행자의 쌍안 화상을 쌍안 정류하는 단계; 화상/비디오 처리 ASIC를 통해, 쌍안 정류된 보행자의 쌍안 화상의 디스패리티 맵을 계산하는 단계; 보행자의 쌍안 화상의 디스패리티 맵과 좌측 화상을 사용하여 이중 스트림 딥 러닝 뉴럴 네트워크를 트레이닝하는 단계; 및 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크를 통해, 미리 결정된 영역을 통과하는 보행자를 검출하는 단계를 포함한다.
소정의 실시예에서, 이중 스트림 딥 러닝 뉴럴 네트워크는, 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 RGB 특징부를 학습하고 이를 쌍안 화상으로부터의 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크를 포함한다.
소정의 실시예에서, 쌍안 보행자 검출 시스템은, 쌍안 카메라, 화상/비디오 처리 주문형 집적회로(ASIC), 및 쌍안 보행자 검출 시스템 제어기를 포함한다. 쌍안 카메라는, 미리 결정된 영역을 통과하는 보행자의 소정 개수의 쌍안 화상을 캡처하도록 제1 카메라 및 제2 카메라를 갖는다. 제1 카메라는, 제1 렌즈, 및 제1 렌즈를 통해 좌측 화상을 캡처하기 위한 제1 CMOS 센서를 포함한다. 제2 카메라는, 제2 렌즈, 및 제2 렌즈를 통해 우측 화상을 캡처하기 위한 제2 CMOS 센서를 포함한다. 좌측 화상과 우측 화상은 쌍안 화상을 형성한다. 화상/비디오 처리 ASIC은, 쌍안 카메라에 의해 캡처되는 보행자의 쌍안 화상을 전처리한다. 쌍안 보행자 검출 시스템 제어기는, 프로세서, 네트워크 인터페이스, 및 운영 체제와 컴퓨터 실행가능 명령어를 저장하는 메모리를 포함한다. 컴퓨터 실행가능 명령어가 프로세서에서 실행되는 경우, 컴퓨터 실행가능 명령어는, 프로세서로 하여금, 상술한 방법의 하나 이상의 단계를 수행하게 한다.
소정의 실시예에서, 보행자의 쌍안 화상은, 보행자의 소정의 트레이닝 쌍안 화상, 및 보행자 검출용 쌍안 카메라에 의해 캡처되는 보행자의 소정의 실시간 쌍안 화상을 포함한다. 화상/비디오 처리 ASIC은, 쌍안 카메라의 교정을 수행하고, 보행자의 쌍안 화상을 쌍안 정류하고, 트레이닝 페이즈 동안 보행자의 트레이닝 쌍안 화상의 디스패리티 맵을 계산하고, 애플리케이션 페이즈 동안 보행자의 실시간 쌍안 화상의 디스패리티 맵을 계산하도록 프로그래밍된다.
소정의 실시예에서, 트레이닝 페이즈는, 보행자의 쌍안 화상의 디스패리티 맵을 사용하여 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 트레이닝하는 단계; RGB 특징부를 학습하고 이를 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크를 트레이닝하는 단계로서, RGB 특징부의 학습은 보행자의 좌측 화상에만 기초하는, 단계; 상술한 트레이닝된 뉴럴 네트워크를 적층하여 이중 스트림 딥 러닝 뉴럴 네트워크를 형성하는 단계; 및 형성된 이중 스트림 딥 러닝 뉴럴 네트워크를, 보행자의 쌍안 화상의 디스패리티 맵과 좌측 화상을 이용하여 미세조정하는 단계를 포함한다.
소정의 실시예에서, 애플리케이션 페이즈는, 쌍안 카메라에 의해, 보행자의 실시간 쌍안 화상을 캡처하는 단계; 화상/비디오 처리 ASIC에 의해, 캡처된 보행자의 실시간 쌍안 화상을 쌍안 정류하는 단계; 화상/비디오 처리 ASIC에 의해, 쌍안 정류된 보행자의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계; 트레이닝 페이즈 동안 형성된 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 실시간 쌍안 화상의 디스패리티 맵과 함께 좌측 화상으로부터 보행자를 검출하는 단계; 및 검출 결과에 대하여 비최대 억제 연산을 수행하여 최종 보행자 검출 결과를 취득하는 단계를 포함한다.
소정의 실시예에서, 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 보행자를 검출하는 프로세스는, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 보행자의 실시간 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하는 단계; RGB 특징부를 학습하고 이를 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크의 처음 N개의 층을 사용하여 보행자의 좌측 화상으로부터 RGB 특징부를 학습하는 단계; 추출된 디스패리티 특징부 및 학습된 RGB 특징부를 다수의 채널을 통해 적층하는 단계; 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 최종 M-N개의 층을 사용하여 디스패리티 특징부와 RGB 특징부를 융합하여 최종 보행자 검출 결과를 취득하는 단계를 포함한다. 소정의 실시예에서, N은 양수이고, M은, N보다 큰 양수이고, 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 층들의 총 수이다. 일 실시예에서, N은 7이고, M은 15이다.
일 실시예에서, 쌍안 보행자 검출 시스템은, 출입구를 통과하는 보행자를 내려다보는 쌍안 카메라를 가지고 그 출입구 위에 설치된다. 다른 일 실시예에서, 쌍안 보행자 검출 시스템은, 출입구를 통과하는 보행자를 대면하는 쌍안 카메라를 가지고 그 출입구 위에 미리 결정된 각도로 설치된다.
소정의 실시예에서, 네트워크 인터페이스는 파워-온-이더넷(POE) 네트워크 인터페이스를 포함한다. 쌍안 보행자 검출 시스템으로의 전력 공급은 POE 네트워크 인터페이스에 의해 제공되고, 최종 보행자 검출 결과는, 네트워크 인터페이스와 통신 네트워크를 통해 최종 보행자 검출 결과를 수집하는 서버에 송신된다.
본 개시 내용의 이들 양태 및 기타 양태는, 다음에 따르는 도면과 함께 다음에 따르는 바람직한 실시예의 설명으로부터 명백해질 것이지만, 본 개시 내용의 신규한 개념의 사상과 범위로부터 벗어나지 않고서 변형 및 수정을 행할 수 있다.
첨부 도면은 본 개시 내용의 하나 이상의 실시예를 예시하며, 본 개시 내용의 특징부와 이점은, 서술된 설명과 함께, 본 개시 내용명의 원리를 설명하는 역할을 한다. 가능하다면, 실시예의 동일한 또는 유사한 요소를 가리키도록 도면 전체에 걸쳐 동일한 참조 번호가 사용된다.
도 1은 본 개시 내용의 소정의 실시예에 따라 이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템의 블록도를 도시한다.
도 2는 본 개시 내용의 소정의 실시예에 따라 쌍안 보행자 검출 시스템의 저면도를 도시한다.
도 3은 본 개시 내용의 소정의 실시예에 따라 출입구 내외로 출입하는 보행자를 검출하도록 출입구 위에 설치된 쌍안 보행자 검출 시스템을 도시한다.
도 4는 본 개시 내용의 소정의 실시예에 따라 출입구를 내려다보도록 출입구 위에 설치된 쌍안 보행자 검출 시스템을 도시한다.
도 5는 본 개시 내용의 소정의 실시예에 따라 보행자를 대면하도록 출입구 위에 경사진 각도로 설치된 쌍안 보행자 검출 시스템을 도시한다.
도 6은 본 개시 내용의 소정의 실시예에 따라 이중 스트림 딥 러닝 뉴럴 네트워크의 학습 페이즈와 애플리케이션 페이즈의 블록도를 도시한다.
도 7은 본 개시 내용의 소정의 실시예에 따라 이중 스트림 딥 러닝 뉴럴 네트워크를 이용하여 보행자를 검출하는 단계를 상세하게 도시한다.
도 8은 본 개시 내용의 소정의 실시예에 따라 이중 스트림 딥 러닝 뉴럴 네트워크 도면을 사용하여 싱글 샷 멀티박스 검출기(SSD) 기반 뉴럴 네트워크를 도시한다.
도 9는 본 개시 내용의 소정의 실시예에 따라 도 8에 도시한 이중 스트림 딥 러닝 뉴럴 네트워크 도면을 사용하여 SSD 뉴럴 네트워크로부터의 일부 검출 브랜치를 도시한다.
본 개시 내용은, 본 개시 내용 내에서의 많은 수정과 변형이 통상의 기술자에게 명백하므로, 단지 예시적으로 의도된 다음에 따르는 예에서 더욱 구체적으로 설명한다. 이제, 본 개시 내용의 다양한 실시예를 상세히 설명한다. 도면을 참조하면, 같은 번호는, 존재한다면, 도면 전체에 걸쳐 동일한 구성요소를 나타낸다. 본 명세서의 설명 및 하기의 청구범위 전체에 걸쳐 사용되는 바와 같이, "한", "하나", 및 "그"의 의미는, 문맥을 명백하게 달리 지시하지 않는 한, 복수의 참조를 포함한다. 또한, 본 명세서의 설명 및 하기의 청구범위 전체에 걸쳐 사용되는 바와 같이, "내"(in)의 의미는, 문맥을 명백하게 달리 지시하지 않는 한, "내" 및 "상"(on)을 포함한다. 또한, 독자의 편의를 위해 본 명세서에서 제목 또는 부제를 사용할 수 있으며, 이는 본 개시 내용의 범위에 영향을 미치지 않는다. 또한, 본 명세서에서 사용된 일부 용어는 아래에서 더욱 구체적으로 정의된다.
본 명세서에서 사용된 용어는, 일반적으로 당업계에서 본 개시 내용의 문맥 내에서 그리고 각 용어가 사용되는 특정 상황에서 통상적인 의미를 갖는다. 개시 내용을 설명하는 데 사용되는 소정의 용어는, 본 개시 내용의 설명에 관하여 실무자에게 추가 지침을 제공하도록 이하에서 설명되거나 본 명세서의 다른 곳에서 설명된다. 편의상, 예를 들어, 이탤릭체 및/또는 인용 부호를 사용하여 소정의 용어를 강조할 수 있다. 강조 표시의 사용은 용어의 범위와 의미에 영향을 미치지 않으며, 용어의 범위와 의미는, 강조 표시되는지 여부와 상관없이, 동일한 문맥에서 동일하다. 동일한 것을 하나보다 많은 방식으로 말할 수 있다는 점을 이해할 것이다. 따라서, 본원에서 설명하는 용어들 중 임의의 하나 이상에 대해 대체 언어 및 동의어를 사용할 수 있으며, 용어가 정교화되었는지 또는 본원에서 설명되는지에 대한 특별한 의미는 없다. 소정의 용어에 대한 동의어가 제공된다. 하나 이상의 동의어에 대한 설명은 다른 동의어의 사용을 배제하지 않는다. 본원에서 설명하는 임의의 용어의 예를 포함하여 명세서의 어디에서나 예를 사용하는 것은, 예시일 뿐이며, 본 개시 내용 또는 예시된 임의의 용어의 범위 및 의미를 결코 한정하지 않는다. 마찬가지로, 본 개시 내용은 본 명세서에 주어진 다양한 실시예로 한정되지 않는다.
달리 정의하는 않는 한, 본원에서 사용되는 모든 기술 용어와 과학 용어는, 본 개시 내용에 속하는 통상의 기술자가 일반적으로 이해하는 의미와 동일한 의미를 갖는다. 충돌이 발생하는 경우, 정의를 포함한 본원이 우선한다.
본원에서 사용되는 바와 같이, "쯤", "약", 또는 "대략"은, 일반적으로 주어진 값 또는 범위의 20% 이내, 바람직하게는 10%, 더욱 바람직하게는 5% 이내를 의미한다. 본원에서 주어지는 수량은, 대략적인 것으로서, 명백하게 언급되지 않으면 "쯤", "약", 또는 "대략"을 추론할 수 있음을 의미한다.
본원에서 사용되는 바와 같이, "복수"는 두 개 이상을 의미한다.
본원에서 사용되는 바와 같이, "포함하는"(comprising), "포함하는"(including), "반송하는", "갖는", "함유하는", "포함하는"(involving) 등의 용어는, 개방형으로 이해해야 하며, 즉, 해당 대상으로 한정되지 않으며 그 대상을 포함하는 것을 의미한다.
본원에서 사용되는 바와 같이, A, B, C 중 적어도 하나라는 문구는, 비배타적 논리 OR을 사용하는 논리(A 또는 B 또는 C)를 의미하는 것으로 해석해야 한다. 방법 내의 하나 이상의 단계는 본 개시 내용의 원리를 변경하지 않고서 상이한 순서로(또는 동시에) 연장될 수 있음을 이해해야 한다.
본원에서 사용되는 바와 같이, 모듈이라는 용어는, 주문형 집적 회로(ASIC), 전자 회로, 조합형 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA), 코드를 실행하는 프로세서(공유형, 전용, 또는 그룹형), 설명되는 기능을 제공하는 다른 적절한 하드웨어 구성요소, 또는 시스템-온-칩에서와 같이 이러한 예들 중 일부 또는 전부의 조합, 또는 이들의 일부를 가리킬 수 있고, 또는 이들을 포함할 수 있다. 모듈이라는 용어는, 프로세서에 의해 실행되는 코드를 저장하는 메모리(공유형, 전용, 또는 그룹형)를 포함할 수 있다.
위에서 사용된 바와 같은 코드라는 용어는, 소프트웨어, 펌웨어, 및/또는 마이크로코드를 포함할 수 있으며, 프로그램, 루틴, 함수, 클래스, 및/또는 객체를 가리킬 수 있다. 위에서 사용된 바와 같은 공유라는 용어는, 다수의 모듈로부터의 일부 코드 또는 모든 코드가 단일 (공유형) 프로세서를 사용하여 실행될 수 있음을 의미한다. 또한, 다수의 모듈로부터의 일부 코드 또는 모든 코드는 단일 (공유형) 메모리에 의해 저장될 수 있다. 위에서 사용된 바와 같은 그룹이라는 용어는, 단일 모듈로부터의 일부 코드 또는 모든 코드가 프로세서들의 그룹을 사용하여 실행될 수 있음을 의미한다. 또한, 단일 모듈로부터의 일부 코드 또는 모든 코드는 메모리들의 그룹을 사용하여 저장될 수 있다.
본원에서 설명하는 장치 및 방법은 하나 이상의 프로세서에 의해 실행되는 하나 이상의 컴퓨터 프로그램에 의해 구현될 수 있다. 컴퓨터 프로그램은 비일시적 유형(non-transitory tangible)의 컴퓨터 판독가능 매체 상에 저장되는 프로세서 실행가능 명령어를 포함한다. 컴퓨터 프로그램은, 또한, 저장된 데이터를 포함할 수 있다. 비일시적 유형의 컴퓨터 판독가능 매체의 비제한적인 예들은 비휘발성 메모리, 자기 저장 장치, 및 광학 저장 장치이다.
이하, 첨부 도면인 본 개시 내용의 실시예들이 도시되어 있는 도 1 내지 도 9를 참조하여 본 개시 내용을 더욱 상세히 설명한다. 그러나, 본 개시 내용은, 다른 많은 형태로 구체화될 수 있으며 본 명세서에 설명된 실시예로 한정되는 것으로 해석해서는 안 되며; 오히려, 이러한 실시예들은, 본 개시 내용이 철저하고 완전하게 이루어지도록 제공된 것이며, 본 개시 내용의 범위를 통상의 기술자에게 완전히 전달할 것이다. 동일한 번호는 전체에 걸쳐 동일한 요소를 가리킨다.
일 양태에서, 본 개시 내용은 도 1에 도시된 바와 같은 쌍안 보행자 검출 시스템(100)에 관한 것이다. 소정의 실시예에서, 쌍안 보행자 검출 시스템(100)은, 쌍안 카메라(110), 화상/비디오 처리 주문형 집적 회로(ASIC)(120), 및 쌍안 보행자 검출 시스템 제어기(130)를 포함한다. 도 1 및 도 3에 도시된 바와 같이, 쌍안 카메라(110)는, 미리 결정된 영역을 통과하는 보행자(303)의 일련의 쌍안 화상을 캡처하기 위한 제1 카메라(111)와 제2 카메라(112)를 구비한다. 제1 카메라(111)는, 제1 렌즈(1111), 및 제1 렌즈(1111)를 통해 좌측 화상을 캡처하기 위한 제1 CMOS 센서(1112)를 포함한다. 제2 카메라(112)는, 제2 렌즈(1121), 및 제2 렌즈(1121)를 통해 우측 화상을 캡처하기 위한 제2 CMOS 센서(1122)를 포함한다. 좌측 화상과 우측 화상은 쌍안 화상을 형성한다.
소정의 실시예에서, 쌍안 보행자 검출 시스템(100)은 도 3에 도시된 바와 같이 출입구(302) 위의 폐쇄 영역에 설치된다. 폐쇄 영역은 벽(301)을 포함하고, 출입구(302)는 좌측 도어(3021)와 우측 도어(3022)를 포함한다. 제1 도어(3021) 및/또는 제2 도어가 개방될 때, 보행자(303)는 폐쇄 영역으로 진입하거나 폐쇄 영역으로부터 퇴장할 수 있다.
소정의 실시예에서, 폐쇄 영역의 내외로 걷는 보행자를 카운트하기 위해서는, 보행자를 정확하게 카운트하도록 적어도 하나의 쌍안 보행자 검출 시스템(100)이 설치되어야 한다.
일 실시예에서, 보행자(303)의 쌍안 화상은 비디오 형태로 캡처된다. 다른 일 실시예에서, 보행자(303)의 쌍안 화상은 쌍안 카메라(110)를 통해 캡처된 비디오로부터 샘플링된 정지 화상에 캡처된다. 소정의 실시예에서, 쌍안 비디오의 샘플링 레이트는 20프레임/초(fps) 내지 25fps이다. 화상/비디오 처리 ASIC(120) 및 프로세서(131)의 속도에 따라, 쌍안 비디오의 샘플링 레이트는, 이동 통신 네트워크 플랫폼을 사용하여 320×240 픽셀의 화상 해상도에서 10fps 내지 14fps로 감소될 수 있다.
소정의 실시예에서, 폐쇄 영역이 한 개보다 많은 도어를 포함하는 경우, 적어도 하나의 쌍안 보행자 검출 시스템(100)이 각 도어의 위에 설치되어야 한다.
소정의 실시예에서, 도어가 비정상적으로 넓거나 상점 정면에 벽(301)이 없는 경우, 보행자를 정확하게 카운트하기 위해 하나보다 많은 쌍안 보행자 검출 시스템(100)이 출입구 위에 설치될 수 있다.
일 실시예에서, 도 4에 도시된 바와 같이, 쌍안 보행자 검출 시스템(100)은, 진입로의 바로 위, 보행자(303)의 바로 위, 및 벽(301)으로부터 미리 결정된 거리, 예를 들어, 벽(301)으로부터 60cm 내지 80cm 거리에 설치될 수 있다. 이러한 설치에 따르면, 쌍안 보행자 검출 시스템(100)에 의해 캡처된 화상이 평평할 수 있고, 그림자와 발자국으로 인해 보행자 검출이 실패할 수 있고, 보행자 검출의 정확성이 이상적이지 않을 수 있다.
다른 일 실시예에서, 도 5에 도시된 바와 같이, 쌍안 보행자 검출 시스템(100)은 진입로와 보행자(300)의 위에 및 벽(301)으로부터 미리 결정된 거리, 예를 들어, 벽(301)으로부터 60cm 내지 80cm 거리에 미리 결정된 각도로 설치될 수 있다. 이러한 설치에 따르면, 쌍안 보행자 검출 시스템(100)에 의해 캡처된 화상이 더욱 현실적일 수 있으며, 그림자와 발자국을 캡처된 화상과 구별할 수 있고, 보행자 검출의 정확성이 개선될 수 있다.
다시 도 1을 참조해 불 때, 소정의 실시예에서, 화상/비디오 처리 ASIC(120)은 쌍안 카메라(110)에 의해 캡처된 보행자(303)의 쌍안 화상을 전처리한다. 화상/비디오 처리 ASIC(120)은 전용 그래픽 렌더링 연산을 행하도록 설계된 그래픽 처리 유닛(GPU)을 포함할 수 있다. 전처리는, 특히, 쌍안 카메라 교정, 트레이닝 쌍안 화상의 쌍안 정류, 보행자 검출을 위한 실시간 쌍안 화상의 쌍안 정류, 및 디스패리티 맵의 계산을 포함한다. 쌍안 보행자 검출 시스템 제어기(130)는, 프로세서(131), 네트워크 인터페이스(132), 및 운영 체제(1333)와 컴퓨터 실행가능 명령어(1334)를 저장하는 메모리(133)를 포함한다. 프로세서(131)는, 싱글코어 프로세서, 멀티코어 프로세서, 공유형 프로세서, 전용 프로세서, 프로세서들의 그룹, 및 인공 지능 관련 연산을 다루도록 설계된 인공 지능(AI) 프로세서를 포함할 수 있다.
운영 체제(1333), 컴퓨터 실행가능 명령어(1334), 및 이중 스트림 딥 러닝 뉴럴 네트워크의 동작에 사용되는 많은 파라미터는, 비휘발성 솔리드 스테이트 드라이브(SSD) 장치(1332)에 저장된다. 컴퓨터 실행가능 명령어(1334)가 프로세서(131)에서 실행되는 경우, 컴퓨터 실행가능 명령어(1334)는, 하나 이상의 DDR RAM 장치(1331)에 로딩되고, 미리 결정된 영역을 통과하는 보행자(303)의 쌍안 화상을 쌍안 카메라(110)에 의해 캡처하는 것, 캡처된 보행자(303)의 쌍안 화상을 화상/비디오 처리 ASIC(120)에 의해 쌍안 정류하는 것, 쌍안 정류된 보행자(303)의 쌍안 화상의 디스패리티 맵을 계산하는 것, 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 트레이닝하는 것, 및 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 통해 미리 결정된 영역을 통과하는 보행자(303)를 검출하는 것 중 하나 이상을 프로세서(131)가 수행하게 한다.
이제 도 6을 참조해 보면, 본 개시 내용의 소정의 실시예에 따라 이중 스트림 딥 러닝 뉴럴 네트워크의 트레이닝 페이즈와 애플리케이션 페이즈의 블록도가 도시되어 있다. 소정의 실시예에서, 쌍안 카메라(110)는, 도 6의 박스(601)에 도시된 바와 같이 쌍안 카메라(110)의 일관성과 정확성을 증가시키도록 교정될 수 있다. 쌍안 카메라 교정은, 쌍안 카메라(110)가 특정된 크기의 객체를 상이한 각도로부터 촬상할 수 있게 하고, 쌍안경 카메라(110)의 내부 파라미터 및 외부 파라미터를 계산한다.
일 실시예에서, 교정의 특정 단계는, (a) 쌍안 카메라(110)를 사용하여 12×12 흑색-백색 체커보드를 만들어 상이한 각도로부터의 체커보드의 15장의 사진을 촬상한다. 체커보드는, 쌍안 카메라(110)의 제1 카메라(111)와 제2 카메라(112)의 시점에 동시에 존재해야 하며, 교정의 특정 단계는, 교정 동안 전술한 캡처된 15장의 사진에 따라 (b) MATLAB의 교정 키트 toolbox_calib를 사용한 카메라의 교정을 포함한다. 다음에 따르는 제1 카메라(111)와 제2 카메라(112)의 파라미터들은 교정을 통해 취득된다.
좌측 x 방향 초점거리:
Figure pat00001
;
좌측 y 방향 초점거리:
Figure pat00002
;
우측 x 방향 초점거리:
Figure pat00003
;
우측 y 방향 초점거리:
Figure pat00004
;
좌측 카메라 화상 중심 좌표:
Figure pat00005
Figure pat00006
;
우측 카메라 화상 중심 좌표:
Figure pat00007
Figure pat00008
;
제1 카메라 왜곡 파라미터:
Figure pat00009
;
제2 카메라 왜곡 파라미터:
Figure pat00010
;
제1 카메라(111)와 제2 카메라(112) 간의 회전 매트릭스: R; 및
시프트 벡터 T.
이들 카메라 파라미터는, 쌍안 카메라(110)에 의해 캡처되는 보행자의 쌍안 화상의 쌍안 정류를 수행하는 데 사용된다. 소정의 실시예에서, 쌍안 카메라(110)는, 제1 카메라(111)에 의해 제1 화상(I1)을 캡처하고 제2 카메라(112)에 의해 제2 화상(I2)을 캡처한다. 이들 두 개의 쌍안 화상(I1 및 I2)은, stereoRectify , initUndistortRectifyMap, remap를 포함하는 정류 함수를 사용함으로써 그리고 전술한 쌍안 교정을 통해 취득되는 파라미터(
Figure pat00011
,
Figure pat00012
,
Figure pat00013
,
Figure pat00014
,
Figure pat00015
,
Figure pat00016
,
Figure pat00017
,
Figure pat00018
,
Figure pat00019
,
Figure pat00020
, R, T)를 사용함으로써 쌍안 정류된다.
소정의 실시예에서, 사용된 함수는 이하를 포함한다.
Figure pat00021
Figure pat00022
여기서, left_src는 제1 화상(I1)이고, right_src는 제2 화상(I2)이고, left_dst는 정류된 제1 화상(
Figure pat00023
)이고, right_dst는 정류된 제2 화상(
Figure pat00024
)이다.
정류된 쌍안 화상(
Figure pat00025
Figure pat00026
)은 트레이닝 페이즈(601) 및 애플리케이션 페이즈(620)에 공급될 수 있다.
소정의 실시예에서, 이중 스트림 딥 러닝 뉴럴 네트워크(625)는, 보행자(303)의 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 RGB 특징부를 학습하고 이를 보행자(303)의 쌍안 화상으로부터의 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크를 포함한다. 소정의 실시예에서, 특징부를 학습하고 융합하기 위한 뉴럴 네트워크는 M개 층을 포함하고, 여기서, M은, 양수이고, 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 층들의 총 수이다.
소정의 실시예에서, 보행자(303)의 쌍안 화상은, 보행자(303)의 소정의 트레이닝 쌍안 화상, 및 보행자 검출용 쌍안 카메라(110)에 의해 캡처되는 보행자(303)의 소정의 실시간 쌍안 화상을 포함한다. 화상/비디오 처리 ASIC(120)은, 쌍안 카메라(110)의 교정을 수행하는 단계; 보행자(303)의 쌍안 화상을 쌍안 정류하는 단계; 트레이닝 페이즈(610) 동안 보행자(303)의 트레이닝 쌍안 화상의 디스패리티 맵을 계산하는 단계; 및 애플리케이션 페이즈(620) 동안 보행자(303)의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계 중 하나 이상을 수행하도록 프로그래밍된다.
소정의 실시예에서, 트레이닝 페이즈(610)에서, 쌍안 카메라(110)로부터의 보행자(303)의 트레이닝 쌍안 화상은, 보행자(303)의 트레이닝 쌍안 화상을 쌍안 정류하기 위한 박스(611)로 향한다. 보행자(303)의 정류된 트레이닝 쌍안 화상은, 박스(613) 내의 보행자(303)의 이러한 트레이닝 쌍안 화상의 디스패리티 맵을 계산하는 데 사용된다.
정류된 쌍안 화상(
Figure pat00027
Figure pat00028
)의 디스패리티 맵(d)은, 표준 세미-글로벌 블록-매칭(SGBM) 알고리즘을 사용함으로써 생성된다. 디스패리티 맵(d)은 0 내지 255의 픽셀 값을 갖는 그레이-스케일 화상이다.
디스패리티 맵(d)은, 제1(좌측) 위치와 제2(우측) 위치 간에 화상 상의 각 포인트에 대한 편차량을 기록한다. 예를 들어, 제1(좌측) 화상에서 라인 i의 컬럼 j에 해당하는 위치(
Figure pat00029
)에 대하여, 이 포인트는, 일치 검색을 통해 우측 화상에서 발견되어 나타나며(
Figure pat00030
), 이에 따라 Δj가 디스패리티 맵(d(i,j))의 값이다. 더 멀리 있는 객체에 대해서는, 제1 화상과 제2 화상의 위치 편차 Δj가 작을 것이다. 가까이 있는 객체에 대해서는, 제1 화상과 제2 화상의 위치 편차 Δj가 클 것이다. 따라서, 디스패리티 맵(d)은, 쌍안 카메라(110)의 제1 카메라(111)와 제2 카메라(112)의 각각으로부터의 객체의 상대 거리를 반영한다.
소정의 실시예에서, 이어서, 보행자(303)의 쌍안 화상의 계산된 디스패리티 맵을, 보행자(303)의 이들 트레이닝 쌍안 화상의 디스패리티 맵의 디스패리티 특징부를 추출하도록 박스(615)에서 사용한다. 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크의 트레이닝 후에, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크의 트레이닝의 출력은, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크를 트레이닝하도록 박스(617)에 공급된다. 일단 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크와 특징부를 학습 및 융합하기 위한 뉴럴 네트워크가 트레이닝되었다면, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크와 특징부를 학습 및 융합하기 위한 뉴럴 네트워크를 결합하여, 박스(619)에서의 이중 스트림 딥 러닝 뉴럴 네트워크의 형성과 트레이닝에 사용한다. 박스(619)의 출력은, 애플리케이션 페이즈(620)에 있어서 보행자(303)를 검출하는 데 사용될 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 형성한다.
소정의 실시예에서, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크의 아키텍처는, 도 8에 도시된 바와 같은 싱글 샷 멀티박스 검출기(SSD)를 참조한다. 일 실시예에서, SSD의 백본은 23개의 층으로 이루어지고, 각 층은, 컨볼루션(convolution) 연산, 비선형 활성화, 및 풀링 연산을 포함하고, 이들 연산은, 23개 층의 각각을 따라 도 8에 도시된 등식에 따라 수행된다.
도 8에 도시된 바와 같이, 이러한 23개의 층은 서로 순차적으로 접속된다. 비선형 활성화는 f(x)=max(0, x)로서 정의된 ReLU 활성화 함수를 취한다. 풀링 연산은 최대값(최대 풀링)으로 수행되며, 이는 각 픽셀이 해당 픽셀의 이웃 픽셀들의 최대값에 의해 대체됨을 의미한다.
소정의 실시예에서, conv은 컨볼루션 연산을 나타내고, pool은 풀링 연산을 나타내고, k x k는 풀링 커널 또는 컨볼루션 커널의 크기를 나타내고, p는 특징부 그래프의 에지의 픽셀(패딩)의 수를 나타내고, s는 컨볼루션 커널의 스텝 크기(스트라이드)를 나타내고, c는 컨볼루션 커널 순회(채널)를 나타낸다.
소정의 실시예에서, 도 8에 도시된 바와 같이, 검출 브랜치(11)(DB #1), 검출 브랜치(21)(DB #2), 검출 브랜치(31)(DB #3), 검출 브랜치(41)(DB #4), 검출 브랜치(51)(DB #5), 및 검출 브랜치(61)(DB #6)는, 제10 층, 제15 층, 제17 층, 제19 층, 제21 층, 및 제23 층에 각각 형성된다. 검출 브랜치 각각은 두 개의 컨볼루션 연산 후에 형성된다. 도 9에 도시된 바와 같이, 제1 컨볼루션은 보행자 위치 특징부 맵을 초래하고, 제2 컨볼루션은 해당하는 스코어링 특징부 맵을 초래한다. 위치 특징부 맵에서의 각 픽셀 위치(x, y)에 대한 4*k 값은, k개의 예측 직사각형 위치의 상부좌측 코너의 좌표, 길이, 및 폭을 나타낸다. 위치 특징부 맵에서의 각 픽셀 위치(x, y)에 대한 2*k 값은, k개의 예측 위치의 "보행자" 및 "배경"에 대응하는 k개의 예측 스코어링을 나타낸다. 검출 브랜치(DB #1, DB #2, DB #3, DB #4, DB #5, 및 DB #6)의 각각에 의해 취득되는 보행자 검출 결과는, 도 8에 도시된 바와 같이, 최종 보행자 검출 결과를 취득하도록 결합된다.
소정의 실시예에서, SSD의 검출 브랜치의 카테고리의 수는, 2로 설정되며, 즉, "보행자" 카테고리와 "배경" 카테고리로만 설정된다. 쌍안 화상 프레임(
Figure pat00031
)의 많은 수 N은 쌍안 비디오로부터 샘플링된다. 트레이닝에 대하여, N은 쌍안 화상 프레임의 총 수이다. 정류 연산 후에, 정류된 쌍안 화상(
Figure pat00032
)이 취득된다. 정류된 쌍안 화상(
Figure pat00033
)을 처리한 후, 이들 쌍안 화상(
Figure pat00034
)의 쌍안 디스패리티 맵(
Figure pat00035
)을 계산한다. 각각의 쌍안 화상 프레임에 대하여, 모든 보행자 경계 박스(경계 박스)를 좌측 화상에서 수동으로 마킹한다. 각 경계 박스는, 상부좌측 코너의 좌표, 길이, 및 폭에 의해 표시된다.
트레이닝 동안, 이들 쌍안 화상(
Figure pat00036
)의 쌍안 디스패리티 맵(
Figure pat00037
)은 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크로의 입력인 한편, 보행자 경계 박스 정보는 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크의 출력이다. 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크는, 역 전파 및 경사 하강법(back propagation and the gradient descent method)을 사용하여 트레이닝된다. 트레이닝의 종료시, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크의 처음 7개의 층만이 디스패리티 특징부 추출을 위해 유지되며, 나머지 층들은 폐기된다. 마지막으로, 디스패리티 맵이 입력되는 경우, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크는 초기 디스패리티 맵의 1/8 해상도를 갖는 특징부 맵을 생성한다.
소정의 실시예에서, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 아키텍처도, 유사한 파라미터와 식을 사용하는 도 8에 도시된 바와 같은 싱글 샷 멀티박스 검출기(SSD)를 참조한다. 소정의 실시예에서, SSD의 검출 브랜치의 카테고리의 수도, 2로 설정되며, 즉, "보행자" 카테고리와 "배경" 카테고리만으로 설정된다. 정류된 좌측 화상 프레임(
Figure pat00038
)은 특징부를 학습 및 융합하기 위한 뉴럴 네트워크로의 입력이고, 좌측 화상의 보행자 경계 박스 정보는 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 출력으로서 사용된다. 특징부를 학습 및 융합하기 위한 뉴럴 네트워크도 역 전파 및 경사 하강법에 의해 트레이닝된다.
소정의 실시예에서, 도 7의 박스(619)에 도시된 바와 같이, 이중 스트림 딥 러닝 뉴럴 네트워크는, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 추출되는 디스패리티 특징부와 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 제7 층에 의해 학습되는 RGB 특징부를 결합함으로써, 형성되고 트레이닝된다. 이들 특징부는, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 후속 구조에 따라 순전파(forward propagation)로 연결(concatenate)되고 연속된다.
소정의 실시예에서, 애플리케이션 페이즈(620)에 있어서, 보행자(303)의 실시간 쌍안 화상은 교정된 쌍안 카메라(110)로부터 수신되고, 보행자(303)의 이러한 쌍안 화상은 박스(621)에서 쌍안 정류된다. 보행자(303)의 정류된 실시간 쌍안 화상은 박스(623)에서 보행자(303)의 이러한 실시간 쌍안 화상의 디스패리티 맵을 계산하는 데 사용된다. 박스(619)에서 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크는 보행자(303)를 검출하도록 박스(625)에서 사용된다. 박스(625)로부터의 보행자 검출 출력은 비최대 억제 연산을 수행하도록 박스(627)에서 사용된다. 최종 보행자 검출 결과는, 박스(625)의 출력에 대하여 비최대 억제 연산이 수행된 후에 박스(629)에서 취득된다.
이제 도 7을 참조해 보면, 본 개시 내용의 소정의 실시예에 따라 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 보행자를 검출하는 상세 동작이 도시되어 있다. 보행자(303)의 입력 쌍안 화상은 두 개의 개별적인 스트림인 제1 스트림과 제2 스트림에 관한 것이다. 제1 스트림은 박스(62511)와 박스(62513)를 포함하고, 이 스트림은 보행자(303)의 쌍안 화상의 디스패리티 특징부를 추출하는 데 사용된다. 제2 스트림은 박스(62521)와 박스(62523)를 포함하고, 이 스트림은 보행자(303)의 좌측 화상의 RGB 특징부를 학습하는 데 사용된다. 제1 스트림에 있어서, 박스(62511)에서는, 보행자(303)의 입력 쌍안 화상의 디스패리티 맵이 수신된다. 보행자(303)의 쌍안 화상의 수신된 디스패리티 맵은, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 디스패리티 특징부를 추출하도록 박스(62513)에서 사용된다. 제2 스트림에 있어서, 박스(62521)에서는, 보행자(303)의 쌍안 정류된 좌측 화상이 수신된다. 보행자(303)의 수신된 쌍안 정류된 좌측 화상은, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 처음 N개의 층을 사용하여 RGB 특징부를 학습하도록 박스(62523)에서 사용되며, 여기서, N은 양수이고, N<M이다.
소정의 실시예에서, 박스(62513)로부터의 추출된 디스패리티 특징부 및 박스(62523)로부터의 학습된 RGB 특징부는 박스(62525)에서 채널을 통해 적층된다. 적층된 디스패리티 특징부와 RGB 특징부는, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 남아 있는 M-N개의 층에 전송된다. 최종 보행자 검출 결과는, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 제M 층의 출력이다. 일 실시예에서, M은 15이고, N은 7이다.
소정의 실시예에서, 네트워크 인터페이스(132)는 파워-온-이더넷(POE) 네트워크 인터페이스이다. 쌍안 보행자 검출 시스템(100)으로의 전력 공급은 POE 네트워크 인터페이스에 의해 제공되고, 최종 보행자 검출 결과는, 도 1에 도시된 바와 같이 네트워크 인터페이스(132)와 통신 네트워크(140)를 통해 최종 보행자 검출 결과를 수집하는 서버에 송신된다.
소정의 실시예에서, 일단 이중 스트림 딥 러닝 뉴럴 네트워크(625)가 형성되고 적절히 트레이닝되었다면, 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 사용하여 보행자를 검출할 수 있다.
실제 보행자 검출 애플리케이션에 있어서, 쌍안 RGB 화상(
Figure pat00039
)은 쌍안 카메라(110)에 의해 캡처된다. 이어서, 캡처된 쌍안 RGB 화상(
Figure pat00040
)을 정류하여 정류된 쌍안 화상(
Figure pat00041
)을 취득한다. 정류된 쌍안 화상(
Figure pat00042
)을 사용하여 쌍안 디스패리티 맵(d)을 계산한다. 쌍안 디스패리티 맵(d)은 디스패리티 특징부를 추출하도록 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크에 의해 사용되고, 정류된 좌측 화상(
Figure pat00043
)은 처음 N개의 층을 사용하여 RGB 특징부를 학습하도록 특징부를 학습 및 융합하기 위한 뉴럴 네트워크에 의해 사용된다. 추출된 디스패리티 특징부와 학습된 RGB 특징부는 채널을 통해 적층된다. 이어서, 적층된 특징부를, 특징부를 학습 및 융합하기 위한 뉴럴 네트워크의 남아 있는 M-N개의 층에 전송하여 보행자 검출 결과를 얻는다. 보행자 경계 박스 정보(
Figure pat00044
)는 초기 보행자 검출 결과로서 사용되며, 여기서, 각 보행자 경계 박스 정보는, 보행자 경계 박스의 상부좌측 코너의 좌표, 높이, 폭, 및 해당 검출 점수를 포함한다.
소정의 실시예에서, 초기 보행자 검출 결과는 도 6의 박스(627)에 도시된 바와 같은 비최대 억제 연산을 사용하여 정제된다. 일 실시예에서는, 다음에 따르는 단계들을 취한다.
(a) 초기화 단계:
Figure pat00045
,및
Figure pat00046
.
(b)
Figure pat00047
로부터 최고 검출 점수(B max )를 갖는 보행자 경계 박스를 선택하고,
Figure pat00048
를 검색하여,
Figure pat00049
을 형성하도록 B max 와의 40% 중첩보다 큰 모든 보행자 경계 박스를 찾는다.
Figure pat00050
이 비어있는 세트인 경우, 단계 (d)로 진행한다. 그렇지 않다면, 단계 (c)로 진행한다.
(c)
Figure pat00051
로부터
Figure pat00052
를 제거한다.
(d)
Figure pat00053
로부터 B max 를 제거하고, B max
Figure pat00054
에 더한다.
Figure pat00055
이 비어있는 세트가 아닌 경우, 단계 (d)로 진행한다. 그렇지 않다면, 단계 (e)로 진행한다.
(e) 최종 보행자 검출 결과(
Figure pat00056
)를 취득하고, 여기서, K<=N이다.
또 다른 일 양태에서, 본 개시 내용은 쌍안 보행자 검출 시스템(100)을 사용하여 보행자를 검출하는 방법에 관한 것이다. 소정의 실시예에서, 방법은, 쌍안 보행자 검출 시스템(100)의 쌍안 카메라(110)를 사용하여, 미리 결정된 영역을 통과하는 보행자(303)의 소정의 쌍안 화상을 캡처하는 단계; 쌍안 보행자 검출 시스템(100)의 화상/비디오 처리 ASIC(120)을 통해, 캡처된 보행자(303)의 쌍안 화상을 쌍안 정류하는 단계; 화상/비디오 처리 ASIC(120)을 통해, 쌍안 정류된 보행자(303)의 쌍안 화상의 디스패리티 맵을 계산하는 단계; 계산된 보행자(303)의 쌍안 화상의 디스패리티 맵과 정류된 좌측 화상을 사용하여 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 트레이닝하는 단계; 및 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 통해, 미리 결정된 영역을 통과하는 보행자(303)를 검출하는 단계를 포함한다.
소정의 실시예에서, 이중 스트림 딥 러닝 뉴럴 네트워크(625)는, 보행자(303)의 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 RGB의 특징부를 학습하고 이를 보행자(303)의 쌍안 화상으로부터의 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크를 포함한다.
소정의 실시예에서, 쌍안 보행자 검출 시스템(100)은, 쌍안 카메라(110), 화상/비디오 처리 주문형 집적 회로(ASIC)(120), 및 쌍안 보행자 검출 시스템 제어기(130)를 포함한다. 쌍안 카메라(110)는, 미리 결정된 영역을 통과하는 보행자(303)의 쌍안 화상의 소정의 수를 캡처하기 위한 제1 카메라(111)와 제2 카메라(112)를 구비한다. 제1 카메라(111)는, 제1 렌즈(1111), 및 제1 렌즈(1111)를 통해 좌측 화상을 캡처하기 위한 제1 CMOS 센서(1112)를 포함한다. 제2 카메라(112)는, 제2 렌즈(1121), 및 제2 렌즈(1121)를 통해 우측 화상을 캡처하기 위한 제2 CMOS 센서(1122)를 포함한다. 좌측 화상과 우측 화상은 쌍안 화상을 형성한다. 화상/비디오 처리 ASIC(120)은, 쌍안 카메라(110)에 의해 캡처된 보행자(303)의 쌍안 화상을 전처리한다. 쌍안 보행자 검출 시스템 제어기(130)는, 프로세서(131), 네트워크 인터페이스(132), 및 운영 체제(1333)와 컴퓨터 실행가능 명령어(1334)를 저장하는 메모리(133)를 포함한다. 컴퓨터 실행가능 명령어(1334)가 프로세서(131)에서 실행되는 경우, 컴퓨터 실행가능 명령어(1334)는 프로세서(131)로 하여금 상술한 방법의 하나 이상의 동작을 수행하게 한다.
소정의 실시예에서, 보행자(303)의 쌍안 화상은, 보행자(303)의 소정의 트레이닝 쌍안 화상, 및 보행자 검출용 쌍안 카메라(110)에 의해 캡처된 보행자(303)의 소정의 실시간 쌍안 화상을 포함한다. 화상/비디오 처리 ASIC(120)은, 쌍안 카메라(110)를 교정하고, 보행자(303)의 쌍안 화상을 쌍안 정류하고, 트레이닝 페이즈 동안 보행자(303)의 트레이닝 쌍안 화상의 디스패리티 맵을 계산하고, 애플리케이션 페이즈 동안 보행자(303)의 실시간 쌍안 화상의 디스패리티 맵을 계산하도록 프로그래밍된다.
소정의 실시예에서, 트레이닝 페이즈는, 보행자(303)의 쌍안 화상의 디스패리티 맵을 사용하여 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 트레이닝하는 단계; 보행자(303)의 좌측 화상만을 사용하여 RGB 특징부를 학습하고 이를 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크를 트레이닝하는 단계; 및 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크와 특징부를 학습하고 융합하기 위한 뉴럴 네트워크를 적층하여 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 형성하는 단계를 포함한다.
소정의 실시예에서, 애플리케이션 페이즈는, 쌍안 카메라(110)에 의해, 보행자(303)의 실시간 쌍안 화상을 캡처하는 단계; 화상/비디오 처리 ASIC(120)에 의해, 캡처된 보행자(303)의 실시간 쌍안 화상을 쌍안 정류하는 단계; 화상/비디오 처리 ASIC(120)에 의해, 쌍안 정류된 보행자(303)의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계; 트레이닝 페이즈 동안 형성된 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 보행자(303)의 실시간 쌍안 화상의 디스패리티 맵과 정류된 좌측 화상으로부터 보행자(303)를 검출하는 단계; 및 검출 결과에 대하여 비최대 억제 연산을 수행하여 최종 보행자 검출 결과를 취득하는 단계를 포함한다.
소정의 실시예에서, 이중 스트림 딥 러닝 뉴럴 네트워크(625)를 사용하여 보행자(303)를 검출하는 프로세스는, 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 보행자(303)의 실시간 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하는 단계; RGB 특징부와 디스패리티를 학습하고 융합하기 위한 뉴럴 네트워크의 처음 N개의 층을 사용하여 보행자(303)의 정류된 좌측 화상으로부터 RGB 특징부를 학습하는 단계; 추출된 디스패리티 특징부와 학습된 RGB 특징부를 다수의 채널을 통해 적층하는 단계; 및 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 최종 M-N개의 층을 사용하여 디스패리티 특징부와 RGB 특징부를 융합하여 최종 보행자 검출 결과를 취득하는 단계를 포함한다. 소정의 실시예에서, N은 양수이고, M은, N보다 큰 양수이고, 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 층들의 총 수이다. 일 실시예에서, N은 7이고, M은 15이다.
일 실시예에서, 쌍안 보행자 검출 시스템(100)은, 출입구(301)를 통과하는 보행자(303)를 내려다보는 쌍안 카메라(110)를 가지고 출입구(301) 위에 설치된다. 다른 일 실시예에서, 쌍안 보행자 검출 시스템(100)은, 출입구(301)를 통과하는 보행자(303)를 대면하는 쌍안 카메라(110)를 가지고 미리 결정된 각도로 출입구(301) 위에 설치된다.
소정의 실시예에서, 네트워크 인터페이스(132)는 파워-온-이더넷(POE) 네트워크 인터페이스를 포함한다. 쌍안 보행자 검출 시스템(100)으로의 전력 공급은 POE 네트워크 인터페이스에 의해 제공되고, 최종 보행자 검출 결과는, 네트워크 인터페이스(132)와 통신 네트워크(140)를 통해 최종 보행자 검출 결과를 수집하는 서버에 송신된다.
통신 네트워크(140)는, 무선 개인용 통신망(WPAN), 무선 근거리 통신망(WLAN), 무선 대도시 통신망(WMAN), 무선 광역 통신망(WWAN), 셀룰러 네트워크, 및 이동 통신 네트워크를 포함할 수 있다. WPAN은, 와이파이(Wi-Fi) 네트워크, 블루투스(Bluetooth) 네트워크, 적외선 네트워크, 및 지그비(Zigbee) 네트워크도 포함할 수 있다.
본 개시 내용의 예시적인 실시예들의 전술한 설명은, 예시 및 설명을 위해 제시된 것일 뿐이며, 철저하도록 의도된 것이 아니며 또는 본 발명을 개시된 구체적인 형태로 한정하려는 것도 아니다. 상술한 교시에 비추어 볼 때 많은 수정 및 변형이 가능하다.
실시예는, 통상의 기술자가 본 개시 내용과 다양한 실시예를 의도된 특정 용도에 적합한 다양한 수정과 함께 이용할 수 있게끔 본 개시 내용의 원리 및 실제 적용을 설명하도록 선택 및 설명되었다. 대체 실시예는, 본 개시 내용의 사상 및 범위를 벗어나지 않고 본 개시 내용이 속하는 기술분야의 통상의 기술자에게 명백해질 것이다. 이에 따라, 본 개시 내용의 범위는 전술한 설명 및 그 설명에 기재된 예시적인 실시예보다는 첨부된 청구범위에 의해 정의된다.

Claims (20)

  1. 쌍안 보행자 검출 시스템으로서,
    미리 결정된 영역을 통과하는 복수의 보행자의 복수의 쌍안 화상을 캡처하도록 제1 카메라 및 제2 카메라를 갖는 쌍안 카메라;
    상기 쌍안 카메라에 의해 캡처된 상기 복수의 보행자의 상기 복수의 쌍안 화상을 전처리하는 화상/비디오 처리 주문형 집적 회로(ASIC); 및
    프로세서, 네트워크 인터페이스, 및 운영 체제와 컴퓨터 실행가능 명령어를 저장하는 메모리를 갖는 쌍안 보행자 검출 시스템 제어기를 포함하고,
    상기 컴퓨터 실행가능 명령어는, 상기 프로세서에서 실행되는 경우, 상기 프로세서로 하여금,
    상기 쌍안 카메라에 의해, 상기 미리 결정된 영역을 통과하는 상기 보행자들의 상기 복수의 쌍안 화상을 캡처하는 단계;
    상기 화상/비디오 처리 ASIC에 의해, 캡처된 상기 보행자들의 상기 복수의 쌍안 화상을 쌍안 정류하는 단계;
    쌍안 정류된 상기 보행자들의 상기 복수의 쌍안 화상의 디스패리티 맵을 계산하는 단계;
    이중 스트림 딥 러닝 뉴럴 네트워크(dual-stream deep learning neural network)를 트레이닝하는 단계로서, 상기 이중 스트림 딥 러닝 뉴럴 네트워크는, 상기 보행자들의 상기 복수의 쌍안 렌즈의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 정류된 좌측 화상으로부터의 특징부를 학습하고 이를 상기 보행자들의 상기 복수의 쌍안 화상의 디스패리티 맵과 융합하기 위한 뉴럴 네트워크를 포함하는, 단계; 및
    상기 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크를 통해, 상기 미리 결정된 영역을 통과하는 상기 복수의 보행자를 검출하는 단계
    중 하나 이상을 수행하게 하는, 쌍안 보행자 검출 시스템.
  2. 제1항에 있어서, 상기 제1 카메라는 제1 렌즈 및 상기 제1 렌즈를 통해 좌측 화상을 캡처하기 위한 제1 CMOS 센서를 포함하고, 상기 제2 카메라는 제2 렌즈 및 상기 제2 렌즈를 통해 우측 화상을 캡처하기 위한 제2 CMOS 센서를 포함하고, 상기 좌측 화상과 상기 우측 화상이 쌍안 화상을 형성하는, 쌍안 보행자 검출 시스템.
  3. 제1항에 있어서, 상기 화상/비디오 처리 ASIC은,
    상기 쌍안 카메라의 교정을 수행하는 단계;
    상기 보행자들의 상기 복수의 쌍안 화상을 쌍안 정류하는 단계로서, 상기 보행자들의 상기 복수의 쌍안 화상은, 상기 보행자들의 복수의 트레이닝 쌍안 화상 및 보행자 검출을 위한 상기 쌍안 카메라에 의해 캡처된 상기 보행자들의 복수의 실시간 쌍안 화상을 포함하는, 단계;
    트레이닝 페이즈 동안 상기 보행자들의 상기 복수의 트레이닝 쌍안 화상의 디스패리티 맵을 계산하는 단계; 및
    애플리케이션 페이즈 동안 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계
    중 하나 이상을 수행하도록 프로그래밍된, 쌍안 보행자 검출 시스템.
  4. 제3항에 있어서, 상기 트레이닝 페이즈는,
    상기 보행자들의 상기 복수의 쌍안 화상의 디스패리티 맵을 사용하여 상기 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 트레이닝하는 단계;
    상기 보행자들의 상기 복수의 좌측 화상을 사용하여 RGB 특징부를 학습하고 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크를 트레이닝하는 단계; 및
    트레이닝된 상기 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크와 상기 특징부를 학습하고 융합하기 위한 뉴럴 네트워크를 적층하여 상기 이중 스트림 딥 러닝 뉴럴 네트워크를 형성하는 단계를 포함하는, 쌍안 보행자 검출 시스템.
  5. 제4항에 있어서, 상기 애플리케이션 페이즈는,
    상기 쌍안 카메라에 의해, 상기 보행자들의 상기 복수의 실시간 쌍안 화상을 캡처하는 단계;
    상기 화상/비디오 처리 ASIC에 의해, 캡처된 상기 보행자들의 상기 복수의 실시간 쌍안 화상을 쌍안 정류하는 단계;
    상기 화상/비디오 처리 ASIC에 의해, 쌍안 정류된 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계;
    상기 트레이닝 페이즈 동안 형성된 상기 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵과 정류된 상기 좌측 화상으로부터의 상기 복수의 보행자를 검출하는 단계; 및
    검출 결과에 대하여 비최대 억제(non-maximum suppression) 연산을 수행하여 최종 보행자 검출 결과를 취득하는 단계를 포함하는, 쌍안 보행자 검출 시스템.
  6. 제5항에 있어서, 상기 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 상기 복수의 보행자를 검출하는 단계는,
    상기 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하는 단계;
    상기 RGB 특징부와 디스패리티를 학습하고 융합하기 위한 뉴럴 네트워크의 처음 N개의 층을 사용하여 상기 보행자들의 정류된 복수의 좌측 화상으로부터 RGB 특징부를 학습하는 단계로서, 상기 N은 양수인, 단계;
    추출된 상기 디스패리티 특징부와 학습된 상기 RGB 특징부를 복수의 채널을 통해 적층하는 단계; 및
    상기 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 최종 M-N개의 층을 사용하여 디스패리티 특징부와 RGB 특징부를 융합하여 최종 보행자 검출 결과를 취득하는 단계를 포함하고,
    M은, N보다 큰 양수이고, 상기 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 층들의 총 수인, 쌍안 보행자 검출 시스템.
  7. 제6항에 있어서, 상기 N은 7이고, 상기 M은 15인, 쌍안 보행자 검출 시스템.
  8. 제1항에 있어서, 상기 쌍안 보행자 검출 시스템은, 출입구를 통과하는 상기 복수의 보행자를 내려다보는 쌍안 카메라를 가지고 상기 출입구 위에 설치된, 쌍안 보행자 검출 시스템.
  9. 제1항에 있어서, 상기 쌍안 보행자 검출 시스템은, 출입구를 통과하는 상기 복수의 보행자를 대면하는 쌍안 카메라를 가지고 상기 출입구 위에 미리 결정된 각도로 설치된, 쌍안 보행자 검출 시스템.
  10. 제1항에 있어서, 상기 네트워크 인터페이스는 파워-온-이더넷(POE) 네트워크 인터페이스를 포함하고, 상기 쌍안 보행자 검출 시스템에 공급되는 전력은 상기 POE 네트워크 인터페이스에 의해 제공되고, 최종 보행자 검출 결과는, 상기 네트워크 인터페이스와 통신 네트워크를 통해 상기 최종 보행자 검출 결과를 수집하는 서버에 송신되는, 쌍안 보행자 검출 시스템.
  11. 쌍안 보행자 검출 시스템을 사용하여 보행자를 검출하는 방법으로서,
    상기 쌍안 보행자 검출 시스템의 쌍안 카메라를 사용하여, 미리 결정된 영역을 통과하는 복수의 보행자의 복수의 쌍안 화상을 캡처하는 단계;
    상기 쌍안 보행자 검출 시스템의 화상/비디오 처리 ASIC를 통해, 캡처된 상기 보행자의 상기 복수의 쌍안 화상을 쌍안 정류하는 단계;
    상기 화상/비디오 처리 ASIC를 통해, 쌍안 정류된 상기 보행자의 상기 복수의 쌍안 화상의 디스패리티 맵을 계산하는 단계;
    계산된 상기 보행자의 상기 복수의 쌍안 화상의 디스패리티 맵 및 정류된 좌측 화상을 사용하여 이중 스트림 딥 러닝 뉴럴 네트워크를 트레이닝하는 단계로서, 상기 이중 스트림 딥 러닝 뉴럴 네트워크는, 상기 보행자들의 상기 복수의 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크, 및 상기 정류된 좌측 화상으로부터의 특징부를 학습하고 이를 상기 보행자들의 상기 복수의 쌍안 화상의 디스패리티 맵과 융합하기 위한 뉴럴 네트워크를 포함하는, 단계; 및
    상기 트레이닝된 이중 스트림 딥 러닝 뉴럴 네트워크를 통해, 상기 미리 결정된 영역을 통과하는 상기 복수의 보행자를 검출하는 단계를 포함하는, 방법.
  12. 제11항에 있어서, 상기 쌍안 보행자 검출 시스템은,
    상기 미리 결정된 영역을 통과하는 상기 복수의 보행자의 복수의 쌍안 화상을 캡처하도록 제1 카메라 및 제2 카메라를 갖는 상기 쌍안 카메라;
    상기 쌍안 카메라에 의해 캡처된 상기 보행자의 상기 복수의 쌍안 화상을 전처리하는 상기 화상/비디오 처리 ASIC; 및
    프로세서, 네트워크 인터페이스, 및 운영 체제와 컴퓨터 실행가능 명령어를 저장하는 메모리를 갖는 쌍안 보행자 검출 시스템 제어기를 포함하고,
    상기 컴퓨터 실행가능 명령어는, 상기 프로세서에서 실행되는 경우, 상기 프로세서로 하여금 상기 방법의 하나 이상의 단계를 수행하게 하는, 방법.
  13. 제11항에 있어서, 상기 화상/비디오 처리 ASIC은,
    상기 쌍안 카메라의 교정을 수행하는 단계;
    상기 보행자들의 상기 복수의 쌍안 화상을 쌍안 정류하는 단계로서, 상기 보행자들의 상기 복수의 쌍안 화상은, 상기 보행자들의 복수의 트레이닝 쌍안 화상 및 보행자 검출을 위한 상기 쌍안 카메라에 의해 캡처된 상기 보행자들의 복수의 실시간 쌍안 화상을 포함하는, 단계;
    트레이닝 페이즈 동안 상기 보행자들의 상기 복수의 트레이닝 쌍안 화상의 디스패리티 맵을 계산하는 단계; 및
    애플리케이션 페이즈 동안 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계
    중 하나 이상을 수행하도록 프로그래밍된, 방법.
  14. 제13항에 있어서, 상기 트레이닝 페이즈는,
    상기 보행자들의 상기 복수의 쌍안 화상의 디스패리티 맵을 사용하여 상기 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 트레이닝하는 단계;
    상기 보행자들의 상기 복수의 좌측 화상을 사용하여 RGB 특징부와 디스패리티를 학습하고 융합하기 위한 뉴럴 네트워크를 트레이닝하는 단계; 및
    트레이닝된 상기 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크와 상기 특징부를 학습하고 융합하기 위한 뉴럴 네트워크를 적층하여 상기 이중 스트림 딥 러닝 뉴럴 네트워크를 형성하는 단계를 포함하는, 방법.
  15. 제14항에 있어서, 상기 애플리케이션 페이즈는,
    상기 쌍안 카메라에 의해, 상기 보행자들의 상기 복수의 실시간 쌍안 화상을 캡처하는 단계;
    상기 화상/비디오 처리 ASIC에 의해, 캡처된 상기 보행자들의 상기 복수의 실시간 쌍안 화상을 쌍안 정류하는 단계;
    상기 화상/비디오 처리 ASIC에 의해, 쌍안 정류된 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵을 계산하는 단계;
    상기 트레이닝 페이즈 동안 형성된 상기 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵과 정류된 상기 좌측 화상으로부터의 상기 복수의 보행자를 검출하는 단계; 및
    검출 결과에 대하여 비최대 억제 연산을 수행하여 최종 보행자 검출 결과를 취득하는 단계를 포함하는, 방법.
  16. 제15항에 있어서, 상기 이중 스트림 딥 러닝 뉴럴 네트워크를 사용하여 상기 복수의 보행자를 검출하는 단계는,
    상기 디스패리티 특징부를 추출하기 위한 뉴럴 네트워크를 사용하여 상기 보행자들의 상기 복수의 실시간 쌍안 화상의 디스패리티 맵으로부터 디스패리티 특징부를 추출하는 단계;
    상기 RGB 특징부를 학습하고 이를 디스패리티 특징부와 융합하기 위한 뉴럴 네트워크의 처음 N개의 층을 사용하여 상기 보행자들의 정류된 복수의 좌측 화상으로부터 RGB 특징부를 학습하는 단계로서, 상기 N은 양수인, 단계;
    추출된 상기 디스패리티 특징부와 학습된 상기 RGB 특징부를 복수의 채널을 통해 적층하는 단계; 및
    상기 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 최종 M-N개의 층을 사용하여 디스패리티 특징부와 RGB 특징부를 융합하여 최종 보행자 검출 결과를 취득하는 단계를 포함하고,
    M은, N보다 큰 양수이고, 상기 특징부를 학습하고 융합하기 위한 뉴럴 네트워크의 층들의 총 수인, 방법.
  17. 제16항에 있어서, N은 7이고, M은 15인, 방법.
  18. 제11항에 있어서, 상기 쌍안 보행자 검출 시스템은, 출입구를 통과하는 상기 복수의 보행자를 내려다보는 쌍안 카메라를 가지고 상기 출입구 위에 설치된, 방법.
  19. 제11항에 있어서, 상기 쌍안 보행자 검출 시스템은, 출입구를 통과하는 상기 복수의 보행자를 대면하는 쌍안 카메라를 가지고 상기 출입구 위에 미리 결정된 각도로 설치된, 방법.
  20. 제12항에 있어서, 상기 네트워크 인터페이스는 파워-온-이더넷(POE) 네트워크 인터페이스를 포함하고, 상기 쌍안 보행자 검출 시스템에 공급되는 전력은 상기 POE 네트워크 인터페이스에 의해 제공되고, 최종 보행자 검출 결과는, 상기 네트워크 인터페이스와 통신 네트워크를 통해 상기 최종 보행자 검출 결과를 수집하는 서버에 송신되는, 방법.
KR1020190110812A 2018-10-11 2019-09-06 이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이를 이용하는 방법 KR102182356B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/157,173 US10503966B1 (en) 2018-10-11 2018-10-11 Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
US16/157,173 2018-10-11

Publications (2)

Publication Number Publication Date
KR20200041253A true KR20200041253A (ko) 2020-04-21
KR102182356B1 KR102182356B1 (ko) 2020-11-24

Family

ID=67220695

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190110812A KR102182356B1 (ko) 2018-10-11 2019-09-06 이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이를 이용하는 방법

Country Status (6)

Country Link
US (1) US10503966B1 (ko)
EP (1) EP3637307A1 (ko)
JP (1) JP2020061128A (ko)
KR (1) KR102182356B1 (ko)
CA (1) CA3055148C (ko)
RU (1) RU2730687C1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN114175091A (zh) 2019-06-11 2022-03-11 伊美景象公司 利用基于上下文分割层的自适应去扭曲的最优身体或面部保护的方法
CN113014899B (zh) * 2019-12-20 2023-02-03 杭州海康威视数字技术股份有限公司 一种双目图像的视差确定方法、装置及系统
CN111127435B (zh) * 2019-12-25 2022-11-15 福州大学 基于双流卷积神经网络的无参考图像质量评估方法
CN111310916B (zh) * 2020-01-22 2022-10-25 浙江省北大信息技术高等研究院 一种区分左右眼图片的深度系统训练方法及系统
CN111539336B (zh) * 2020-04-25 2023-06-20 长治学院 一种提高局部注意力的行人重识别方法
CN111598048B (zh) * 2020-05-31 2021-06-15 中国科学院地理科学与资源研究所 一种融合高分遥感影像和街景影像的城中村识别方法
CN111931802A (zh) * 2020-06-16 2020-11-13 南京信息工程大学 基于Siamese网络结构融合中层特征的行人重识别方法
WO2021139176A1 (zh) * 2020-07-30 2021-07-15 平安科技(深圳)有限公司 基于双目摄像机标定的行人轨迹跟踪方法、装置、计算机设备及存储介质
CN111814754A (zh) * 2020-08-18 2020-10-23 深延科技(北京)有限公司 面向夜间场景的单帧图像行人检测方法和装置
CN112329671B (zh) * 2020-11-11 2022-06-17 润联软件系统(深圳)有限公司 一种基于深度学习的行人奔跑行为检测方法及相关组件
CN113281779B (zh) * 2021-05-20 2022-07-12 中山大学 一种3d物体快速检测方法、装置、设备及介质
CN113781543B (zh) * 2021-11-10 2022-03-18 北京中科慧眼科技有限公司 基于双目相机的限高装置检测方法、系统和智能终端
CN115597551B (zh) * 2022-12-14 2023-04-07 成都量芯集成科技有限公司 一种手持激光辅助双目扫描装置及方法
CN116805360B (zh) * 2023-08-21 2023-12-05 江西师范大学 一种基于双流门控渐进优化网络的显著目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180037426A (ko) * 2016-10-04 2018-04-12 엘지전자 주식회사 자동주차 보조장치 및 이를 포함하는 차량
KR20180073424A (ko) * 2016-12-22 2018-07-02 삼성전자주식회사 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치
KR20180090610A (ko) * 2017-02-03 2018-08-13 삼성전자주식회사 차선 정보를 출력하는 방법 및 장치.

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050201591A1 (en) * 2004-03-10 2005-09-15 Kiselewich Stephen J. Method and apparatus for recognizing the position of an occupant in a vehicle
ITUD20050152A1 (it) * 2005-09-23 2007-03-24 Neuricam Spa Dispositivo elettro-ottico per il conteggio di persone,od altro,basato su visione stereoscopica,e relativo procedimento
JP4617286B2 (ja) * 2006-10-17 2011-01-19 中央電子株式会社 不正通過者検出装置及びこれを利用した不正通過者録画システム
EP2293588A1 (en) * 2009-08-31 2011-03-09 Robert Bosch GmbH Method for using a stereovision camera arrangement
JP5673032B2 (ja) * 2010-11-29 2015-02-18 ソニー株式会社 画像処理装置、表示装置、画像処理方法及びプログラム
US20140365644A1 (en) * 2013-05-09 2014-12-11 Bay Sensors Internet traffic analytics for non-internet traffic
JP6398347B2 (ja) * 2013-08-15 2018-10-03 株式会社リコー 画像処理装置、認識対象物検出方法、認識対象物検出プログラム、および、移動体制御システム
KR101611261B1 (ko) * 2013-12-12 2016-04-12 엘지전자 주식회사 스테레오 카메라, 이를 구비한 차량 운전 보조 장치, 및 차량
CN105095905B (zh) * 2014-04-18 2018-06-22 株式会社理光 目标识别方法和目标识别装置
KR101756698B1 (ko) * 2015-12-30 2017-07-12 재단법인대구경북과학기술원 도로 상의 객체를 검출하기 위한 장치 및 그 방법
WO2017120336A2 (en) * 2016-01-05 2017-07-13 Mobileye Vision Technologies Ltd. Trained navigational system with imposed constraints
CN105550675B (zh) * 2016-02-02 2019-02-22 天津大学 一种基于优化聚合积分通道的双目行人检测方法
RU168781U1 (ru) * 2016-06-07 2017-02-17 Открытое акционерное общество Научно-производственный центр "Электронные вычислительно-информационные системы" Устройство обработки стереоизображений
US20180150704A1 (en) * 2016-11-28 2018-05-31 Kwangwoon University Industry-Academic Collaboration Foundation Method of detecting pedestrian and vehicle based on convolutional neural network by using stereo camera
CN106952274B (zh) * 2017-03-14 2019-06-21 西安电子科技大学 基于立体视觉的行人检测与测距方法
US10733755B2 (en) * 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image
CN108363953B (zh) * 2018-01-12 2020-09-29 浙江大华技术股份有限公司 一种行人检测的方法及双目监控设备
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
CN108596040A (zh) * 2018-03-29 2018-09-28 中山大学 一种基于双目视觉的串联通道融合行人检测方法
CN108537837B (zh) * 2018-04-04 2023-05-05 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180037426A (ko) * 2016-10-04 2018-04-12 엘지전자 주식회사 자동주차 보조장치 및 이를 포함하는 차량
KR20180073424A (ko) * 2016-12-22 2018-07-02 삼성전자주식회사 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치
KR20180090610A (ko) * 2017-02-03 2018-08-13 삼성전자주식회사 차선 정보를 출력하는 방법 및 장치.

Also Published As

Publication number Publication date
JP2020061128A (ja) 2020-04-16
US10503966B1 (en) 2019-12-10
KR102182356B1 (ko) 2020-11-24
EP3637307A1 (en) 2020-04-15
CA3055148A1 (en) 2020-03-27
RU2730687C1 (ru) 2020-08-25
CA3055148C (en) 2020-06-30

Similar Documents

Publication Publication Date Title
KR102182356B1 (ko) 이중 스트림 딥 러닝 뉴럴 네트워크를 갖는 쌍안 보행자 검출 시스템 및 이를 이용하는 방법
JP2020061128A5 (ko)
US11729495B2 (en) Directed image capture
CN110248096B (zh) 对焦方法和装置、电子设备、计算机可读存储介质
CN107087107B (zh) 基于双摄像头的图像处理装置及方法
EP3190781B1 (en) Autofocus method, device and electronic apparatus
CN104685513B (zh) 根据使用阵列源捕捉的低分辨率图像的基于特征的高分辨率运动估计
JP6204659B2 (ja) 映像処理装置及び映像処理方法
WO2010124497A1 (zh) 一种运动检测方法、装置和系统
US11003963B2 (en) Method and system for identifying targets in scenes shot by a camera
US10122912B2 (en) Device and method for detecting regions in an image
CN103984942A (zh) 一种物象识别的方法及移动终端
CN105989363A (zh) 多角度人脸图片库的建立方法
CN109754034A (zh) 一种基于二维码的终端设备定位方法及装置
CN110930437B (zh) 目标跟踪方法和装置
KR20010035100A (ko) 하이퍼링크 비디오를 위한 임의 객체의 효과적인 추적장치 및 방법
CN114972732A (zh) 一种烟火检测方法、装置、设备及计算机可读存储介质
KR102299250B1 (ko) 복합 영상 데이터를 이용한 입출력 인원 계수 장치 및 방법
US20230177712A1 (en) Simultaneous localization and mapping using cameras capturing multiple spectra of light
Chia et al. The effect of rainfall on feature points extraction and image stitching
US20240096049A1 (en) Exposure control based on scene depth
Yang et al. Aerial Sensor Data Guided Object Detection for Cattle Monitoring in Open Fields
KR20230119370A (ko) 이동객체에서 촬영하는 장면 내 텍스트 결정 장치
Jing VR Video Image Panoramic Splice Based on Deep Learning
Li et al. An improved method for measuring frame synchronization time parameters based on YOLOv4

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant