KR20190128724A - 타겟 인식 방법, 장치, 저장 매체 및 전자 기기 - Google Patents

타겟 인식 방법, 장치, 저장 매체 및 전자 기기 Download PDF

Info

Publication number
KR20190128724A
KR20190128724A KR1020197031657A KR20197031657A KR20190128724A KR 20190128724 A KR20190128724 A KR 20190128724A KR 1020197031657 A KR1020197031657 A KR 1020197031657A KR 20197031657 A KR20197031657 A KR 20197031657A KR 20190128724 A KR20190128724 A KR 20190128724A
Authority
KR
South Korea
Prior art keywords
image
determined
target
information
path
Prior art date
Application number
KR1020197031657A
Other languages
English (en)
Other versions
KR102339323B1 (ko
Inventor
얀타오 센
통 시아오
홍센 리
샤우아이 이
시아오강 왕
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20190128724A publication Critical patent/KR20190128724A/ko
Application granted granted Critical
Publication of KR102339323B1 publication Critical patent/KR102339323B1/ko

Links

Images

Classifications

    • G06K9/00751
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • G06K9/00758
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

본 발명의 실시예는 타겟 인식 방법, 장치, 저장 매체 및 전자 기기를 제공한다. 상기 타겟 인식 방법은, 제1 이미지 및 제2 이미지를 획득하는 단계 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ; 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 단계 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응됨 - ; 및 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함한다.

Description

타겟 인식 방법, 장치, 저장 매체 및 전자 기기
관련 출원의 상호 참조
본 출원은 출원 번호가 201710633604.3이고 출원일이 2017년 07월 28일인 중국특허 출원에 기반하여 제출한 것이며, 상기 중국특허 출원의 우선권을 주장하고, 상기 중국특허 출원의 전부 내용은 본 출원에 참조로서 포함된다.
본 발명의 실시예는 인공 지능 기술 분야에 관한 것이며, 특히 타겟 인식 방법, 장치, 저장 매체 및 전자 기기에 관한 것이다.
차량 재인식과 같은 교통수단 재인식은 컴퓨터 비전 및 공공 안전 분야에서 중요한 내용이며, 교통수단 검출과 추적, 주행 경로 추정 및 이상 행위 감지 등 여러 측면에서 중요한 응용 가치가 있다.
대부분의 교통수단 재인식기술은 모두 교통수단의 외관 정보를 기반으로 판단하며, 보행자 재인식과 달리, 단순히 교통수단 외관 정보를 이용해 교통수단을 재인식하는 것은 차량과 같은 많은 교통수단의 외관(예를 들어, 색상, 모델, 모양 등)이 매우 유사한 것에 어려움이 있다. 특히, 같은 브랜드 같은 모델의 다른 교통수단에서는 차이가 훨씬 작다. 차량 번호판 정보와 같은 교통수단 표지 정보 및 자동차 내부 장식과 같은 교통수단 내부 장식의 고유한 세부사항을 감지하고 인식하는 것은 모니터링 렌즈 각도 불량, 조명 상태 불량, 렌즈 흐림 등의 요인으로 인해, 감지 및 인식의 견고성이 저하되어 감지 및 인식 결과가 부정확하게 된다.
본 발명의 실시예는 타겟 인식을 위한 기술 방안을 제공한다.
본 발명의 실시예의 제1 측면에 따르면, 타겟 인식 방법을 제공한다. 상기 방법은, 제1 이미지 및 제2 이미지를 획득하는 단계 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ; 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 단계 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응됨 - ; 및 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함한다.
일 실시예에 있어서, 상기 결정될 타겟은 교통수단이다.
일 실시예에 있어서, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 상기 단계 이전에, 상기 방법은, 상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하는 단계를 더 포함하며; 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 상기 단계는, 상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 상기 예측 경로를 생성하는 단계를 더 포함한다.
일 실시예에 있어서, 상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하는 단계는, 상기 제1 이미지 및 상기 제2 이미지 및 상기 제1 이미지 및 상기 제2 이미지 사이의 시간 정보의 차이와 공간 정보의 차이를 샴 컨벌루션 뉴럴 네트워크(Siamese Convolutional Neural Network, Siamese-CNN)에 입력하여, 상기 제1 이미지와 제2 이미지에서 결정될 타겟의 초기 동일 확률값을 획득하는 단계를 포함한다.
일 실시예에 있어서, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 상기 단계는, 상기 제1 이미지의 특징 정보, 상기 제1 이미지의 시간 정보, 상기 제1 이미지의 공간 정보, 상기 제2 이미지의 특징 정보, 상기 제2 이미지의 시간 정보 및 상기 제2 이미지의 공간 정보에 따라, 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하는 단계를 포함한다.
일 실시예에 있어서, 상기 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하는 단계는, 마르코프 랜덤 필드(Markov Random Field, MRF) 모델을 통해 획득된 이미지 세트로부터 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하는 단계; 및 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하는 단계를 포함한다.
일 실시예에 있어서, 상기 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하는 단계는, 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하는 단계 - 상기 예측 경로는 상기 헤드 노드 및 상기 테일 노드에 대응하는 것 외에, 또한 적어도 하나의 중간 노드에도 대응함 - 을 포함한다.
일 실시예에 있어서, 상기 MRF를 통해 획득된 이미지 세트로부터 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하는 단계는, 상기 제1 이미지의 공간 정보에 대응하는 위치를 시작 위치로 하고, 상기 제2 이미지의 공간 정보에 대응하는 위치를 종료 위치로 하여, 상기 시작 위치로부터 상기 종료 위치까지의 모든 촬영 기기의 위치 정보를 획득하는 단계; 모든 촬영 기기의 위치 정보에 의해 지시되는 위치 사이의 관계에 따라, 상기 시작 위치에 대응하는 촬영 기기를 시작점으로 하고, 상기 종료 위치에 대응하는 촬영 기기를 종료점으로 하여, 적어도 하나의 기기 경로를 생성하는 단계 - 각 기기 경로는 상기 시작점의 촬영 기기 및 상기 종료점의 촬영 기기의 정보 외에, 적어도 하나의 다른 촬영 기기의 정보를 더 포함함 - ; 및 각 기기 경로에 대해, 상기 제1 이미지의 시간 정보에 대응하는 시간을 시작 시간으로 하고, 상기 제2 이미지의 시간 정보에 대응하는 시간을 종료 시간으로 하여, 현재 경로 상의 각각의 다른 촬영 기기에 의해 촬영된 이미지로부터, 현재 촬영 기기에 인접한 이전 촬영 기기에 의해 촬영된 상기 결정될 타겟의 정보를 포함하는 이미지와 설정 시간 시퀀스 관계를 갖고 또한 상기 결정될 타겟의 정보를 포함하는 이미지를 결정하는 단계를 포함한다.
일 실시예에 있어서, 상기 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하는 단계는,각 기기 경로에 대해, 결정된 상기 이미지의 시간 시퀀스 관계에 따라, 시공간 시퀀스 관계를 갖는 복수 개의 연결된 중간 노드를 생성하며; 상기 헤드 노드, 상기 테일 노드 및 상기 중간 노드에 따라, 현재 기기 경로에 대응하는 시공간 시퀀스 관계를 갖는 이미지 경로를 생성하는 단계; 및 각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하는 단계를 포함한다.
일 실시예에 있어서, 각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하는 상기 단계는, 각 기기 경로에 대응하는 이미지 경로에 대해, 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률을 획득하는 단계; 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률에 따라, 상기 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률을 계산하는 단계; 및 각 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률에 따라, 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하는 단계를 포함한다.
일 실시예에 있어서, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계는, 신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함한다.
일 실시예에 있어서, 신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계는, 상기 예측 경로에서 인접한 이미지의 시간 정보에 따라, 인접한 이미지의 시차를 획득하는 단계; 인접한 이미지의 공간 정보에 따라, 인접한 이미지의 공간 차이를 획득하는 단계; 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하는 단계; 획득된 상기 예측 경로에서 인접한 이미지의 시차, 공간 차이 및 특징 차이를 장단기 메모리(Long Short-Term Memory, LSTM)에 입력하여, 상기 예측 경로의 결정될 타겟의 인식 확률을 획득하는 단계; 및 상기 예측 경로의 결정될 타겟의 인식 확률에 따라, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함한다.
일 실시예에 있어서, 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하는 단계는, Siamese-CNN을 통해, 인접한 이미지에서 결정될 타겟의 특징 정보를 각각 획득하는 단계; 및각각 획득된 상기 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하는 단계를 포함한다.
본 발명의 실시예의 제2 측면에 따르면, 타겟 인식 장치를 제공한다. 상기 장치는, 제1 이미지 및 제2 이미지를 획득하도록 구성되는 획득 모듈 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ; 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하도록 구성되는 생성 모듈 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응됨 - ; 및 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제1 결정 모듈을 포함한다.
일 실시예에 있어서, 상기 결정될 타겟은 교통수단이다.
일 실시예에 있어서, 상기 장치는, 상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하도록 구성되는 제2 결정 모듈을 더 포함하며; 상기 생성 모듈은, 상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 상기 예측 경로를 생성하도록 구성되는 제1 생성 서브 모듈을 포함한다.
일 실시예에 있어서, 상기 제2 결정 모듈은, 상기 제1 이미지 및 상기 제2 이미지 및 상기 제1 이미지 및 상기 제2 이미지 사이의 시간 정보의 차이와 공간 정보의 차이를 Siamese-CNN에 입력하여, 상기 제1 이미지와 제2 이미지에서 결정될 타겟의 초기 동일 확률값을 획득하도록 구성되는 제1 결정 서브 모듈을 포함한다.
일 실시예에 있어서, 상기 생성 모듈은,상기 제1 이미지의 특징 정보, 상기 제1 이미지의 시간 정보, 상기 제1 이미지의 공간 정보, 상기 제2 이미지의 특징 정보, 상기 제2 이미지의 시간 정보 및 상기 제2 이미지의 공간 정보에 따라, 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하도록 구성되는 제2 생성 서브 모듈을 포함한다.
일 실시예에 있어서, 상기 제2 생성 서브 모듈은, MRF를 통해 획득된 이미지 세트로부터 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하도록 구성되는 제1 결정 유닛; 및 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하도록 구성되는 제1 생성 유닛을 포함한다.
일 실시예에 있어서, 상기 제1 생성 유닛은, 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하도록 구성되는 제2 생성 유닛 - 상기 예측 경로는 상기 헤드 노드 및 상기 테일 노드에 대응하는 것 외에, 또한 적어도 하나의 중간 노드에도 대응함 - 을 포함한다.
일 실시예에 있어서, 상기 제1 결정 유닛은, 상기 제1 이미지의 공간 정보에 대응하는 위치를 시작 위치로 하고, 상기 제2 이미지의 공간 정보에 대응하는 위치를 종료 위치로 하여, 상기 시작 위치로부터 상기 종료 위치까지의 모든 촬영 기기의 위치 정보를 획득하며; 모든 촬영 기기의 위치 정보에 의해 지시되는 위치 사이의 관계에 따라, 상기 시작 위치에 대응하는 촬영 기기를 시작점으로 하고, 상기 종료 위치에 대응하는 촬영 기기를 종료점으로 하여, 적어도 하나의 기기 경로를 생성하고, 각 기기 경로는 상기 시작점의 촬영 기기 및 상기 종료점의 촬영 기기의 정보 외에, 적어도 하나의 다른 촬영 기기의 정보를 더 포함하며; 각 기기 경로에 대해, 상기 제1 이미지의 시간 정보에 대응하는 시간을 시작 시간으로 하고, 상기 제2 이미지의 시간 정보에 대응하는 시간을 종료 시간으로 하여, 현재 경로 상의 각각의 다른 촬영 기기에 의해 촬영된 이미지로부터, 현재 촬영 기기에 인접한 이전 촬영 기기에 의해 촬영된 상기 결정될 타겟의 정보를 포함하는 이미지와 설정 시간 시퀀스 관계를 갖고 또한 상기 결정될 타겟의 정보를 포함하는 이미지를 결정하도록 구성된다.
일 실시예에 있어서, 상기 제2 생성 유닛은, 각 기기 경로에 대해, 결정된 상기 이미지의 시간 시퀀스 관계에 따라, 시공간 시퀀스 관계를 갖는 복수 개의 연결된 중간 노드를 생성하며; 상기 헤드 노드, 상기 테일 노드 및 상기 중간 노드에 따라, 현재 기기 경로에 대응하는 시공간 시퀀스 관계를 갖는 이미지 경로를 생성하며; 각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하도록 구성된다.
일 실시예에 있어서, 상기 제2 생성 유닛은, 각 기기 경로에 대응하는 이미지 경로에 대해, 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률을 획득하며; 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률에 따라, 상기 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률을 계산하며; 각 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률에 따라, 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하도록 더 구성된다.
일 실시예에 있어서, 상기 제1 결정 모듈은, 신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제2 결정 서브 모듈을 포함한다.
일 실시예에 있어서, 상기 제2 결정 서브 모듈은, 상기 예측 경로에서 인접한 이미지의 시간 정보에 따라, 인접한 이미지의 시차를 획득하며; 인접한 이미지의 공간 정보에 따라, 인접한 이미지의 공간 차이를 획득하며; 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하도록 구성되는 제1 획득 유닛; 획득된 상기 예측 경로에서 인접한 이미지의 시차, 공간 차이 및 특징 차이를 LSTM에 입력하여, 상기 예측 경로의 결정될 타겟의 인식 확률을 획득하도록 구성되는 제2 획득 유닛; 및 상기 예측 경로의 결정될 타겟의 인식 확률에 따라, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제2 결정 유닛을 포함한다.
일 실시예에 있어서, 상기 제1 획득 유닛은, Siamese-CNN을 통해, 인접한 이미지에서 결정될 타겟의 특징 정보를 각각 획득하며; 각각 획득된 상기 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하도록 구성된다
본 발명의 실시예의 제3 측면에 따르면, 컴퓨터 프로그램 명령어가 저장되어 있는 컴퓨터 저장 매체를 제공하며, 여기서, 상기 프로그램 명령어는 프로세서에 의해 수행될 경우, 본 발명의 실시예의 제1 측면에 따른 타겟 인식 방법의 단계를 구현한다.
본 발명의 실시예의 제4 측면에 따르면, 프로세서, 메모리, 통신 요소 및 통신 버스를 포함하는 전자 기기를 제공하며, 상기 프로세서, 상기 메모리 및 상기 통신 요소는 상기 통신 버스를 통해 상호간의 통신을 완료하며; 상기 메모리는 적어도 하나의 수행 가능 명령어를 저장하기 위한 것이며, 상기 수행 가능 명령어는 상기 프로세서로 하여금 본 발명의 실시예의 제1 측면에 따른 타겟 인식 방법의 단계를 수행하도록 한다.
본 발명의 실시예에서 제공된 기술 방안에 따라, 제1 이미지 및 제2 이미지에 포함된 정보에 기반하여, 결정될 타겟이 통과될 가능성이 있는 예측 경로가 생성되고; 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한지 여부를 결정하기 위해, 상기 예측 경로에 대해 유효성 판단을 진행한다. 여기서, 유효성 판단은 현재 예측 경로가 결정될 타겟의 주행 노선과 동일한지 여부에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다. 따라서, 상이한 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 정확한 검출 및 인식을 진행할 수 있다.
도 1은 본 발명의 실시예 1에 따른 타겟 인식 방법의 흐름 모식도이다.
도 2는 본 발명의 실시예 2에 따른 타겟 인식 방법의 흐름 모식도이다.
도 3은 본 발명의 실시예 3에 따른 타겟 인식 방법의 흐름 모식도이다.
도 4는 본 발명의 실시예 4에 따른 타겟 인식 장치의 구조 블록도이다.
도 5는 본 발명의 실시예 5에 따른 타겟 인식 장치의 구조 블록도이다.
도 6은 본 발명의 실시예 6에 따른 타겟 인식 장치의 구조 블록도이다.
도 7은 본 발명의 실시예 7에 따른 전자 기기의 구조 모식도이다.
이하, 도면(여러 도면에서 동일한 부호는 동일한 요소를 표시함) 및 실시예를 결부하여, 본 발명의 실시예의 구체적인 실시형태에 대해 상세히 설명한다. 하기 실시예는 본 발명을 설명하기 위한 것이지, 본 발명의 범위를 한정하려는 것은 아니다.
당업자는, 본 발명의 실시예에서 “제1”, “제2” 등 용어는 상이한 단계, 기기 또는 모듈 등을 구별하기 위해 사용될 뿐, 그 어떤 특정한 기술적 의미나 이들 사이의 필연적인 논리적 순서를 나타내지 않는다는 것을 이해할 수 있다.
실시예 1
도 1은 본 발명의 실시예 1에 따른 타겟 인식 방법의 흐름 모식도이다. 도 1에 도시된 바와 같이, 본 실시예의 타겟 인식 방법은 아래의 단계를 포함한다.
단계 S102에 있어서, 제1 이미지 및 제2 이미지를 획득한다.
구체적인 실시형태에 있어서, 이미지에 포함된 내용으로 말하면, 상기 제1 이미지 및 상기 제2 이미지에는 모두 결정될 타겟이 포함되어 있다. 이미지의 카테고리별로 말하면, 상기 제1 이미지 및 상기 제2 이미지는 모두 촬영된 정지 이미지, 또는 비디오 프레임 시퀀스에서의 비디오 이미지 등이 될 수 있다. 구체적으로, 상기 결정될 타겟은 보행자, 드론, 교통수단 등을 포함할 수 있다. 이해할 수 있는 것은, 본 실시예는 이에 한정되지 않으며, 임의의 이동 가능한 물체는 모두 결정될 타겟의 범위 내에 포함될 수 있다.
단계 S104에 있어서, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성한다.
여기서, 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응된다. 본 발명의 실시예에 있어서, 상기 제1 이미지 및 상기 제2 이미지에 포함된 결정될 타겟의 특징 정보 및 상기 제1 이미지 및 상기 제2 이미지에 포함된 시공간 정보에 기반하여, 노선 예측 결과를 통해 결정될 타겟 인식의 신뢰성을 향상시키기 위해 결정될 타겟의 주행 노선에 대해 예측을 진행할 수 있다. 구체적으로, 상기 제1 이미지 및 상기 제2 이미지에 포함된 정보를 바탕으로, 이미지에서 결정될 타겟의 가능한 주행 노선을 더 찾아야 하며, 여기서, 상기 주행 노선 상에서 촬영된 결정될 타겟의 이미지는 시공간에서 상기 제1 이미지 및 상기 제2 이미지와 모두 관련되어야 한다.
단계 S106에 있어서, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정한다.
여기서, 유효성 판단은 하나의 예측 경로가 동일한 하나의 결정될 타겟의 주행 노선일지에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높으며, 즉 상기 제1 이미지에서 결정될 타겟과 상기 제2 이미지에서 결정될 타겟이 동일할 가능성도 더 높다. 구체적인 실시형태에 있어서, 상기 유효성 판단의 결과는 구체적으로 유효 확률일 수 있거나, 직접적으로 "유효성 여부"일 수 있다.
본 실시예에서 제공된 타겟 인식 방법에 따르면, 제1 이미지 및 제2 이미지에 포함된 정보에 기반하여, 결정될 타겟이 통과될 가능성이 있는 예측 경로가 생성되고; 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한지 여부를 결정하기 위해, 상기 예측 경로에 대해 유효성 판단을 진행한다. 여기서, 유효성 판단은 현재 예측 경로가 결정될 타겟의 주행 노선과 동일한지 여부에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다. 따라서, 상이한 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 정확한 검출 및 인식을 진행할 수 있다.
본 실시예의 타겟 인식 방법은 이미지 또는 데이터 처리 능력을 갖는 임의의 적합한 기기에 의해 수행될 수 있으며, 카메라, 단말, 이동 단말, 개인용 컴퓨터(PC), 서버, 차량용 기기, 엔터테인먼트 기기, 광고 기기, 개인용 정보 단말기(Personal Digital Assistants, PDA), 태블릿, 노트북, 핸드 헬드 게임 콘솔, 스마트 안경, 스마트 시계, 웨어러블 장치, 가상 디스플레이 기기 또는 디스플레이 개선 기기(예를 들어, Google Glass, Oculus Rift, Hololens, Gear VR) 등을 포함하나 이에 한정되지 않는다.
실시예 2
도 2를 참조하면, 본 발명의 실시예 2에 따른 타겟 인식 방법의 흐름 모식도를 도시한다.
본 실시예에 있어서, 본 발명의 실시예의 타겟 인식 방법에 대해, 결정될 타겟으로서 교통수단을 예로 들어 설명하였으나, 당업자는 실제 응용에서, 다른 결정될 타겟이 본 실시예를 참조하여 대응하는 타겟 인식 동작을 구현할 수 있다는 것을 이해해야 한다.
본 실시예의 타겟 인식 방법은 아래의 단계를 포함한다.
단계 S202에 있어서, 제1 이미지 및 제2 이미지를 획득한다.
구체적인 실시형태에 있어서, 상기 제1 이미지 및 상기 제2 이미지에는 모두 결정될 타겟이 포함되어 있으며, 상기 결정될 타겟은 교통수단이다.
단계 S204에 있어서, 상기 제1 이미지의 특징 정보, 상기 제1 이미지의 시간 정보, 상기 제1 이미지의 공간 정보, 상기 제2 이미지의 특징 정보, 상기 제2 이미지의 시간 정보 및 상기 제2 이미지의 공간 정보에 따라, 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성한다.
보행자의 이동 노선과 비교하면, 교통수단의 주행 노선은 더욱 안정적이고, 더욱 규칙적이며, 판단 및 인식의 정확도가 더욱 높으므로, 노선 예측 결과를 통해 교통수단 인식의 신뢰성을 향상시키기 위해, 교통수단의 특징 정보(교통수단의 외관을 특징화할 수 있음)와 이미지의 시공간 정보를 결합 사용하여, 교통수단의 주행 노선에 대해 예측을 진행할 수 있다.
여기서, 이미지의 시간 정보는 이미지의 촬영 시간을 지시하기 위한 것이며, 결정될 타겟(예를 들어, 교통수단)이 촬영 기기를 경과하는 시간으로 간주될 수 있으며; 이미지의 공간 정보는 이미지의 촬영 위치를 지시하기 위한 것이며, 촬영 기기가 있는 위치로 간주할 수 있거나, 결정될 타겟 즉 교통수단이 촬영될 때의 위치로 간주될 수 있으며; 이미지의 특징 정보는 이미지에서의 교통수단의 특징과 같은 결정될 타겟의 특징을 지시하기 위한 것이며, 상기 특징에 따라 교통수단의 외관 등 정보를 결정할 수 있다. 이해할 수 있는 것은, 본 실시예에서 언급된 이미지에 포함된 정보는 이미지의 시간 정보, 이미지의 공간 정보 및 이미지의 특징 정보를 포함할 수 있으나 이에 한정되지 않는다.
구체적인 실시형태에 있어서, 상기 확률 모델은 MRF(Markov Random Field)일 수 있다.
랜덤 필드는 동일한 샘플 공간에 대응하는 한 그룹의 랜덤 변수의 집합으로 볼 수 있다. 일반적으로, 이러한 랜덤 변수 사이에 종속관계가 존재할 경우, 상기 랜덤 필드는 실제적 의미가 있는 것으로 간주될 수 있다. 랜덤 필드에는 위치(site) 및 위상 공간(phase space) 2 가지 요소가 포함되며, 위상 공간의 하나의 값이 특정 분포에 따라 각 위치에 무작위로 할당된 후의 전체를 랜덤 필드라고 한다.
MRF는 마르코프(Markov) 속성 제한이 있는 랜덤 필드이다. Markov 속성은 하나의 랜덤 변수 시퀀스가 시간 선후 관계에 따라 순차적으로 진열될 때, 제N+1 번째 시간의 분포 특성을 가리키며, N 시간 이전의 랜덤 변수의 값과 무관하다. 하나의 MRF는 하나의 무방향 그래프에 대응하며, 이 무방향 그래프 상의 각 노드는 하나의 랜덤 변수에 대응하며, 노드 사이의 가장자리는 노드에 대응하는 랜덤 변수 사이에 확률 종속 관계를 표시한다. 따라서, MRF의 구조는 본질적으로 선험적 지식을 반영하였으며, 즉, 어느 변수 사이의 종속 관계를 고려해야 하고, 어느 변수 사이의 종속 관계를 무시할 수 있는지를 반영한다.
본 실시예에서, MRF를 통해 제1 이미지 및 제2 이미지에서 결정될 타겟의 적어도 하나의 예측 경로를 생성할 수 있으며, 그 다음, 이로부터 상기 결정될 타겟의 예측 경로로서 최적의 경로를 결정한다. 구체적으로, 제1 이미지의 특징 정보, 제1 이미지의 시간 정보, 제1 이미지의 공간 정보, 제2 이미지의 특징 정보, 제2 이미지의 시간 정보 및 제2 이미지의 공간 정보에 따라, MRF를 통해 상기 결정될 타겟의 예측 경로를 생성할 수 있다. 일 실시예에 있어서, 체인 MRF를 통해 획득된 이미지 세트로부터 상기 결정될 타겟의 정보를 포함하면서, 제1 이미지 및 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정할 수 있으며; 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성한다.
여기서, 시공간 데이터는 시간과 공간의 차원을 동시에 구비한 데이터를 말하며, 즉 시간과 공간 두 차원의 정보를 포함한다. 지리학에서는, 연속적인 시공간 데이터는 모두 이산 샘플링에 의해 추출 및 저장되기 때문에, 시공간 데이터는 공간 상에서 상관 관계가 있는 시간 시퀀스 집합 즉 시공간 시퀀스로 간주될 수 있다. 상기 집합 중의 데이터는 시공간 시퀀스 관계를 갖는 데이터로 간주될 수 있다. 구체적으로, 제1 이미지와 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지의 의미는 상기 모든 이미지에 포함된 시공간 데이터가 제1 이미지에 포함된 시공간 데이터 및 제2 이미지에 포함된 시공간 데이터와 시간 및 공간 상에서 각각 관련된다는 것이다.
일반적으로, 제1 이미지를 경로 헤드 노드 이미지로서 사용하고 제2 이미지를 경로 테일 노드 이미지로서 사용하여, 체인 MRF에 의해 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 제1 이미지를 헤드 노드로 하고, 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성할 수 있으며, 여기서, 상기 예측 경로는 상기 헤드 노드 및 상기 테일 노드에 대응하는 것 외에, 또한 적어도 하나의 중간 노드에도 대응한다.
여기서, 체인 MRF를 통해 획득된 이미지 세트로부터 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정할 경우, 제1 이미지의 공간 정보에 대응하는 위치를 시작 위치로 하고, 제2 이미지의 공간 정보에 대응하는 위치를 종료 위치로 하여, 상기 시작 위치로부터 상기 종료 위치까지의 모든 촬영 기기의 위치 정보를 획득할 수 있으며; 모든 촬영 기기의 위치 정보에 의해 지시되는 위치 사이의 관계에 따라, 상기 시작 위치에 대응하는 촬영 기기를 시작점으로 하고, 상기 종료 위치에 대응하는 촬영 기기를 종료점으로 하여, 적어도 하나의 기기 경로를 생성하며, 각 기기 경로는 상기 시작점의 촬영 기기 및 상기 종료점의 촬영 기기의 정보 외에, 적어도 하나의 다른 촬영 기기의 정보를 더 포함하며; 각 기기 경로에 대해, 제1 이미지의 시간 정보에 대응하는 시간을 시작 시간으로 하고, 제2 이미지의 시간 정보에 대응하는 시간을 종료 시간으로 하여, 현재 경로 상의 각각의 다른 촬영 기기에 의해 촬영된 이미지로부터, 현재 촬영 기기에 인접한 이전 촬영 기기에 의해 촬영된 상기 결정될 타겟의 정보를 포함하는 이미지와 설정 시간 시퀀스 관계를 갖고 또한 상기 결정될 타겟의 정보를 포함하는 이미지를 결정한다.
또한, 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 제1 이미지를 헤드 노드로 하고, 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성할 경우, 각 기기 경로에 대해, 결정된 이미지의 시간시퀀스 관계에 따라 시공간 시퀀스 관계를 갖는 복수 개의 연결된 중간 노드를 생성하며; 상기 헤드 노드, 상기 테일 노드 및 상기 중간 노드에 따라, 현재 기기 경로에 대응하는 시공간 시퀀스 관계를 갖는 이미지 경로를 생성하며; 및 각 기기 경로에 대응하는 이미지 경로로부터, 제1 이미지를 헤드 노드로 하고, 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정한다.
여기서, 각 기기 경로에 대응하는 이미지 경로로부터, 제1 이미지를 헤드 노드로 하고, 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정할 경우, 각 기기 경로에 대응하는 이미지 경로에 대해, 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률을 획득할 수 있으며; 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률에 따라, 상기 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률을 계산하며; 및 각 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률에 따라, 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정한다.
교통수단을 본 실시예에서 결정될 타겟으로서 예로 들면, 교통수단이 도로 네트워크에서의 주행 노선이 하나의 체인 MRF라고 가정하면, 체인 상의 각 노드는 하나의 카메라이고, 노드의 변수 공간은 카메라에 의해 촬영되는 이미지, 이미지의 촬영 시간 및 장소로 구성된 3 요소이다. 동일한 교통수단인지를 식별해야 하는 한 쌍의 이미지 및 이들 사이의 가능한 감시 카메라를 임의로 제공하여(가능한 감시 카메라는 데이터 훈련 세트에서 통계를 진행하는 등 임의의 적절한 방식을 통해 얻을 수 있는 선험적 정보임), 인접한 카메라 사이의 각 쌍의 이미지 및 이들 사이의 시공간 차이를 Siamese-CNN에 입력하여, 각 쌍의 도로 네트워크에서 인접한 감시 카메라에 의해 촬영된 이미지의 교통수단이 동일한 하나의 교통수단에 속하는 확률을 계산할 수 있다. 여기서, Siamese-CNN은 MRF에서 인접 노드의 위치 에너지 함수로 간주될 수 있으며, 하나의 가능성이 가장 높은 예측 경로를 얻기 위해, 최대 서브 시퀀스 및 (Max-Sum) 알고리즘을 통해, 위치 에너지 함수의 곱을 최소화(최적화)할 수 있으며, 상기 예측 경로는 상기 교통수단이 경과하는 카메라의 지리적 위치, 촬영되는 시간 및 촬영되는 이미지의 관련 정보를 포함한다.
예를 들어, p를 제1 이미지의 정보(특징 정보, 시간 정보 및 공간 정보를 포함함)를 표시하도록 설정하고, q를 제2 이미지의 정보(특징 정보, 시간 정보 및 공간 정보를 포함함)를 표시하도록 설정하며, 체인 MRF를 통해 복수의 가능한 예측 경로로부터 최적 경로를 결정하는 한 가지 방법은 아래의 식 1을 최대화 하는 방식으로써 구현될 수 있다.
식 1
Figure pct00001
여기서, P는 예측 경로(즉 교통수단이 가능하게 경과할 가능성이 있는 예측 경로)를 표시하고; X는 카메라를 표시하며; N은 하나의 예측 경로 상의 카메라의 개수를 표시하며, X1부터 XN까지는,
Figure pct00002
은 X1이 촬영한 상기 교통수단의 이미지 정보를 표시하며, 이것으로 유추해보면,
Figure pct00003
은XN이 촬영한 상기 교통수단의 이미지 정보를 표시하고,
Figure pct00004
은 위치 에너지 함수(즉, Siamese-CNN의 출력, 0~1 사이의 확률값임)를 표시하며,
Figure pct00005
Figure pct00006
Figure pct00007
사이의 위치 에너지 함수 쌍을 표시하며,
Figure pct00008
Figure pct00009
는 동일한 교통수단의 정보를 포함한 것으로 인식된다.
Figure pct00010
Figure pct00011
에 동일한 교통수단의 정보가 확실히 포함된 경우,
Figure pct00012
는 큰 값을 가지게 되며, 그렇지 않으면 작은 값을 가지게 된다.
상기 식 1을 최대화할 경우, 식 2의 시간 제약을 사용하여, 식 2로 하여금 식 3을 만족시키도록 할 수 있으며, 즉,
식 2
Figure pct00013
식 3
Figure pct00014
여기서, t는 시간을 표시하고,
Figure pct00015
Figure pct00016
Figure pct00017
에 대응하는 이미지의 정보의 최적 선택과
Figure pct00018
에 대응하는 이미지의 정보의 최적 선택을 각각 표시하고; X는 카메라를 표시하며; N은 하나의 예측 경로 상의 카메라의 개수를 표시하며, X1부터 XN까지는,
Figure pct00019
은 X1이 촬영한 상기 교통수단의 이미지 정보를 표시하며, 이것으로 유추해보면,
Figure pct00020
은 XN이 촬영한 상기 교통수단의 이미지 정보를 표시한다.
상기 식 1, 식 2 및 식 3에서, 이미지의 정보는 이미지의 시간 정보, 공간 정보 및 특징 정보를 모두 포함한다.
상기 식 1, 식 2 및 식 3에 기반하여, 상기 식 1은 최적 경로를 얻기 위해 아래의 식 4로 최적화될 수 있으며, 즉 교통수단이 통과될 수 있는 최대 확률 경로이다.
식 4
Figure pct00021
상기 과정을 통해, 상기 교통수단이 경과할 가능성이 가장 높은 하나의 예측 경로를 결정할 수 있다.
예를 들어, 제1 이미지를 예측 경로 헤드 노드 A로서 사용하고, 제2 이미지를 예측 경로 테일 노드 D로서 사용하여, 촬영 기기 사이의 위치 관계에 따라, 차량의 가능한 주행 노선은, 노선 1: A->B->C->D; 노선 2: A->E->D; 노선 3: A->F->G->H->D을 포함한다. 상기 식 4를 계산한 후, 노선 1의 확률은 85%, 노선 2의 확률은 95%, 노선 3의 확률은 70%인 것으로 결정되고, 노선 2는 교통수단의 예측 경로로서 결정될 수 있다.
설명해야 할 것은, 상기 과정은 체인 MRF에 의해 예시되지만, 실제 응용에서, 당업자는 다른 적절한 방식을 사용하여 상기 결정될 타겟의 예측 경로의 생성을 구현할 수 있다. 예를 들어, 상기 결정될 타겟의 예측 경로를 생성하기 위해, 심층 신경망에 따라 제1 이미지 및 제2 이미지의 배경 정보를 검출한다.
단계 S206에 있어서, 신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정한다.
여기서, 상기 신경망은 특징 추출 또는 타겟 대상 인식을 적절히 구현할 수 있는 신경망일 수 있으며, 컨볼루션 신경망, 학습 강화 신경망, 안티 신경망에서의 생성 네트워크 등을 포함하나 이에 한정되지 않는다. 신경망에서의 구체적인 구조의 설치는 컨볼루션 층의 층 수, 컨볼루션 커널의 크기, 채널 수 등과 같은 실제 요구에 따라 당업자에 의해 적절히 설정될 수 있으며, 본 실시예는 이를 한정하지 않는다.
구체적인 실시형태에 있어서, 상기 신경망은 장단기 메모리(Long Short Term Memory, LSTM)일 수 있다. LSTM은 시간 반복 신경망이며, 순환 신경망(RNN)의 변종으로서, 시퀀스 정보를 처리하는 것에 능숙하다. 본 발명의 실시예에서, 교통수단의 예측 경로는 하나의 시퀀스 정보로 간주될 수 있으며, 예측 경로의 유효성을 결정하기 위해, LSTM을 사용하여 처리된다.
유효성 판단은 하나의 예측 경로가 동일한 하나의 결정될 타겟의 주행 노선일지에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다.
본 실시예에서, 상기 예측 경로에서 인접한 이미지의 시간 정보에 따라, 인접한 이미지의 시차를 획득할 수 있고; 인접한 이미지의 공간 정보에 따라, 인접한 이미지의 공간 차이를 획득할 수 있으며; 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득할 수 있으며; 획득된 상기 예측 경로에서 인접한 이미지의 시차, 공간 차이 및 특징 차이를 LSTM에 입력하여, 상기 예측 경로의 결정될 타겟의 인식 확률을 획득할 수 있으며; 및 상기 예측 경로의 결정될 타겟의 인식 확률에 따라, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정할 수 있다. 여기서, 결정될 타겟이 동일한 결정될 타겟인지 여부에 대한 판단 기준의 구체적인 설정은 실제 요구에 따라 당업자에 의해 적절하게 설정될 수 있으며, 본 발명의 실시예는 이를 한정하지 않는다.
여기서, 인접한 이미지의 시차는 양자의 시간 정보를 상쇄하여 얻을 수 있으며; 인접한 이미지의 공간 차이는 양자 사이의 거리를 계산하여 얻을 수 있고; 인접한 이미지의 특징 차이는 양자의 특징 벡터를 상쇄하여 얻을 수 있다. 가능한 방식에 있어서, 인접한 이미지의 특징 차이를 획득할 경우, Siamese-CNN을 통해, 인접한 이미지에서 결정될 타겟의 특징 정보를 각각 획득할 수 있으며; 및 각각 획득된 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득할 수 있다. 여기서, 본 단계에서의 Siamese-CNN는 단계 S204에서의 Siamese-CNN과 동일하거나 상이할 수 있다.
본 실시예에서, MRF를 통해 임의의 두 장의 교통수단 이미지 사이의 주행 노선을 얻은 후, 상기 주행 노선이 유효한지에 대해 판단을 진행해야 하며, 즉 유효성 판단을 진행해야 한다. 여기서, 유효는 상기 주행 노선이 하나의 동일한 교통수단이 경과하는 노선을 의미하며, 그렇지 않으면 유효하지 않은 노선이다. 본 실시예에서, 사용된 판단 방식은 LSTM을 사용하여 판단을 진행하는 것이며, 상기 LSTM의 입력은 노선 상의 인접 노드 사이의 시차(즉, 시간 차이), 거리 차이(즉, 공간 차이) 및 이들의 외관 차이(즉, 특징 차이)이며, 상술한 바와 같이, 여기서 외관 차이는 두 장의 이미지를 Siamese-CNN에 입력한 후 출력된 특징 벡터로 직접 상쇄하여 얻을 수 있다. 상기 LSTM의 출력은 하나의 확률값이며, 상기 확률값을 통해, 예측 경로가 유효한지 여부에 대해 판단을 진행할 수 있으며, 또한 두 장의 이미지에서의 교통수단이 확실히 동일한 교통수단인지를 판단한다.
이로써, 본 실시예를 통해, 제1 이미지 및 제2 이미지에 포함된 시공간 정보 및 특징 정보에 기반하여, 이미지에서 결정될 타겟이 통과될 가능성이 있는 예측 경로가 생성되고; 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한지 여부를 결정하기 위해, 상기 예측 경로에 대해 유효성 판단을 진행한다. 여기서, 유효성 판단은 현재 예측 경로가 결정될 타겟의 주행 노선과 동일한지 여부에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다. 따라서, 상이한 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 정확한 검출 및 인식을 진행할 수 있다.
본 실시예의 타겟 인식 방법은 이미지 또는 데이터 처리 능력을 갖는 임의의 적합한 기기에 의해 수행될 수 있으며, 카메라, 단말, 이동 단말, 개인용 컴퓨터(PC), 서버, 차량용 기기, 엔터테인먼트 기기, 광고 기기, 개인용 정보 단말기(Personal Digital Assistants, PDA), 태블릿, 노트북, 핸드 헬드 게임 콘솔, 스마트 안경, 스마트 시계, 웨어러블 장치, 가상 디스플레이 기기 또는 디스플레이 개선 기기(예를 들어, Google Glass, Oculus Rift, Hololens, Gear VR) 등을 포함하나 이에 한정되지 않는다.
실시예 3
도 3을 참조하면, 본 발명의 실시예 3에 따른 타겟 인식 방법의 흐름 모식도를 도시한다. 본 실시예에 있어서, 본 발명의 실시예의 타겟 인식 방법에 대해, 결정될 타겟으로서 교통수단을 예로 들어 설명하였으나, 당업자는 실제 응용에서, 다른 결정될 타겟이 본 실시예를 참조하여 대응하는 타겟 인식 동작을 구현할 수 있다는 것을 이해해야 한다.
본 실시예의 타겟 인식 방법은 아래의 단계를 포함한다.
단계 S302에 있어서, 상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정한다.
여기서, 제1 이미지 및 제2 이미지에는 결정될 타겟의 정보가 모두 포함되어 있다.
본 발명의 실시예에서, 제1 이미지 및 제2 이미지는 시공간 시퀀스 관계를 가지며, 상응한 결정될 타겟의 정보를 모두 포함하며, 이미지의 시간 정보, 공간 정보, 이미지 특징 정보를 종합적으로 고려한 기초 상에서, 당업자는 임의의 적절한 방법을 사용하여 이 두 장의 이미지에서 결정될 타겟의 초기 동일 확률값을 초보적으로 결정할 수 있다.
하나의 가능한 방안에 있어서, Siamese-CNN을 사용하여 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 획득할 수 있다.
Siamese-CNN은 적어도 두 개의 브랜치를 갖는 CNN이며, 복수 개의 입력을 동시에 수신할 수 있으며, 상기 복수 개의 입력의 유사도(확률의 형식으로 표시될 수 있음)를 출력할 수 있다. 듀얼 브랜치의 경우, 듀얼 브랜치를 통해 Siamese-CNN에 두 장의 이미지를 입력할 수 있으며, Siamese-CNN은 이 두 장의 이미지 사이의 유사도를 출력하며, 또는 두 장의 이미지가 유사한지 여부에 대한 판단 결과를 출력한다. 본 실시예에서 Siamese-CNN은 3 개의 브랜치를 포함하며, 여기서 2 개의 브랜치는 입력된 이미지를 수신하기 위한 것이고, 하나의 브랜치는 입력된 2 개의 이미지 사이의 시간 정보의 차이(시차) 및 공간 정보의 차이(공간 차이)를 수신하기 위한 것이다. 입력된 이미지에 대해 검출을 진행하여 이미지에서 타겟 대상(본 실시예에서는 교통수단임)이 특징 측면에서의 유사도(예를 들어, 외관 유사도)를 출력하며, 및 입력된 시간 정보의 차이와 공간 정보의 차이에 대해 검출을 진행하여 이미지에서 타겟 대상이 시공간 측면에서의 유사도를 출력한다. 이 두 측면의 유사도에 따라, 본 실시예에서 교통수단의 초기 동일 확률값과 같은 이미지에서의 타겟 대상을 추가로 결정할 수 있다.
이로써, 본 실시예에 있어서, 제1 이미지와 제2 이미지 및 제1 이미지와 제2 이미지 사이의 시간 정보의 차이와 공간 정보의 차이를 Siamese-CNN에 입력하여, 상기 제1 이미지와 제2 이미지에서 결정될 타겟의 초기 동일 확률값을 획득할 수 있다. 초기 동일 확률 값을 획득한 후, 상기 초기 동일 확률값에 따라 상기 제1 이미지 및 제2 이미지에서 동일한 결정될 타겟을 갖는다고 초보적으로 결정할 수 있다. 구체적으로, 상기 초기 동일 확률값과 기 설정값을 비교하면, 상기 초기 동일 확률값이 기 설정값보다 작거나 같을 경우, 상기 제1 이미지 및 제2 이미지에서 동일한 결정될 타겟을 갖지 않는다고 결정하며, 상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 제2 이미지에서 동일한 결정될 타겟을 갖는다고 초보적으로 결정한다. 여기서, 상기 기 설정값은 실제 조건에 따라 당업자에 의해 적절히 설정될 수 있으며, 본 발명의 실시예는 이를 한정하지 않는다.
Siamese-CNN은 시공간 정보가 있는 두 장의 이미지에서의 교통수단과 같은 타겟 대상의 유사 정도에 대해 유효 판단을 진행할 수 있으나, Siamese-CNN에 한정되지 않으며, 유사한 기능을 갖거나 동일한 목적을 실현할 수 있는 다른 방식 또는 신경망도 본 발명의 실시예의 방안에 동일하게 적용될 수 있다.
단계 S304에 있어서, 상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 상기 예측 경로를 생성한다.
보행자의 이동 노선과 비교하면, 교통수단과 같은 결정될 타겟의 주행 노선은 더욱 규칙적이며, 따라서, 노선 예측 결과를 통해 교통수단 재인식의 신뢰성을 향상시키기 위해, 교통수단의 특징 정보(교통수단의 외관을 특징화할 수 있음)와 시공간 정보를 결합 사용하여 교통수단의 노선에 대해 예측을 진행할 수 있다.
전술한 바와 같이, 제1 이미지 및 제2 이미지는 시공간 시퀀스 관계를 갖는 이미지이며, 이를 기초로, 이미지에서의 교통수단의 가능한 주행 노선을 더 찾아야 하며, 여기서, 상기 주행 노선 상에서 촬영된 교통수단의 이미지는 제1 이미지 및 제2 이미지와 모두 시공간 시퀀스 관계를 가져야 한다.
구체적인 실시형태에 있어서, 제1 이미지 정보 및 제2 이미지 정보에 따라, MRF를 사용하여 상기 결정될 타겟의 예측 경로를 생성한다. 구체적인 구현 과정과 상기 실시예 2에서의 단계 S204는 유사하며, 여기서 더 이상 반복하지 않는다.
단계 S306에 있어서, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 재인식을 진행한다.
여기서, 유효성 판단은 하나의 예측 경로가 동일한 하나의 결정될 타겟의 주행 노선일지에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다.
예를 들어, 어떤 경우에 있어서, 초기 결정의 결과 자체가 잘못되었을 수 있으며, 즉, 제1 이미지에서의 교통수단 및 제2 이미지에서의 교통수단은 동일한 교통수단이 아닐 수 있으나, 동일한 교통수단으로 잘못 인식될 수 있다. 양자가 동일한 교통수단이 아닐 경우, 적절한 시간 범위 내에서 동일한 주행 노선을 가질 확률은 매우 낮으며, 따라서, 제1 이미지 정보 및 제2 이미지 정보에 따라 결정된 예측 경로의 유효성도 낮으므로, 제1 이미지 및 제2 이미지에서의 교통수단이 동일한 교통수단인지 여부에 대한 재판단과 인식을 구현할 수 있다.
구체적인 실시형태에 있어서, LSTM을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 따라 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 재인식을 진행한다. 구체적인 구현 과정과 상기 실시예 2에서의 단계 S206는 유사하며, 여기서 더 이상 설명하지 않는다.
본 실시예에서 제공된 타겟 인식 방법에 따르면, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟이 동일하다고 초보적으로 결정한 기초상에서, 상기 결정될 타겟 통과될 가능성이 있는 예측 경로를 결정하며; 또한, 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대한 재인식을 구현하기 위해, 상기 예측 경로에 대한 유효성 판단을 통해, 초기 결정된 결과가 정확한지 여부를 결정한다. 여기서, 유효성 판단은 현재 예측 경로가 결정될 타겟의 주행 노선과 동일한지 여부에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다. 따라서, 상이한 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 정확한 재검출과 인식을 진행한다.
본 실시예의 타겟 인식 방법은 이미지 또는 데이터 처리 능력을 갖는 임의의 적합한 기기에 의해 수행될 수 있으며, 카메라, 단말, 이동 단말, 개인용 컴퓨터(PC), 서버, 차량용 기기, 엔터테인먼트 기기, 광고 기기, 개인용 정보 단말기(Personal Digital Assistants, PDA), 태블릿, 노트북, 핸드 헬드 게임 콘솔, 스마트 안경, 스마트 시계, 웨어러블 장치, 가상 디스플레이 기기 또는 디스플레이 개선 기기(예를 들어, Google Glass, Oculus Rift, Hololens, Gear VR) 등을 포함하지만 이에 한정되지 않는다.
실시예 4
동일한 기술적 구상에 기반하면, 도 4는 본 발명의 실시예 4에 따른 타겟 인식 장치의 구조 블록도를 도시한다. 실시예 1에 따른 타겟 인식 방법 흐름을 수행하는 것에 사용될 수 있다.
도 4를 참조하면, 상기 타겟 인식 장치는 획득 모듈(401), 생성 모듈(402) 및 제1 결정 모듈(403)을 포함한다.
획득 모듈(401)은, 제1 이미지 및 제2 이미지를 획득하도록 구성되며, 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함한다.
생성 모듈(402)은, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하도록 구성되며, 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응된다.
제1 결정 모듈(403)은, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성된다.
본 실시예에서 제공된 타겟 인식 장치를 통해 제1 이미지 및 제2 이미지에 포함된 정보에 기반하여, 결정될 타겟이 통과될 가능성이 있는 예측 경로가 생성되고; 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한지 여부를 결정하기 위해, 상기 예측 경로에 대해 유효성 판단을 진행한다. 여기서, 유효성 판단은 현재 예측 경로가 결정될 타겟의 주행 노선과 동일한지 여부에 대한 가능성 판단이며, 가능성이 높을수록 제1 이미지 및 제2 이미지에서 결정될 타겟은 동일한 결정될 타겟일 가능성이 더 높다. 따라서, 상이한 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부에 대해 정확한 검출 및 인식을 진행할 수 있다.
실시예 5
동일한 기술적 구상에 기반하면, 도 5는 본 발명의 실시예 5의 타겟 인식 장치의 구조 모식도를 도시한다 실시예 2에 따른 타겟 인식 방법 흐름을 수행하는 것에 사용될 수 있다.
도 5를 참조하면, 상기 타겟 인식 장치는 획득 모듈(501), 생성 모듈(502) 및 제1 결정 모듈(503)을 포함한다. 여기서, 획득 모듈(501)은, 제1 이미지 및 제2 이미지를 획득하도록 구성되며, 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함하며; 생성 모듈(502)은, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하도록 구성되며, 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응되며; 제1 결정 모듈(503)은, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성된다.
일 실시예에 있어서, 상기 생성 모듈(502)은, 상기 제1 이미지의 특징 정보, 상기 제1 이미지의 시간 정보, 상기 제1 이미지의 공간 정보, 상기 제2 이미지의 특징 정보, 상기 제2 이미지의 시간 정보 및 상기 제2 이미지의 공간 정보에 따라, 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하도록 구성되는 제2 생성 서브 모듈(5021)을 포함한다.
일 실시예에 있어서, 상기 제2 생성 서브 모듈(5021)은, MRF를 통해 획득된 이미지 세트로부터 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하도록 구성되는 제1 결정 유닛(5022); 및 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하도록 구성되는 제1 생성 유닛(5023)을 포함한다.
일 실시예에 있어서, 상기 제1 생성 유닛(5023)은,결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하도록 구성되는 제2 생성 유닛(5024)을 포함하며, 상기 예측 경로는 상기 헤드 노드 및 상기 테일 노드에 대응하는 것 외에, 또한 적어도 하나의 중간 노드에도 대응한다.
일 실시예에 있어서, 상기 제1 결정 유닛(5022)은, 상기 제1 이미지의 공간 정보에 대응하는 위치를 시작 위치로 하고, 상기 제2 이미지의 공간 정보에 대응하는 위치를 종료 위치로 하여, 상기 시작 위치로부터 상기 종료 위치까지의 모든 촬영 기기의 위치 정보를 획득하며; 모든 촬영 기기의 위치 정보에 의해 지시되는 위치 사이의 관계에 따라, 상기 시작 위치에 대응하는 촬영 기기를 시작점으로 하고, 상기 종료 위치에 대응하는 촬영 기기를 종료점으로 하여, 적어도 하나의 기기 경로를 생성하고, 각 기기 경로는 상기 시작점의 촬영 기기 및 상기 종료점의 촬영 기기의 정보 외에, 적어도 하나의 다른 촬영 기기의 정보를 더 포함하며; 각 기기 경로에 대해, 상기 제1 이미지의 시간 정보에 대응하는 시간을 시작 시간으로 하고, 상기 제2 이미지의 시간 정보에 대응하는 시간을 종료 시간으로 하여, 현재 경로 상의 각각의 다른 촬영 기기에 의해 촬영된 이미지로부터, 현재 촬영 기기에 인접한 이전 촬영 기기에 의해 촬영된 상기 결정될 타겟의 정보를 포함하는 이미지와 설정 시간 시퀀스 관계를 갖고 또한 상기 결정될 타겟의 정보를 포함하는 이미지를 결정하도록 구성된다.
일 실시예에 있어서, 상기 제2 생성 유닛(5024)은, 각 기기 경로에 대해, 결정된 상기 이미지의 시간 시퀀스 관계에 따라, 시공간 시퀀스 관계를 갖는 복수 개의 연결된 중간 노드를 생성하며; 상기 헤드 노드, 상기 테일 노드 및 상기 중간 노드에 따라, 현재 기기 경로에 대응하는 시공간 시퀀스 관계를 갖는 이미지 경로를 생성하며; 각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하도록 구성된다.
일 실시예에 있어서, 상기 제2 생성 유닛(5024)은, 각 기기 경로에 대응하는 이미지 경로에 대해, 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률을 획득하며; 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률에 따라, 상기 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률을 계산하며; 각 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률에 따라, 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하도록 더 구성된다.
일 실시예에 있어서, 상기 제1 결정 모듈(503)은,신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제2 결정 서브 모듈(5031)을 포함한다.
일 실시예에 있어서, 상기 제2 결정 서브 모듈(5031)은, 상기 예측 경로에서 인접한 이미지의 시간 정보에 따라, 인접한 이미지의 시차를 획득하며; 인접한 이미지의 공간 정보에 따라, 인접한 이미지의 공간 차이를 획득하며; 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하도록 구성되는 제1 획득 유닛(5032); 획득된 상기 예측 경로에서 인접한 이미지의 시차, 공간 차이 및 특징 차이를 LSTM에 입력하여, 상기 예측 경로의 결정될 타겟의 인식 확률을 획득하도록 구성되는 제2 획득 유닛(5033); 및 상기 예측 경로의 결정될 타겟의 인식 확률에 따라, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제2 결정 유닛(5034)을 포함한다.
일 실시예에 있어서, 상기 제1 획득 유닛(5032)은, Siamese-CNN을 통해, 인접한 이미지에서 결정될 타겟의 특징 정보를 각각 획득하는 단계; 및 각각 획득된 상기 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하도록 구성된다.
설명해야 할 것은, 본 발명의 실시예에서 제공되는 타겟 인식 장치의 세부 사항은 본 발명의 실시예에서 제공되는 타겟 인식 방법에서 상세히 설명되며, 여기서는 더 이상 설명하지 않는다.
실시예 6
동일한 기술적 구상에 기반하면, 도 6은 본 발명의 실시예 6에 따른 타겟 인식 장치의 구조 블록도이다. 실시예 3에 따른 타겟 인식 방법 흐름을 수행하는 것에 사용될 수 있다.
도 6를 참조하면, 상기 타겟 인식 장치는 획득 모듈(601), 생성 모듈(603) 및 제1 결정 모듈(604)을 포함한다. 여기서, 획득 모듈(601)은, 제1 이미지 및 제2 이미지를 획득하도록 구성되며, 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함한다. 생성 모듈(603)은, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하도록 구성되며, 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응된다. 제1 결정 모듈(604)은, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성된다.
일 실시예에 있어서, 상기 결정될 타겟은 교통수단이다.
일 실시예에 있어서, 상기 장치는, 상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하도록 구성되는 제2 결정 모듈(602)을 더 포함한다. 이에 대응하여, 상기 생성 모듈(603)은, 상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 상기 예측 경로를 생성하도록 구성되는 제1 생성 서브 모듈(6031)을 포함한다.
일 실시예에 있어서, 상기 제2 결정 모듈(602)은, 상기 제1 이미지 및 상기 제2 이미지 및 상기 제1 이미지 및 상기 제2 이미지 사이의 시간 정보의 차이와 공간 정보의 차이를 Siamese-CNN에 입력하여, 상기 제1 이미지와 제2 이미지에서 결정될 타겟의 초기 동일 확률값을 획득하도록 구성되는 제1 결정 서브 모듈(6021)을 포함한다.
설명해야 할 것은, 본 발명의 실시예에서 제공되는 타겟 인식 장치의 세부 사항은 본 발명의 실시예에서 제공되는 타겟 인식 방법에서 상세히 설명되며, 여기서는 더 이상 설명하지 않는다.
실시예 7
본 발명의 실시예 7은 전자 기기를 제공하며, 예를 들어, 이동 단말, 개인용 컴퓨터(PC), 태블릿, 서버 등일 수 있다. 아래에 도 7을 참조하면, 본 발명의 실시예에 따른 단말기기 또는 서버를 구현하기에 적합한 전자 기기(700)의 구조 모식도이다. 도 7에 도시된 바와 같이, 전자 기기(700)는 하나 또는 복수 개의 프로세서, 통신 요소 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는, 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(CPU)(701), 및 하나 또는 복수 개의 그래픽 처리 장치(GPU)(713) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(ROM)(702)에 저장된 수행 가능 명령어 또는 저장 부분(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로딩된 수행 가능 명령어에 따라 다양한 적절한 동작 및 처리를 수행할 수 있다. 통신 요소는 통신 컴포넌트(712) 및 통신 인터페이스(709)를 포함한다. 여기서, 통신 컴포넌트(712)는 네트워크 카드를 포함할 수 있으나 이에 한정되지 않으며, 상기 네트워크 카드는 인피니밴드(InfiniBand, IB) 네트워크 카드를 포함할 수 있으나 이에 한정되지 않으며, 통신 인터페이스(709)는 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드의 통신 인터페이스를 포함하고, 통신 인터페이스(709)는 인터넷과 같은 네트워크에 의해 통신처리를 수행한다.
프로세서는 수행 가능 명령어를 수행하기 위해 판독 전용 메모리(702) 및 랜덤 액세스 메모리(703)와 통신할 수 있으며, 통신 버스(704)를 통해 통신 컴포넌트(712)와 연결되고, 통신 컴포넌트(712)는 다른 타겟 기기와 통신함으로써, 본 발명의 실시예에서 제공된 임의의 타겟 인식 방법에 대응하는 동작을 완성하며, 예를 들어, 제1 이미지 및 제2 이미지를 획득하며 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ; 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하며 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응됨 - ; 및 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정한다.
또한, RAM(703)에는 장치의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(701), GPU(713), ROM(702) 및 RAM(703)은 통신 버스(704)를 통해 서로 연결된다. RAM(703)이 있는 경우, ROM(702)은 옵션 모듈이다. RAM(703)은 수행 가능 명령어를 저장하고, 또는 작동될 경우, ROM(702)에 수행 가능 명령어를 기록하며, 수행 가능 명령어는 프로세서로 하여금 상기 통신 방법에 대응하는 동작을 수행하도록 한다. 입력/출력(I/O) 인터페이스(705)도 버스에(704) 연결된다. 통신 컴포넌트(712)는 통합될 수 있거나, 통신 버스에 연결된 복수 개의 서브 모듈(예를 들어, 복수 개의 IB 네트워크 카드)을 갖도록 구성될 수 있다.
다음의 구성 요소, 즉 키보드, 마우스 등을 포함하는 입력 부분(706); 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분(707); 하드웨어 등을 포함하는 저장 부분(708); 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신 인터페이스(709)는 I/O 인터페이스(705)에 연결된다. 드라이브(710)는 필요에 따라 I/O 인터페이스(705)에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 매체(711)는 필요에 따라 제거 가능한 매체로부터 판독된 컴퓨터 프로그램이 저장부분(708)에 설치되도록 필요에 따라 드라이브(710)에 장착된다.
설명해야 할 것은, 도 7에 도시된 아키텍처는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 7의 구성 요소의 개수 및 유형은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수 있으며, 예를 들어 GPU 및 CPU는 분리 설치되거나 GPU가 CPU에 통합되며, 통신 소자는 CPU 또는 GPU에 분리 설치 또는 통합 설치될 수 있는 등이다. 이들 대안적인 실시 형태는 모두 본 발명의 보호 범위에 속한다.
특히, 본 발명의 실시예에 따라, 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현된다. 예를 들어, 본 발명의 실시예는 컴퓨터 프로그램 제품을 포함하고, 기계 판독 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법의 프로그램 코드를 수행하기 위한 것이며, 프로그램 코드는 본 발명의 실시예에서 제공되는 방법의 단계를 수행하는 대응되는 명령어를 포함할 수 있으며, 예를 들어, 제1 이미지 및 제2 이미지를 획득하는 단계 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ; 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 단계 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응됨 - ; 및 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함한다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신 요소를 통해 네트워크로부터 다운로드 및 설치될 수 있고, 및/또는 제거 가능한 매체(711)로부터 설치될 수 있다. 본 발명의 실시예의 방법에서 정의한 상기 기능은 상기 컴퓨터 프로그램 프로세서에 의해 수행될 경우에 수행된다.
지적해야 할 것은, 실시의 필요에 따라, 본 발명의 실시예에서 설명된 각 부품/단계는 더 많은 부품/단계로 분리될 수 있으며, 두 개 또는 복수 개의 부품/단계 또는 부품/단계의 부분 동작을 새로운 부품/단계로 조합하여, 본 발명의 실시예의 목적을 달성할 수도 있다.
본 발명의 실시예에 따른 상기 방법은 하드웨어, 펌웨어에서 구현되거나, 기록 매체(예를 들어, CD-ROM, RAM, 플로피 디스크, 하드 디스크 또는 광 자기 디스크)에 저장될 수 있는 소프트웨어 또는 컴퓨터 코드로서 구현되거나, 네트워크를 통해 다운로드 되어 일차적으로 원격 기록 매체 또는 비 일시적 기계 판독 가능 매체에 저장되고 로컬 기록 매체에 저장되는 컴퓨터 코드를 통해 구현됨으로써, 여기에 설명 된 방법들은 범용 컴퓨터, 전용 프로세서, 프로그램 가능 하드웨어, 전용 하드웨어(예를 들어, ASIC 또는 FPGA)를 사용하여 기록 매체상의 이러한 소프트웨어 처리에 저장될 수있다. 이해할 수 있는 것은, 컴퓨터, 프로세서, 마이크로 프로세서 컨트롤러 또는 프로그램 가능 하드웨어는 소프트웨어 또는 컴퓨터 코드를 저장하거나 수신할 수 있는 저장 구성 요소 (예를 들어, RAM, ROM, 플래시 메모리 등)를 포함하며, 본 명세서에 기술된 처리 방법은 소프트웨어 또는 컴퓨터 코드가 컴퓨터, 프로세서 또는 하드웨어에 의해 액세스되고 실행될 경우 구현된다. 또한, 범용 컴퓨터가 이에 도시된 처리를 구현하기 위한 코드에 액세스할 때, 코드의 수행은 범용 컴퓨터를 이에 도시된 처리를 수행하기 위한 특수 목적 컴퓨터로 변환한다.
본 기술분야의 통상의 기술자는 본문에서 개시된 실시 예에서 설명된 다양한 예시적 유닛 및 알고리즘 단계와 결부하여 전자 하드웨어 또는 컴퓨터 소프트웨어 및 전자 하드웨어의 조합으로 구현될 수 있다는 것을 이해할 것이다. 이러한 기능이 하드웨어 방식으로 실행될지 아니면 소프트웨어 방식으로 실행될지 여부는 기술 방안의 특정 응용 및 설계 제약 조건에 따라 결정된다. 전문 기술자는 각 특정 응용에 대해 상이한 방법을 사용하여 설명된 기능을 구현할 수 있으나, 이러한 구현은 본 발명의 실시 예의 범위를 벗어나는 것으로 간주되어서는 안된다.
이상의 실시형태는 본 발명의 실시예를 설명하기 위해 사용된 것이지, 본 발명의 실시예를 한정하려는 것은 아니며, 당업자는 본 발명의 실시 예의 사상 및 범위를 벗어나지 않고 다양한 변경 및 수정을 수행할 수 있으므로, 동등한 기술 방안도 본 발명의 실시예의 범위 내에 있으며, 본 발명의 실시 예의 특허 보호 범위는 청구 범위에 의해 한정되어야 한다.

Claims (28)

  1. 타겟 인식 방법으로서,
    제1 이미지 및 제2 이미지를 획득하는 단계 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ;
    상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 단계 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응함 - ; 및
    상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  2. 제1항에 있어서,
    상기 결정될 타겟은 교통수단인 것을 특징으로 하는 타겟 인식 방법.
  3. 제1항에 있어서,
    상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 상기 단계 이전에, 상기 방법은,
    상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하는 단계를 더 포함하며;
    상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 상기 단계는,
    상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 상기 예측 경로를 생성하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  4. 제3항에 있어서,
    상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하는 상기 단계는,
    상기 제1 이미지 및 상기 제2 이미지 및 상기 제1 이미지 및 상기 제2 이미지 사이의 시간 정보의 차이와 공간 정보의 차이를 샴 컨벌루션 뉴럴 네트워크(Siamese Convolutional Neural Network, Siamese-CNN)에 입력하여, 상기 제1 이미지와 제2 이미지에서 결정될 타겟의 초기 동일 확률값을 획득하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하는 상기 단계는,
    상기 제1 이미지의 특징 정보, 상기 제1 이미지의 시간 정보, 상기 제1 이미지의 공간 정보, 상기 제2 이미지의 특징 정보, 상기 제2 이미지의 시간 정보 및 상기 제2 이미지의 공간 정보에 따라, 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  6. 제5항에 있어서,
    상기 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하는 상기 단계는,
    마르코프 랜덤 필드(Markov Random Field, MRF) 모델을 통해 획득된 이미지 세트로부터, 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하는 단계; 및
    결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  7. 제6항에 있어서,
    상기 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하는 상기 단계는,
    결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하는 단계 - 상기 예측 경로는 상기 헤드 노드 및 상기 테일 노드에 대응하는 것 외에, 또한 적어도 하나의 중간 노드에 대응함 - 을 포함하는 것을 특징으로 하는 타겟 인식 방법.
  8. 제7항에 있어서,
    마르코프 랜덤 필드(Markov Random Field, MRF) 모델을 통해 획득된 이미지 세트로부터, 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하는 상기 단계는,
    상기 제1 이미지의 공간 정보에 대응하는 위치를 시작 위치로 하고, 상기 제2 이미지의 공간 정보에 대응하는 위치를 종료 위치로 하여, 상기 시작 위치로부터 상기 종료 위치까지의 모든 촬영 기기의 위치 정보를 획득하는 단계;
    모든 촬영 기기의 위치 정보에 의해 지시되는 위치 사이의 관계에 따라, 상기 시작 위치에 대응하는 촬영 기기를 시작점으로 하고, 상기 종료 위치에 대응하는 촬영 기기를 종료점으로 하여, 적어도 하나의 기기 경로를 생성하는 단계 - 각 기기 경로는 상기 시작점의 촬영 기기 및 상기 종료점의 촬영 기기의 정보 외에, 적어도 하나의 다른 촬영 기기의 정보를 더 포함함 - ; 및
    각 기기 경로에 대해, 상기 제1 이미지의 시간 정보에 대응하는 시간을 시작 시간으로 하고, 상기 제2 이미지의 시간 정보에 대응하는 시간을 종료 시간으로 하여, 현재 경로 상의 각각의 다른 촬영 기기에 의해 촬영된 이미지로부터, 현재 촬영 기기에 인접한 이전 촬영 기기에 의해 촬영된 상기 결정될 타겟의 정보를 포함하는 이미지와 설정 시간 시퀀스 관계를 갖고 또한 상기 결정될 타겟의 정보를 포함하는 이미지를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  9. 제8항에 있어서,
    상기 결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하는 상기 단계는,
    각 기기 경로에 대해, 결정된 상기 이미지의 시간 시퀀스 관계에 따라, 시공간 시퀀스 관계를 갖는 복수 개의 연결된 중간 노드를 생성하며; 상기 헤드 노드, 상기 테일 노드 및 상기 중간 노드에 따라, 현재 기기 경로에 대응하는 시공간 시퀀스 관계를 갖는 이미지 경로를 생성하는 단계; 및
    각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  10. 제9항에 있어서,
    각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하는 상기 단계는,
    각 기기 경로에 대응하는 이미지 경로에 대해, 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률을 획득하는 단계;
    상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률에 따라, 상기 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률을 계산하는 단계; 및
    각 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률에 따라, 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 상기 단계는,
    신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  12. 제11항에 있어서,
    신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 상기 단계는,
    상기 예측 경로에서 인접한 이미지의 시간 정보에 따라, 인접한 이미지의 시차를 획득하고, 인접한 이미지의 공간 정보에 따라, 인접한 이미지의 공간 차이를 획득하하며, 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하는 단계;
    획득된 상기 예측 경로에서 인접한 이미지의 시차, 공간 차이 및 특징 차이를 LSTM(Long-Short term Memory)에 입력하여, 상기 예측 경로의 결정될 타겟의 인식 확률을 획득하는 단계; 및
    상기 예측 경로의 결정될 타겟의 인식 확률에 따라, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  13. 제12항에 있어서,
    인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하는 상기 단계는,
    Siamese-CNN을 통해, 인접한 이미지에서 결정될 타겟의 특징 정보를 각각 획득하는 단계; 및
    각각 획득된 상기 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하는 단계를 포함하는 것을 특징으로 하는 타겟 인식 방법.
  14. 타겟 인식 장치로서,
    제1 이미지 및 제2 이미지를 획득하도록 구성되는 획득 모듈 - 상기 제1 이미지 및 상기 제2 이미지는 모두 결정될 타겟을 포함함 - ;
    상기 제1 이미지 및 상기 제2 이미지에 기반하여, 예측 경로를 생성하도록 구성되는 생성 모듈 - 상기 예측 경로의 양단은 각각 상기 제1 이미지 및 상기 제2 이미지에 대응됨 - ; 및
    상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 상기 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제1 결정 모듈을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  15. 제14항에 있어서,
    상기 결정될 타겟은 교통수단인 것을 특징으로 하는 타겟 인식 장치.
  16. 제14항에 있어서,
    상기 장치는,
    상기 제1 이미지의 시간 정보, 공간 정보, 이미지 특징 정보 및 상기 제2 이미지의 시간 정보, 공간 정보, 이미지 특징 정보에 따라, 상기 제1 이미지 및 상기 제2 이미지에 각각 포함된 결정될 타겟의 초기 동일 확률값을 결정하도록 구성되는 제2 결정 모듈을 더 포함하며;
    상기 생성 모듈은,
    상기 초기 동일 확률값이 기 설정값보다 클 경우, 상기 제1 이미지 및 상기 제2 이미지에 기반하여, 상기 예측 경로를 생성하도록 구성되는 제1 생성 서브 모듈을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  17. 제16항에 있어서,
    상기 제2 결정 모듈은,
    상기 제1 이미지 및 상기 제2 이미지 및 상기 제1 이미지 및 상기 제2 이미지 사이의 시간 정보의 차이와 공간 정보의 차이를 샴 컨벌루션 뉴럴 네트워크(Siamese-CNN)에 입력하여, 상기 제1 이미지와 제2 이미지에서 결정될 타겟의 초기 동일 확률값을 획득하도록 구성되는 제1 결정 서브 모듈을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  18. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 생성 모듈은,
    상기 제1 이미지의 특징 정보, 상기 제1 이미지의 시간 정보, 상기 제1 이미지의 공간 정보, 상기 제2 이미지의 특징 정보, 상기 제2 이미지의 시간 정보 및 상기 제2 이미지의 공간 정보에 따라, 확률 모델을 통해 상기 결정될 타겟의 예측 경로를 생성하도록 구성되는 제2 생성 서브 모듈을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  19. 제18항에 있어서,
    상기 제2 생성 서브 모듈은,
    마르코프 랜덤 필드 (Markov Random Field, MRF) 모델을 통해 획득된 이미지 세트로부터, 상기 결정될 타겟의 정보를 포함하면서 상기 제1 이미지 및 상기 제2 이미지와 모두 시공간 시퀀스 관계를 갖는 모든 이미지를 결정하도록 구성되는 제1 결정 유닛; 및
    결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 결정될 타겟의 예측 경로를 생성하도록 구성되는 제1 생성 유닛을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  20. 제19항에 있어서,
    상기 제1 생성 유닛은,
    결정된 모든 이미지에 대응하는 시간 정보 및 공간 정보에 따라, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 하나의 예측 경로를 생성하도록 구성되는 제2 생성 유닛 - 상기 예측 경로는 상기 헤드 노드 및 상기 테일 노드에 대응하는 것 외에, 또한 적어도 하나의 중간 노드에 대응함 - 을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  21. 제20항에 있어서,
    상기 제1 결정 유닛은,
    상기 제1 이미지의 공간 정보에 대응하는 위치를 시작 위치로 하고, 상기 제2 이미지의 공간 정보에 대응하는 위치를 종료 위치로 하여, 상기 시작 위치로부터 상기 종료 위치까지의 모든 촬영 기기의 위치 정보를 획득하며;
    모든 촬영 기기의 위치 정보에 의해 지시되는 위치 사이의 관계에 따라, 상기 시작 위치에 대응하는 촬영 기기를 시작점으로 하고, 상기 종료 위치에 대응하는 촬영 기기를 종료점으로 하여, 적어도 하나의 기기 경로를 생성하며, 각 기기 경로는 상기 시작점의 촬영 기기 및 상기 종료점의 촬영 기기의 정보 외에, 적어도 하나의 다른 촬영 기기의 정보를 더 포함하며;
    각 기기 경로에 대해, 상기 제1 이미지의 시간 정보에 대응하는 시간을 시작 시간으로 하고, 상기 제2 이미지의 시간 정보에 대응하는 시간을 종료 시간으로 하여, 현재 경로 상의 각각의 다른 촬영 기기에 의해 촬영된 이미지로부터, 현재 촬영 기기에 인접한 이전 촬영 기기에 의해 촬영된 상기 결정될 타겟의 정보를 포함하는 이미지와 설정 시간 시퀀스 관계를 갖고 또한 상기 결정될 타겟의 정보를 포함하는 이미지를 결정하도록 구성되는 것을 특징으로 하는 타겟 인식 장치.
  22. 제21항에 있어서,
    상기 제2 생성 유닛은,
    각 기기 경로에 대해, 결정된 상기 이미지의 시간 시퀀스 관계에 따라, 시공간 시퀀스 관계를 갖는 복수 개의 연결된 중간 노드를 생성하며; 상기 헤드 노드, 상기 테일 노드 및 상기 중간 노드에 따라, 현재 기기 경로에 대응하는 시공간 시퀀스 관계를 갖는 이미지 경로를 생성하며;
    각 기기 경로에 대응하는 이미지 경로로부터, 상기 제1 이미지를 헤드 노드로 하고, 상기 제2 이미지를 테일 노드로 하는 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하도록 구성되는 것을 특징으로 하는 타겟 인식 장치.
  23. 제22항에 있어서,
    상기 제2 생성 유닛은 또한,
    각 기기 경로에 대응하는 이미지 경로에 대해, 상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률을 획득하며;
    상기 이미지 경로에서 인접한 두 노드마다의 이미지 사이에서 결정될 타겟의 동일한 정보를 갖는 확률에 따라, 상기 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률을 계산하며;
    각 이미지 경로를 상기 결정될 타겟의 예측 경로로 하는 확률에 따라, 최대 확률 이미지 경로를 상기 결정될 타겟의 예측 경로로서 결정하도록 구성되는 것을 특징으로 하는 타겟 인식 장치.
  24. 제14항 내지 제23항 중 어느 한 항에 있어서,
    상기 제1 결정 모듈은,
    신경망을 통해, 상기 예측 경로에 대해 유효성 판단을 진행하고, 판단 결과에 근거하여, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제2 결정 서브 모듈을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  25. 제24항에 있어서,
    상기 제2 결정 서브 모듈은,
    상기 예측 경로에서 인접한 이미지의 시간 정보에 따라, 인접한 이미지의 시차를 획득하며; 인접한 이미지의 공간 정보에 따라, 인접한 이미지의 공간 차이를 획득하며; 인접한 이미지에서 결정될 타겟의 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하도록 구성되는 제1 획득 유닛;
    획득된 상기 예측 경로에서 인접한 이미지의 시차, 공간 차이 및 특징 차이를 LSTM(Long-Short term Memory)에 입력하여, 상기 예측 경로의 결정될 타겟의 인식 확률을 획득하도록 구성되는 제2 획득 유닛; 및
    상기 예측 경로의 결정될 타겟의 인식 확률에 따라, 상기 제1 이미지 및 제2 이미지에서 결정될 타겟이 동일한 결정될 타겟인지 여부를 결정하도록 구성되는 제2 결정 유닛을 포함하는 것을 특징으로 하는 타겟 인식 장치.
  26. 제25항에 있어서,
    상기 제1 획득 유닛은,
    Siamese-CNN을 통해, 인접한 이미지에서 결정될 타겟의 특징 정보를 각각 획득하고;
    각각 획득된 상기 특징 정보에 따라, 인접한 이미지에서 결정될 타겟의 특징 차이를 획득하도록 구성되는 것을 특징으로 하는 타겟 인식 장치.
  27. 컴퓨터 저장 매체로서,
    컴퓨터 프로그램 명령어가 저장되어 있고, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 수행될 경우 제1항 내지 제13항 중 어느 한 항에 따른 타겟 인식 방법의 단계를 구현하는 것을 특징으로 하는 컴퓨터 저장 매체.
  28. 전자 기기로서,
    프로세서, 메모리, 통신 요소 및 통신 버스를 포함하며, 상기 프로세서, 상기 메모리 및 상기 통신 요소는 상기 통신 버스를 통해 상호간의 통신을 완료하며;
    상기 메모리는 적어도 하나의 수행 가능 명령어를 저장하기 위한 것이며, 상기 수행 가능 명령어는 상기 프로세서로 하여금 제1항 내지 제13항 중 어느 한 항에 따른 타겟 인식 방법의 단계를 수행하도록 하는 것을 특징으로 하는 전자 기기.
KR1020197031657A 2017-07-28 2018-07-27 타겟 인식 방법, 장치, 저장 매체 및 전자 기기 KR102339323B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710633604.3 2017-07-28
CN201710633604.3A CN108229292A (zh) 2017-07-28 2017-07-28 目标识别方法、装置、存储介质和电子设备
PCT/CN2018/097374 WO2019020103A1 (zh) 2017-07-28 2018-07-27 目标识别方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
KR20190128724A true KR20190128724A (ko) 2019-11-18
KR102339323B1 KR102339323B1 (ko) 2021-12-14

Family

ID=62654256

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197031657A KR102339323B1 (ko) 2017-07-28 2018-07-27 타겟 인식 방법, 장치, 저장 매체 및 전자 기기

Country Status (6)

Country Link
US (3) US11200682B2 (ko)
JP (1) JP6893564B2 (ko)
KR (1) KR102339323B1 (ko)
CN (1) CN108229292A (ko)
SG (1) SG11201911625YA (ko)
WO (1) WO2019020103A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229292A (zh) 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 目标识别方法、装置、存储介质和电子设备
CN108921811B (zh) * 2018-04-03 2020-06-30 阿里巴巴集团控股有限公司 检测物品损伤的方法和装置、物品损伤检测器
CN109508787A (zh) * 2018-10-16 2019-03-22 深圳大学 用于超声位移估计的神经网络模型训练方法及系统
CN111160067A (zh) * 2018-11-07 2020-05-15 北京奇虎科技有限公司 危险识别方法、装置、电子设备及计算机可读存储介质
CN109740479A (zh) * 2018-12-25 2019-05-10 苏州科达科技股份有限公司 一种车辆重识别方法、装置、设备及可读存储介质
CN109726684B (zh) * 2018-12-29 2021-02-19 百度在线网络技术(北京)有限公司 一种地标元素获取方法和地标元素获取系统
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
CN114080634B (zh) * 2019-07-03 2024-04-26 伟摩有限责任公司 使用锚定轨迹的代理轨迹预测
CN110443828A (zh) * 2019-07-31 2019-11-12 腾讯科技(深圳)有限公司 对象跟踪方法和装置、存储介质及电子装置
CN110490906A (zh) * 2019-08-20 2019-11-22 南京邮电大学 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法
CN110728330A (zh) * 2019-10-23 2020-01-24 腾讯科技(深圳)有限公司 基于人工智能的对象识别方法、装置、设备及存储介质
CN110991413B (zh) * 2019-12-20 2020-12-15 西南交通大学 一种基于ReID的跑步检测方法
CN112766301B (zh) * 2020-12-11 2024-04-12 南京富岛信息工程有限公司 一种采油机示功图相似性判断方法
CN113627260A (zh) * 2021-07-12 2021-11-09 科大讯飞股份有限公司 识别手写汉字的笔顺的方法、系统和计算设备
CN113673412B (zh) * 2021-08-17 2023-09-26 驭势(上海)汽车科技有限公司 关键目标物的识别方法、装置、计算机设备及存储介质
CN113688776B (zh) * 2021-09-06 2023-10-20 北京航空航天大学 一种用于跨视场目标重识别的时空约束模型构建方法
CN114338974A (zh) * 2021-12-02 2022-04-12 深圳市领航卫士安全技术有限公司 多通道的活动路径确定方法、装置、设备及存储介质
CN114783003B (zh) * 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650660A (zh) * 2016-12-19 2017-05-10 深圳市华尊科技股份有限公司 一种车型识别方法及终端

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001208844A (ja) * 2000-01-25 2001-08-03 Sumitomo Electric Ind Ltd 光学式車両感知装置および光学式車両感知方法
US7623674B2 (en) * 2003-11-05 2009-11-24 Cognex Technology And Investment Corporation Method and system for enhanced portal security through stereoscopy
JP4447309B2 (ja) * 2003-12-25 2010-04-07 財団法人生産技術研究奨励会 交差点交通量計測装置および交差点交通量計測方法
US9002060B2 (en) * 2012-06-28 2015-04-07 International Business Machines Corporation Object retrieval in video data using complementary detectors
WO2014024264A1 (ja) * 2012-08-08 2014-02-13 株式会社 日立製作所 交通量予測装置および方法
US9436895B1 (en) * 2015-04-03 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Method for determining similarity of objects represented in images
JP6439571B2 (ja) * 2015-04-28 2018-12-19 オムロン株式会社 交通情報収集装置、交通情報収集方法、および交通情報収集プログラム
CN105095362B (zh) * 2015-06-25 2019-02-22 深圳码隆科技有限公司 一种基于目标对象的图像显示方法和装置
JP6433877B2 (ja) * 2015-10-27 2018-12-05 日本電信電話株式会社 目的地予測装置、目的地予測方法、及び目的地予測プログラム
JP6521835B2 (ja) * 2015-10-27 2019-05-29 日本電信電話株式会社 移動経路予測装置、移動経路予測方法、及び移動経路予測プログラム
EP3403216B1 (en) * 2016-01-11 2023-11-01 Mobileye Vision Technologies Ltd. Systems and methods for augmenting upright object detection
CN106326837B (zh) * 2016-08-09 2019-09-17 北京旷视科技有限公司 对象追踪方法和装置
CN106778517A (zh) * 2016-11-25 2017-05-31 河南高速公路驻信段改扩建工程有限公司 一种监控视频序列图像车辆再识别的方法
CN108229292A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 目标识别方法、装置、存储介质和电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650660A (zh) * 2016-12-19 2017-05-10 深圳市华尊科技股份有限公司 一种车型识别方法及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The collaboration 'the movement path tracing of the image object using the multiple camera' made in Korea term liquor learned society", pp.407-410 (2009.05.22.) *

Also Published As

Publication number Publication date
US20220051417A1 (en) 2022-02-17
KR102339323B1 (ko) 2021-12-14
WO2019020103A1 (zh) 2019-01-31
US20200005090A1 (en) 2020-01-02
JP6893564B2 (ja) 2021-06-23
US20220058812A1 (en) 2022-02-24
JP2020519989A (ja) 2020-07-02
SG11201911625YA (en) 2020-01-30
CN108229292A (zh) 2018-06-29
US11200682B2 (en) 2021-12-14

Similar Documents

Publication Publication Date Title
KR20190128724A (ko) 타겟 인식 방법, 장치, 저장 매체 및 전자 기기
JP7335274B2 (ja) ジオロケーションの予測のためのシステムおよび方法
US11392792B2 (en) Method and apparatus for generating vehicle damage information
JP7252188B2 (ja) 画像処理システム、画像処理方法及びプログラム
CN110998594A (zh) 检测动作的方法和系统
WO2020167581A1 (en) Method and apparatus for processing video stream
CN109583391B (zh) 关键点检测方法、装置、设备及可读介质
US9934585B2 (en) Apparatus and method for registering images
CN108229494B (zh) 网络训练方法、处理方法、装置、存储介质和电子设备
CN111931720B (zh) 跟踪图像特征点的方法、装置、计算机设备和存储介质
CN110660102B (zh) 基于人工智能的说话人识别方法及装置、系统
CN111767750A (zh) 图像处理方法和装置
CN112597918A (zh) 文本检测方法及装置、电子设备、存储介质
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN114429641A (zh) 一种时序动作检测方法、装置、存储介质及终端
CN111310595B (zh) 用于生成信息的方法和装置
CN113450459B (zh) 目标物的三维模型构建方法及装置
CN116823884A (zh) 多目标跟踪方法、系统、计算机设备及存储介质
CN115393423A (zh) 目标检测方法和装置
CN115690845A (zh) 一种运动轨迹预测方法及装置
CN113792569B (zh) 对象识别方法、装置、电子设备及可读介质
CN111199179B (zh) 目标对象的跟踪方法、终端设备及介质
CN111860070A (zh) 识别发生改变的对象的方法和装置
CN114596580B (zh) 一种多人体目标识别方法、系统、设备及介质
CN116563701A (zh) 目标对象检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant