KR102445187B1 - 이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체 - Google Patents

이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체 Download PDF

Info

Publication number
KR102445187B1
KR102445187B1 KR1020207021154A KR20207021154A KR102445187B1 KR 102445187 B1 KR102445187 B1 KR 102445187B1 KR 1020207021154 A KR1020207021154 A KR 1020207021154A KR 20207021154 A KR20207021154 A KR 20207021154A KR 102445187 B1 KR102445187 B1 KR 102445187B1
Authority
KR
South Korea
Prior art keywords
image
association
input information
target object
score
Prior art date
Application number
KR1020207021154A
Other languages
English (en)
Other versions
KR20210088439A (ko
Inventor
종앙 카이
쿤준 유
하이유 자오
슈아이 이
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Publication of KR20210088439A publication Critical patent/KR20210088439A/ko
Application granted granted Critical
Publication of KR102445187B1 publication Critical patent/KR102445187B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

본 발명은 이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체에 관한 것이다. 상기 방법은 다음 단계를 포함한다: 제1 이미지 및 상기 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻는 단계 - 여기서, 제1 주목 맵은 상기 제1 이미지 내의 제1 대상 물체의 위치를 나타냄-; 제2 이미지 및 상기 제2 이미지의 제2 마스크 이미지를 얻는 단계 - 여기서, 상기 제2 이미지 내의 픽셀들의 픽셀 값들은 동일함 -; 및 제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 단계 - 여기서, 상기 제1 입력 정보는 상기 제1 이미지 및 상기 제1 주목 맵에 따라 결정되고, 상기 제2 입력 정보는 상기 제2 이미지 및 상기 제2 마스크 이미지에 따라 결정된다.

Description

이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체
본 출원은 2019년 12월 30일자로 출원되고 발명의 명칭이 "이미지 처리 방법 및 장치, 전자 장치 및 저장 매체"인 싱가포르 임시 특허 출원 제10201913744S호를 우선권으로 주장한다. 이 출원의 전체는 본원에 참조로 포함된다.
본 개시은 컴퓨터 비전 기술 분야, 특히 이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체에 관한 것이다.
컴퓨터 비전은 컴퓨터 및 관련 장비를 사용하여 생물학적 비전을 시뮬레이션하는 기술이다. 컴퓨터 비전은 캡처된 이미지 또는 비디오를 처리하여 해당 장면의 3 차원 정보를 얻을 수 있다. 컴퓨터 비전의 응용에서, 캡처된 이미지 또는 비디오는 이미지에서 대상 물체(target object)의 위치를 찾기 위해 대상 검출을 위해 사용될 수 있다.
본 개시는 이미지 처리를 위한 기술적 솔루션을 제공한다.
본 개시의 일 측면에 따르면, 이미지 처리 방법이 제공되며, 이 방법은 다음 단계를 포함한다:
제1 이미지 및 상기 제1 이미지 내의 제1 대상 물체의 제1 주목 맵(a first attention map)을 얻는 단계 - 여기서 상기 제1 주목 맵은 상기 제1 이미지 내의 상기 제1 대상 물체의 위치를 나타냄-;
제2 이미지 및 상기 제2 이미지의 제2 마스크(mask) 이미지를 얻는 단계 - 여기서 상기 제2 이미지 내의 픽셀들의 픽셀 값들은 동일함 -; 및
제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 단계 - 여기서 상기 제1 입력 정보는 상기 제1 이미지 및 상기 제1 주목 맵에 따라 결정되고, 상기 제2 입력 정보는 상기 제2 이미지 및 상기 제2 마스크 이미지에 따라 결정된다.
하나의 가능한 구현에서, 상기 방법은:
상기 제2 이미지 내의 제2 대상 물체에 대한 검출 결과에 따라 상기 제2 이미지의 제2 주목 맵을 얻는 단계를 추가로 포함하고, 여기서 상기 제2 주목 맵은 상기 제2 이미지 내의 상기 제2 대상 물체의 위치를 나타내며;
상기 제1 예측 결과를 얻은 후, 상기 방법은:
제3 입력 정보 및 제4 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수를 얻는 단계 - 여기서 상기 제3 입력 정보는 상기 제2 이미지 및 상기 제2 주목 맵에 따라 결정되고, 상기 제4 입력 정보는 상기 제2 이미지 및 상기 제1 예측 결과에 따라 결정됨-; 및
상기 제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 단계를, 더 포함한다.
하나의 가능한 구현에서, 상기 방법은:
상기 제1 입력 정보 및 상기 제3 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제2 연관 점수를 얻는 단계를 추가로 포함하고,
제1 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하는 상기 단계는:
상기 제1 연관 점수 및 상기 제2 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 단계를 포함한다.
하나의 가능한 구현에서, 상기 방법은:
상기 제1 이미지 내의 상기 제2 대상 물체의 위치를 나타내는 제2 예측 결과를 얻는 단계; 및
제5 입력 정보 및 상기 제1 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제3 연관 점수를 얻는 단계 - 여기서 상기 제5 입력 정보는 상기 제1 이미지 및 상기 제2 예측 결과에 따라 결정됨-;
를 추가로 포함하며,
제1 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하는 상기 단계는:
상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 단계를 포함한다.
하나의 가능한 구현에서, 제1 연관 점수 및 제3 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하는 상기 단계는:
상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 최종 연관 점수를 결정하는 단계; 및
상기 최종 연관 점수가 점수 임계치보다 큰 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 잠재적으로 연관됨을 나타내는 것으로 결정하는 단계를 포함한다.
하나의 가능한 구현에서, 상기 방법은:
상기 최종 연관 점수가 상기 점수 임계치 이하인 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 연관되지 않음을 나타내는 것으로 결정하는 단계를 추가로 포함한다.
하나의 가능한 구현에서, 제1 연관 점수 및 제3 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하는 상기 단계는:
상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 이미지 내의 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 최종 연관 점수를 결정하는 단계; 및
상기 제1 이미지 내의 각각의 제1 대상 물체와 상기 제2 이미지 내의 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체를 상기 각각의 제2 대상 물체와 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 제1 이미지 내의 각각의 제1 대상 물체와 제2 이미지 내의 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라, 각각의 제1 대상 물체를 각각의 제2 대상 물체와 매칭시켜 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 연관 결과를 얻는 상기 단계는;
상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 상기 최종 연관 점수에 따라 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 점수들의 합을 결정하는 단계;
상기 연관 점수들의 합이 최대이고 미리 결정된 점수 합 임계치보다 큰 경우, 상기 제1 이미지 내의 상기 각각의 제1 대상 물체가 상기 제2 이미지 내의 상기 각각의 제2 대상 물체와 각각 매칭한다고 결정하고, 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 상기 방법은:
상기 연관 점수들의 합에서 최대 연관 점수 합이 상기 점수 합 임계치보다 작거나 같은 경우, 상기 제1 이미지 내의 상기 각각의 제1 대상 물체가 상기 제2 이미지 내의 상기 각각의 제2 대상 물체와 매칭하지 않는 것으로 결정하는 단계를 더 포함한다.
하나의 가능한 구현에서, 제1 입력 정보 및 제2 입력 정보에 따라, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 상기 단계는:
상기 제1 입력 정보에 대해 특징 추출을 수행하여 상기 제1 입력 정보에 대응하는 특징 맵을 얻는 단계;
상기 제2 입력 정보에 대해 특징 추출을 수행하여 상기 제2 입력 정보에 대응하는 특징 맵을 얻는 단계; 및
상기 제1 입력 정보에 대응하는 특징 맵 및 상기 제2 입력 정보에 대응하는 특징 맵에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 제1 입력 정보에 대해 특징 추출을 수행하여 제1 입력 정보에 대응하는 특징 맵을 얻는 상기 단계는:
뉴럴 네트워크의 제1 네트워크 분기를 사용하여 상기 제1 입력 정보에 대해 특징 추출을 수행하여 상기 제1 입력 정보의 특징 맵을 얻는 단계를 포함하고,
제2 입력 정보에 대해 특징 추출을 수행하여 제2 입력 정보에 대응하는 특징 맵을 얻는 상기 단계는:
상기 뉴럴 네트워크의 제2 네트워크 분기를 사용하여 상기 제2 입력 정보에 대해 특징 추출을 수행하여 상기 제1 입력 정보에 대응하는 특징 맵을 얻는 단계를 포함하고, 여기서 상기 제1 네트워크 분기 및 상기 제2 네트워크 분기는 동일한 네트워크 파라미터 및 네트워크 구조를 가진다.
하나의 가능한 구현에서, 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵에 따라, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 상기 단계는:
상기 제1 입력 정보에 대응하는 특징 맵 및 상기 제2 입력 정보에 대응하는 특징 맵에 대해 특징 연관을 수행하여, 제1 연관 특징 맵을 얻는 단계; 및
상기 제1 연관 특징 맵에 기초하여, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 제1 대상 물체의 제1 주목 맵을 얻는 상기 단계는:
상기 제1 이미지 내의 상기 제1 대상 물체에 대한 검출 결과에 따라 상기 제1 이미지 내의 상기 제1 대상 물체의 제1 이미지 영역을 결정하는 단계; 및
상기 제1 이미지 영역과 상기 제1 이미지 내의 상기 제1 이미지 영역 이외의 제2 이미지 영역에 따라 상기 제1 대상 물체의 제1 주목 맵을 결정하는 단계를 포함한다.
하나의 가능한 구현에서, 제1 이미지 내의 제1 대상 물체에 대한 검출 결과에 따라 제1 이미지 내의 제1 대상 물체의 제1 이미지 영역을 결정하는 상기 단계는:
상기 제1 이미지의 이미지 크기와 매칭하는 이미지 크기를 가진 제1 초기 이미지를 얻는 단계;
상기 제1 초기 이미지 내의 제1 이미지 영역의 픽셀들의 픽셀 값을 제1 픽셀 값으로 설정하는 단계 - 여기서 상기 제1 초기 이미지 내의 제1 이미지 영역은 상기 제1 이미지 내의 제1 이미지 영역에 대응함; 및
상기 제1 초기 이미지 내의 제2 이미지 영역의 픽셀들의 픽셀 값을 제2 픽셀 값으로 설정하여 상기 제1 대상 물체의 제1 주목 맵을 획득하는 단계 - 여기서 상기 제1 초기 이미지 내의 제2 이미지 영역은 상기 제1 초기 이미지 내의 제1 이미지 영역과 다른 영역이고, 상기 제1 픽셀 값은 상기 제2 픽셀 값과 동일하지 않다.
하나의 가능한 구현에서, 제2 이미지의 제2 마스크 이미지를 얻는 상기 단계는:
상기 제2 이미지의 이미지 크기와 매칭하는 이미지 크기를 가진 제2 초기 이미지를 얻는 단계; 및
상기 제2 초기 이미지 내의 픽셀들의 픽셀 값을 제3 픽셀 값으로 설정하여 상기 제2 마스크 이미지를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 제1 이미지 및 제1 주목 맵에 따라 제1 입력 정보를 결정하는 상기 단계는:
상기 제1 이미지와 상기 제1 주목 맵을 융합하여 상기 제1 입력 정보를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 제1 이미지와 제1 주목 맵을 융합하여 제1 입력 정보를 얻는 상기 단계는:
상기 제1 이미지와 상기 제1 주목 맵을 설정된 차원에서 더하여(adding) 상기 제1 입력 정보를 얻거나, 상기 제1 이미지와 상기 제1 주목 맵을 설정된 차원에서 스플라이싱(splicing) 하여 상기 제1 입력 정보를 얻는 단계를 포함한다.
하나의 가능한 구현에서, 상기 제1 이미지 및 상기 제2 이미지는 상이한 시각(angle of view)에서 동일한 장면을 동기하여(synchronously) 캡처함으로써 얻어진다.
본 개시의 다른 측면에 따르면, 이미지 처리 장치가 제공되며, 이 이미지 처리 장치는 다음을 포함한다:
제1 이미지 및 상기 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻도록 구성된 제1 획득 모듈 - 여기서 상기 제1 주목 맵은 상기 제1 이미지 내의 상기 제1 대상 물체의 위치를 나타냄;
제2 이미지 및 상기 제2 이미지의 제2 마스크 이미지를 얻도록 구성된 제2 획득 모듈 - 여기서 상기 제2 마스크 이미지 내의 픽셀들의 픽셀 값들은 동일함; 및
제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻도록 구성된 제1 결정 모듈 - 여기서 상기 제1 입력 정보는 상기 제1 이미지 및 상기 제1 주목 맵에 따라 결정되고, 상기 제2 입력 정보는 상기 제2 이미지 및 상기 제2 마스크 이미지에 따라 결정됨.
하나의 가능한 구현에서, 상기 이미지 처리 장치는 다음을 추가로 포함한다:
상기 제2 이미지 내의 제2 대상 물체에 대한 검출 결과에 따라 상기 제2 이미지의 제2 주목 맵을 얻도록 구성된 제3 획득 모듈 - 여기서 상기 제2 주목 맵은 상기 제2 이미지 내의 상기 제2 대상 물체의 위치를 나타냄;
제3 입력 정보 및 제4 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수를 얻도록 구성된 제2 결정 모듈 - 여기서 상기 제3 입력 정보는 상기 제2 이미지 및 상기 제2 주목 맵에 따라 결정되고, 상기 제4 입력 정보는 상기 제2 이미지 및 상기 제1 예측 결과에 따라 결정됨; 및
상기 제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하도록 구성된 제3 결정 모듈.
하나의 가능한 구현에서, 상기 이미지 처리 장치는:
상기 제1 입력 정보 및 상기 제3 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제2 연관 점수를 얻도록 구성된 제4 결정 모듈을 추가로 포함하며,
상기 제3 결정 모듈은 상기 제1 연관 점수 및 상기 제2 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하도록 구성된다.
하나의 가능한 구현에서, 상기 이미지 처리 장치는:
상기 제1 이미지 내의 상기 제2 대상 물체의 위치를 나타내는 제2 예측 결과를 얻도록 구성된 제4 획득 모듈; 및
제5 입력 정보 및 상기 제1 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제3 연관 점수를 얻도록 구성된 제5 결정 모듈 - 여기서 상기 제5 입력 정보는 상기 제1 이미지와 상기 제2 예측 결과에 따라 결정됨 -을 추가로 포함하며,
상기 제3 결정 모듈은 상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하도록 구성된다.
하나의 가능한 구현에서, 상기 제3 결정 모듈은:
상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 최종 연관 점수를 결정하도록 구성된 제1 결정 서브-모듈; 및
상기 최종 연관 점수가 점수 임계치보다 큰 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 잠재적으로 연관되어 있음을 나타내는 것으로 결정하도록 구성된 제2 결정 서브-모듈을 포함한다.
하나의 가능한 구현에서, 상기 제3 결정 모듈은:
상기 최종 연관 점수가 상기 점수 임계치 이하인 경우에, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 연관되지 않음을 나타내는 것으로 결정하도록 구성된 제3 결정 서브-모듈을 추가로 포함한다.
하나의 가능한 구현에서, 상기 제3 결정 모듈은:
상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 이미지 내의 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 최종 연관 점수를 결정하도록 구성된 제4 결정 서브-모듈; 및
상기 제1 이미지 내의 각각의 제1 대상 물체와 상기 제2 이미지 내의 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체를 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻도록 구성된 매칭 서브-모듈;
을 포함한다.
하나의 가능한 구현에서, 상기 매칭 서브-모듈은:
상기 제1 이미지 내의 각각의 제1 대상 물체와 상기 제2 이미지 내의 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 점수들의 합을 결정하도록 구성된 제1 결정 유닛; 및
상기 연관 점수들의 합이 최대이고 미리 결정된 점수 합 임계치보다 큰 경우에, 상기 제1 이미지 내의 각각의 제1 대상 물체가 상기 제2 이미지 내의 각각의 제2 대상 물체와 각각 매칭하는 것으로 결정하고, 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻도록 구성된 제2 결정 유닛;
을 포함한다.
하나의 가능한 구현에서, 상기 매칭 서브-모듈은:
상기 연관 점수들의 합에서 최대 연관 점수의 합이 상기 점수 합 임계치 이하인 경우, 상기 제1 이미지 내의 각각의 제1 대상 물체가 상기 제2 이미지 내의 각각의 제2 대상 물체와 매칭하지 않는 것으로 결정하도록 구성된 제3 결정 유닛을 추가로 포함한다.
하나의 가능한 구현에서, 상기 제1 결정 모듈은:
상기 제1 입력 정보에 대응하는 특징 맵을 얻기 위해 상기 제1 입력 정보에 대해 특징 추출을 수행하도록 구성된 제1 특징 추출 서브-모듈;
상기 제2 입력 정보에 대응하는 특징 맵을 얻기 위해 상기 제2 입력 정보에 대해 특징 추출을 수행하도록 구성된 제2 특징 추출 서브-모듈; 및
상기 제1 입력 정보에 대응하는 특징 맵 및 상기 제2 입력 정보에 대응하는 특징 맵에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻도록 구성된 예측 결과 결정 서브-모듈;
을 포함한다.
하나의 가능한 구현에서, 상기 제1 특징 추출 서브-모듈은, 뉴럴 네트워크의 제1 네트워크 분기를 사용하여 상기 제1 입력 정보에 대한 특징 추출을 수행하여 상기 제1 입력 정보의 특징 맵을 얻도록 구성되고,
상기 제2 특징 추출 서브-모듈은, 뉴럴 네트워크의 제2 네트워크 분기를 사용하여 상기 제2 입력 정보에 대한 특징 추출을 수행하여 상기 제2 입력 정보에 대응하는 특징 맵을 얻도록 구성되며, 여기서 상기 제1 네트워크 분기 및 상기 제2 네트워크 분기는 동일한 네트워크 파라미터 및 네트워크 구조를 가진다.
하나의 가능한 구현에서, 상기 예측 결과 결정 서브-모듈은:
상기 제1 입력 정보에 대응하는 특징 맵 및 상기 제2 입력 정보에 대응하는 특징 맵에 대해 특징 연관을 수행하여 제1 연관 특징 맵을 얻도록 구성된 특징 연관 유닛; 및
상기 제1 연관 특징 맵에 기초하여, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻도록 구성된 예측 결과 결정 유닛;
을 포함한다.
하나의 가능한 구현에서, 상기 제1 획득 모듈은:
상기 제1 이미지 내의 제1 대상 물체에 대한 검출 결과에 따라 상기 제1 이미지 내의 제1 대상 물체의 제1 이미지 영역을 결정하도록 구성된 영역 결정 서브-모듈; 및
상기 제1 이미지 영역과 상기 제1 이미지 내의 상기 제1 이미지 영역 이외의 제2 이미지 영역에 따라 상기 제1 대상 물체의 제1 주목 맵을 결정하도록 구성된 주목 맵 결정 서브-모듈;
을 포함한다.
하나의 가능한 구현에서, 상기 영역 결정 서브-모듈은:
상기 제1 이미지의 이미지 크기와 매칭하는 이미지 크기를 갖는 제1 초기 이미지를 얻도록 구성된 제1 획득 유닛;
상기 제1 초기 이미지 내의 제1 이미지 영역의 픽셀들의 픽셀 값을 제1 픽셀 값으로 설정하도록 구성된 제1 설정 유닛 - 여기서 제1 초기 이미지 내의 제1 이미지 영역은 상기 제1 이미지 내의 제1 이미지 영역에 대응함; 및
상기 제1 초기 이미지 내의 제2 이미지 영역의 픽셀들의 픽셀 값을 제2 픽셀 값으로 설정하여 상기 제1 대상 물체의 제1 주목 맵을 얻도록 구성된 제2 설정 유닛 - 여기서 상기 제1 초기 이미지 내의 제2 이미지 영역은 상기 제1 초기 이미지 내의 제1 이미지 영역 이외의 영역이고, 상기 제1 픽셀 값은 상기 제2 픽셀 값과 동일하지 않다.
하나의 가능한 구현에서, 상기 제2 획득 모듈은:
상기 제2 이미지 내의 이미지 크기와 매칭하는 이미지 크기를 가진 제2 초기 이미지를 얻도록 구성된 제2 획득 유닛; 및
상기 제2 초기 이미지 내의 픽셀들의 픽셀 값을 제3 픽셀 값으로 설정하여 상기 제2 마스크 이미지를 얻도록 구성된 제3 설정 유닛;
을 포함한다.
하나의 가능한 구현에서, 상기 이미지 처리 장치는:
상기 제1 이미지와 상기 제1 주목 맵을 융합하여 상기 제1 입력 정보를 얻도록 구성된 이미지 융합 모듈을 더 포함한다.
하나의 가능한 구현에서, 상기 이미지 융합 모듈은:
상기 제1 이미지와 상기 제1 주목 맵을 설정된 차원에서 더하여 상기 제1 입력 정보를 얻도록 구성된 더하기 서브-모듈(adding sub-module); 또는
상기 제1 이미지와 상기 제1 주목 맵을 설정된 차원에서 스플라이싱 하여 상기 제1 입력 정보를 얻도록 구성된 스플라이싱 서브-모듈(splicing sub-module);
을 포함한다.
하나의 가능한 구현에서, 상기 제1 이미지 및 상기 제2 이미지는 상이한 시각에서 동일한 장면을 동기하여 캡처함으로써 얻어진다.
하나의 가능한 구현에서,
본 개시의 일 측면에 따르면, 전자 장치가 제공되며, 상기 전자 장치는:
프로세서; 및
프로세서 실행 가능 명령어를 저장하도록 구성된 메모리;
를 포함하고,
여기서 상기 프로세서는 전술한 이미지 처리 방법을 실행하도록 구성된다.
본 개시의 일 측면에 따르면, 컴퓨터 프로그램 명령이 기억된 컴퓨터 판독 가능 저장 매체가 제공되며, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때, 전술한 이미지 처리 방법이 구현된다.
본 개시의 일 측면에 따르면, 컴퓨터 프로그램이 제공되며, 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램이 제공되며, 상기 컴퓨터 판독 가능 코드가 전자 장치에 의해 실행될 때, 상기 전자 장치 내의 프로세서는 전술한 이미지 처리 방법을 구현한다.
본 개시의 실시 예들에서, 제1 이미지 및 제1 이미지 내의 제1 대상 물체의 제1 주목 맵이 얻어질 수 있고, 제2 이미지 및 제2 이미지의 제2 마스크 이미지가 얻어진 다음, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가 제1 입력 정보 및 제2 입력 정보에 따라 얻어지며, 여기서 제1 입력 정보는 제1 이미지 및 제1 주목 맵에 따라 결정되고, 제2 입력 정보는 제2 이미지 및 제2 마스크 이미지에 따라 결정된다. 제1 주목 맵은 제1 이미지 내의 제1 대상 물체의 위치를나타내고, 제2 마스크 이미지 내의 픽셀들의 픽셀 값은 동일하다. 이러한 방식으로, 제2 이미지 내의 제1 대상 물체의 위치가 예측될 수 있고, 따라서 상이한 시각에서의 다수의 이미지 사이의 연관성이 확립될 수 있고, 시야 범위가 증가되며, 현재 장면의 보다 포괄적인 정보가 얻어진다.
상기 일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명적인 것이며, 본 개시를 제한하려는 것이 아님을 이해해야 한다.
본 개시의 다른 특징 및 측면은 첨부 도면에서 예시적인 실시 예의 상세한 설명에 따라 보다 명확하게 설명될 수 있다.
본 명세서에 포함되고 본 명세서의 일부를 구성하는 첨부 도면은 본 개시와 일치하는 실시 예를 도시하고, 본 명세서와 함께 본 개시의 기술적 솔루션을 설명하도록 의도된다.
도 1은 본 개시의 실시 예들에 따른 이미지 처리 방법의 흐름도를 도시한다.
도 2는 본 개시의 실시 예들에 따른 제1 뉴럴 네트워크를 이용하여 제1 예측 결과를 얻는 예의 블록도를 도시한다.
도 3은 본 개시의 실시 예들에 따른 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하는 흐름도를 도시한다.
도 4는 본 개시의 실시 예들에 따른 연관 결과를 얻는 일 예의 블록도이다.
도 5는 본 개시의 실시 예들에 따른 이미지 처리 장치의 블록도를 도시한다.
도 6은 본 개시의 실시 예들에 따른 전자 장치의 블록도를 도시한다.
도 7은 본 개시의 실시 예들에 따른 전자 장치의 블록도를 도시한다.
이하에 도면을 참조하면서 본 개시의 다양한 예시적 실시예, 특징 및 측면을 상세히 설명한다. 도면에서 동일한 부호는 동일하거나 또는 유사한 기능의 요소를 나타낸다. 도면에서 실시예의 다양한 측면을 나타냈지만, 특별히 언급하지 않는 한, 비례에 따라 도면을 작성할 필요가 없다.
본 명세서에서의 용어 「예시적」이란, 「예, 실시예로서 사용되는 것 또는 설명적인 것」을 의미한다. 여기에서 「예시적」으로 설명되는 어떠한 실시예도 다른 실시예보다 바람직하거나 또는 우수한 것으로 이해해서는 안된다.
본 명세서에서 용어 「및/또는」은 관련 대상의 관련 관계를 기술하기 위한 것에 불과하고, 3개의 관계가 존재 가능함을 나타내며, 예를 들면, A 및/또는 B는 A만이 존재하거나, A와 B가 동시에 존재하거나, B만이 존재하는 세 가지 경우를 나타낼 수 있다. 또한, 본 명세서에서 용어 「하나 이상」는 다종 중 어느 하나 또는 다종 중 적어도 2개의 임의의 조합을 나타내고, 예를 들면, A, B 및 C 중 하나 이상를 포함하는 것은, A, B 및 C로 구성되는 집합에서 선택된 어느 하나 또는 복수의 요소를 포함하는 것을 나타낼 수 있다.
또한, 본원을 보다 효과적으로 설명하기 위해, 이하의 구체적인 실시형태에서 많은 구체적인 상세를 나타낸다. 당업자이면 어떠한 구체적인 상세가 없어도, 본원은 동일하게 실시 가능한 것을 이해해야 한다. 일부 실시예에서는 본원의 취지를 강조하기 위해, 당업자에게 이미 알려진 방법, 수단, 요소 및 회로에 대해 상세한 설명을 행하지 않는다.
본 개시의 실시 예들에서 제공되는 이미지 처리를 위한 솔루션에서, 제1 이미지와 제1 이미지 내의 제1 대상 물체의 제1 주목 맵(attention map)이 얻어질 수 있고, 제2 이미지와 제2 이미지의 제2 마스크 이미지가 얻어진다. 제1 주목 맵은 제1 이미지 내의 제1 대상 물체의 위치를 나타낼 수 있고, 제2 마스크 이미지에서 픽셀들의 픽셀 값은 동일하다. 그런 다음, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가 제1 입력 정보 및 제2 입력 정보에 따라 얻어질 수 있고, 여기서 제1 입력 정보는 제1 이미지 및 제1 주목 맵에 따라 결정되며, 제2 입력 정보는 제2 이미지 및 제2 마스크 이미지에 따라 결정된다. 제1 주목 맵은 제1 이미지 내의 제1 대상 물체의 위치를 나타낼 수 있기 때문에, 제2 이미지 내의 제1 대상 물체의 위치는 제1 입력 정보와 제2 입력 정보의 협력에 의해 예측될 수 있고, 그런 다음 제2 이미지에서, 예를 들면 동일 장면에 대한 톱 뷰(top view) 및 사이드 뷰(side view)에서, 제1 대상 물체의 위치를 나타내는 제1 예측 결과에 따라 상이한 시각(angle of view)에서의 다수의 이미지 사이의 연관성이 확립될 수 있으며, 사이드 뷰에서의 제1 대상 물체의 위치는 톱 뷰에서의 제1 대상 물체의 위치에 의해 예측될 수 있고, 제1 대상 물체의 보다 포괄적인 정보가 복수의 시각에서의 이미지 정보에 의해 얻어질 수 있다.
관련 기술에서, 일반적으로, 다수의 이미지에서의 대상 물체는 공통 벡터 공간으로 투영되고, 상이한 이미지들에서 서로 관련된 대상 물체들은 공통 벡터 공간에서 상이한 대상 물체들의 투영 사이의 거리를 계산함으로써 결정된다. 이러한 대상 연관 방식에서, 대상들이 공통 벡터 공간에 투영될 때, 투영에 의해 사용되는 투영 매트릭스를 교정하는 것이 필요하지만, 투영 매트릭스는 이미지 캡처 장치의 자세에 영향을 받을 수도 있다. 즉, 이미지 캡처 장치의 자세의 변화는 매트릭스 오정렬을 야기할 수 있고, 따라서 얻어진 예측 결과에 큰 오류가 존재한다. 그러나, 본 개시의 실시 예에서 제공되는 이미지 처리 솔루션에서, 제1 이미지 및 제1 주목 맵을 제1 입력 정보로서 사용하고, 제2 이미지 및 제2 마스크 이미지를 제2 입력 정보로서 사용함으로써, 제1 주목 맵에 의해 지시된 제1 대상 물체의 위치, 제2 이미지에서의 제1 대상 물체의 위치는 제1 이미지 및 제2 이미지 내의 제1 대상 물체의 이미지 정보와 조합하여 예측될 수 있고, 대상 물체를 공통 벡터 공간에 투영할 필요가 없고, 투영 벡터를 교정할 필요가 없고, 얻어진 예측 결과에 대한 이미지 캡처 장치의 영향이 낮으며, 예측 결과의 정확성이 향상될 수 있다.
본 개시된 실시 예는 대상 라벨링, 물체 식별 및 이미지 연관 등과 같은 확장된 시나리오에 적용될 수 있다. 예를 들어, 동일한 장면에서 상이한 시점들로부터 수집된 다수의 이미지는 상관될 수 있고, 상이한 시점들로부터의 이미지들에서의 물체의 위치를 예측하는 것이 가능하다. 또 다른 예로서, 다수 이미지들에서의 동일한 대상이 라벨링될 수 있다. 본 개시는 특정 응용 시나리오를 제한하지 않는다. 본 개시의 실시 예들에서 제공되는 이미지 처리를 위한 솔루션들은 실시 예들을 통해 아래에 설명된다.
도 1은 본 개시의 실시 예들에 따른 이미지 처리 방법의 흐름도를 도시한다. 상기 이미지 처리 방법은 단말 장치, 서버 또는 다른 정보 처리 장치에 의해 실행될 수 있으며, 단말 장치는 사용자 장비(UE), 모바일 장치, 사용자 단말, 단말, 셀룰러 폰, 무선 전화기, PDA(Personal Digital Assistant), 핸드헬드(handheld) 장치, 컴퓨팅 장치, 차량-탑재 장치, 웨어러블 장치 등일 수 있다. 일부 가능한 구현들에서, 이미지 처리 방법은 메모리에 기억된 컴퓨터 판독 가능 명령들을 호출함으로써 프로세서에 의해 구현될 수 있다. 본 개시의 실시 예에서 이미지 처리를 위한 솔루션은 이미지 처리 장치를 실행 대상으로 하여 설명된다.
도 1에 도시된 바와 같이, 이미지 처리 방법은 다음 단계들을 포함한다.
단계 S11에서, 제1 이미지와 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻으며, 여기서 제1 주목 맵은 제1 이미지에서 제1 대상 물체의 위치를 나타낸다.
본 개시의 실시 예에서, 이미지 캡처 장치에 의해 캡처된 적어도 2개의 이미지가 얻어질 수 있다. 각각의 이미지는 동일한 이미지 캡처 장치로부터 도출되거나, 다른 이미지 캡처 장치로부터 도출될 수 있다. 제1 이미지는 상기 적어도 2 개의 이미지로부터 임의로 선택된 하나의 이미지일 수 있다. 여기서, 제1 이미지는 컬러 이미지일 수 있으며, 여기서 컬러 이미지는 3 개의 컬러, 즉 적색 (R), 녹색 (G) 및 청색 (B)을 중첩함으로써 형성된 이미지로서 이해될 수 있다.
본 개시의 실시 예들에서, 이미지 캡처 장치는 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻을 수 있다. 제1 주목 맵은 제1 이미지에서 제1 대상 물체의 위치를 나타낼 수 있고, 제1 대상 물체는 제1 이미지 내의 임의의 대상 물체, 예를 들어, 제1 이미지에 포함될 수 있는 사람의 얼굴, 테이블과 의자, 그리고 화분 식물과 같은 다수의 대상 물체, 및 제1 대상 물체로서 사용될 수 있는 사람의 얼굴과 같은 다수의 대상 물체 중 하나일 수 있다. 여기서, 이미지 캡처 장치는 제1 이미지 내의 제1 대상 물체의 위치에 따라 제1 주목 맵을 얻거나, 제1 주목 맵은 다른 장치에서 직접 얻을 수 있다.
하나의 가능한 구현에서, 제1 이미지 내의 제1 대상 물체의 제1 이미지 영역은 제1 이미지 내의 제1 대상 물체에 대한 검출 결과에 따라 결정될 수 있고, 제1 대상 물체의 제1 주목 맵은 제1 이미지 영역과 제1 이미지 내의 제1 이미지 영역 영역 이외의 제2 이미지 영역에 따라 결정된다.
이 구현에서, 검출 결과를 얻기 위해 제1 이미지에 대해 대상 검출이 수행될 수 있고, 각각의 검출 결과는 하나의 대상 물체에 대응하고, 다수의 검출 결과가 있을 수 있고, 검출 결과들 중 임의의 하나가 제1 대상 물체에 대한 검출 결과로서 사용될 수 있다. 여기서, 검출 결과는 검출 박스로 표현될 수 있다. 하나의 검출 결과는 하나의 주목 맵에 대응할 수 있으므로, 다수의 검출 결과들 사이에서 발생하는 간섭이 감소될 수 있다. 제1 이미지에서 검출 박스에 의해 주석이 달린 제1 대상 물체의 제1 이미지 영역은 하나의 검출 결과에 대응하는 검출 박스에 따라 결정되며, 여기서 제1 이미지 영역은 둘러싸인 이미지 영역일 수 있다. 이어서, 결정된 제1 이미지 영역 및 제1 이미지 영역 이외의 제2 이미지 영역에 따라 제1 이미지의 제1 주목 맵이 얻어질 수 있고, 예를 들어, 제1 이미지 영역의 픽셀들의 픽셀 값이 복사될 수 있고 제2 이미지 영역의 픽셀 값이 변경되거나, 제1 이미지 영역의 픽셀의 복사된 픽셀 값이 조정되고, 제1 이미지의 픽셀 값이 제2 이미지 영역의 픽셀 값과 분명히 상이하게 되어, 제1 주목 맵이 얻어질 수 있다. 따라서, 제1 대상 물체가 제1 주목 맵에서 위치하는 이미지 영역은 다른 이미지 영역들과 다르고, 제1 이미지 내의 제1 대상 물체의 위치 정보를 제공함으로써, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 얻어진 제1 예측 결과의 정확도가 개선될 수 있다.
이 구현의 일 예에서, 제1 이미지의 이미지 크기와 일치하는 이미지 크기를 갖는 제1 초기 이미지가 얻어질 수 있고, 이어서 제1 초기 이미지 내의 제1 이미지 영역의 픽셀들의 픽셀 값이 제1 픽셀 값으로 설정되고, 제1 초기 이미지 내의 제2 이미지 영역의 픽셀들의 픽셀 값이 제2 픽셀 값으로 설정되어 제1 대상 물체의 제1 주목 맵을 얻는다. 제1 초기 이미지의 제1 이미지 영역은 제1 이미지 내의 제1 이미지 영역에 대응하고, 제1 초기 이미지의 제2 이미지 영역은 제1 초기 이미지 내의 제1 이미지 영역 이외의 영역이며, 제1 픽셀 값은 제2 픽셀 값과 같지 않다.
이 예에서, 제1 초기 이미지가 생성될 수 있고, 제1 초기 이미지는 제1 이미지와 동일한 이미지 크기를 갖는다. 대안으로, 제1 이미지의 제1 이미지 영역은 제1 초기 이미지를 얻기 위해 복사될 수 있다. 제1 초기 이미지의 이미지 크기는 제1 이미지의 이미지 크기와 매칭한다. 즉, 제1 초기 이미지는 제1 이미지와 동일한 크기를 가질 수 있으며, 예를 들어, 제1 이미지의 이미지 크기는 3x3 cm일 수 있고, 제1 초기 이미지의 이미지 크기도 3x3 cm일 수 있음을 이해할 수 있다. 제1 초기 이미지는 제1 이미지 영역을 포함할 수 있고, 제1 초기 이미지 내의 제1 이미지 영역은 제1 이미지 내의 제1 이미지 영역에 대응한다. 즉, 제1 초기 이미지 내의 제1 이미지 영역의 이미지 위치는 제1 이미지 내의 제1 이미지 영역의 이미지 위치와 동일할 수 있으며, 예를 들어 픽셀 값이 백색에 대응함. 제1 이미지 영역에서의 픽셀 값은 미리 결정된 제1 픽셀 값으로 설정되고, 제1 픽셀 값은 제1 이미지 영역 내 픽셀의 픽셀 값과 동일할 수 있다. 제2 이미지 영역은 제1 초기 이미지의 제1 이미지 영역을 포함하지 않는 이미지 영역일 수 있고, 제2 이미지 영역 내 픽셀 값은 제2 픽셀 값으로 설정될 수 있다. 제2 픽셀 값은 미리 결정된 픽셀 값, 예를 들어 검정색에 대응하는 픽셀 값일 수 있고, 제2 픽셀 값은 제1 픽셀 값과 상이하므로, 제2 이미지 영역은 픽셀의 픽셀 값을 통해 제1 이미지 영역과 구별될 수 있다.
이러한 방식으로, 제1 대상 물체에 대응하는 제1 주목 맵이 얻어질 수 있고, 제1 주목 맵은 제1 대상 물체에 대응하는 이미지 영역을 표시할 수 있다.
다른 예에서, 제1 이미지 영역의 픽셀 값은 제1 이미지의 제1 이미지 영역 내 픽셀 값과 동일하게 설정될 수 있고, 제1 이미지가 컬러 이미지인 경우, 제1 이미지 영역은 컬러 이미지 영역일 수 있다. 이러한 방식으로, 제1 이미지 내의 제1 대상 물체의 제1 주목 맵이 얻어지고, 제1 대상 물체의 위치 정보뿐만 아니라 제1 대상 물체의 컬러 정보도 포함될 수 있으며, 따라서 제2 이미지 내의 제1 대상 물체의 위치의 정확도는 개선될 수 있다.
예를 들어, 제1 초기 이미지의 제1 이미지 영역 내의 픽셀의 픽셀 값은 1로 설정될 수 있고, 제2 이미지 영역 내의 픽셀의 픽셀 값은 0으로 설정될 수 있으며, 따라서 제1 대상 물체의 제1 주목 맵이 얻어질 수 있다. 대안으로, 제1 이미지의 제1 이미지 영역 내의 픽셀의 픽셀 값은 제1 초기 이미지의 제1 이미지 영역에 복사되고, 제2 이미지 영역 내의 픽셀의 픽셀 값은 0으로 설정되어, 제1 주목 맵을 얻을 수 있다.
단계 S12에서, 제2 이미지 및 제2 이미지의 제2 마스크 이미지가 얻어지며, 여기서 제2 마스크 이미지 내 픽셀들의 픽셀 값은 동일하다.
본 개시의 실시 예에서, 제2 이미지는 이미지 캡처 장치에 의해 캡처된 적어도 2 개의 이미지 중 어느 하나일 수 있다. 제2 이미지를 얻기 위한 접근법은 단계 S11에서 제1 이미지를 얻기 위한 접근법과 동일하거나 상이할 수 있으며, 여기서는 반복적으로 설명하지 않는다. 제2 마스크 이미지의 이미지 크기는 제2 이미지의 이미지 크기와 동일할 수 있고, 제2 마스크 이미지의 픽셀의 픽셀 값은 동일할 수 있다. 즉, 픽셀은 동일한 픽셀 값을 가질 수 있고, 차폐 효과가 얻어질 수 있으며, 위치 정보가 제공되지 않는다. 여기서, 제2 마스크 이미지는 제2 이미지의 이미지 크기에 기초하여 얻거나, 제2 마스크 이미지는 다른 장치에 의해 얻어질 수 있다.
제2 이미지의 이미지 크기와 매칭하는 이미지 크기를 갖는 제2 초기 이미지가 얻어질 수 있고, 이어서 제2 초기 이미지 내 픽셀의 픽셀 값이 제3 픽셀 값으로 설정되어 제2 마스크 이미지를 얻는다. 이 구현에서, 제2 이미지의 이미지 크기와 매칭하는 이미지 크기를 갖는 제2 초기 이미지가 얻어지고, 제2 초기 이미지 내의 픽셀의 픽셀 값이 미리 결정된 제3 픽셀 값으로 설정되어, 예를 들면, 제2 초기 이미지 내의 픽셀의 픽셀 값이 검정색에 대응하는 픽셀 값으로 설정되어, 제2 초기 이미지를 얻는다. 제2 초기 이미지는 차폐 효과를 얻을 수 있다.
단계 S13에서, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가 제1 입력 정보 및 제2 입력 정보에 따라 얻어지며, 여기서 제1 입력 정보는 제1 이미지 및 제1 주목 맵에 따라 결정되고, 제2 입력 정보는 제2 이미지 및 제2 마스크 이미지에 따라 결정된다.
본 개시의 실시 예에서, 제1 이미지 및 제1 주목 맵은 제1 입력 정보로 이용될 수 있고, 제2 이미지 및 제2 마스크 이미지는 제2 입력 정보로 이용될 수 있으며, 이어서, 훈련된 제1 뉴럴 네트워크를 이용하여 제1 입력 정보 및 제2 입력 정보에 대해 특징 추출이 수행되어 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는다. 제1 예측 결과는 이미지일 수 있고, 제2 이미지 내의 제1 대상 물체의 위치는 이미지 내의 픽셀의 픽셀 값에 의해 결정될 수 있다. 예를 들어, 이미지에서 픽셀의 픽셀 값이 검출될 수 있고, 특정 이미지 영역에서 픽셀의 픽셀 값이 미리 결정된 제1 픽셀 값인 경우, 예를 들어, 특정 이미지 영역에서의 픽셀이 흰색이면, 이미지 내의 이미지 영역의 이미지 위치가 제2 이미지 내의 제1 대상 물체의 이미지 위치에 대응하는 것으로 결정될 수 있다.
하나의 가능한 구현에서, 제1 이미지는 제1 주목 맵과 융합되어 제1 입력 정보를 얻을 수 있다.
이 구현에서, 제1 이미지는 제1 주목 맵과 융합되어 제1 입력 정보를 얻는다. 제1 입력 정보는 뉴럴 네트워크의 입력으로 사용될 수 있다. 제1 이미지를 제1 주목 맵과 융합함으로써, 2 개의 이미지로부터의 이미지 정보가 더 잘 결합될 수 있고, 추출된 이미지 특징이 보다 정확해질 수 있다.
일 예에서, 제1 이미지에 제1 주목 맵이 설정된 차원에서 더해져 제1 입력 정보를 얻거나, 제1 이미지가 제1 주목 맵과 설정된 차원에서 스플라이싱 되어 제1 입력 정보를 얻는다.
이 예에서, 설정된 차원에서 제1 주목 맵을 제1 이미지에 더하는 것은 깊이의 차원, 즉 채널의 차원에서 제1 주목 맵을 제1 이미지에 더하는 것일 수 있다. 여기서, 채널의 수는 이미지의 깊이의 차원에 대응한다. 제1 이미지 및 제1 주목 맵은 동일한 수의 채널을 가질 수 있으며, 예를 들어, 제1 이미지 및 제1 주목 맵은 모두 RGB 이미지일 수 있고, 둘 다 3 개의 채널을 가질 수 있다. 대안으로, 제1 이미지 및 제1 주목 맵은 상이한 수의 채널을 가질 수 있으며, 예를 들어, 제1 이미지는 3 개의 채널을 갖고 제1 주목 맵은 하나의 채널을 가질 수 있다. 제1 이미지에 깊이의 차원에서 제1 주목 맵이 더해지고, 2 개의 이미지의 대응하는 위치상의 픽셀의 R 값, G 값 및 B 값이 함께 더해지거나, 또는 제1 이미지가 3 개의 채널을 가지고 제1 주목 맵이 하나의 채널을 가질 때, 대응하는 위치상의 제1 이미지의 픽셀의 R 값에 제1 주목 맵의 픽셀의 픽셀 값과 더해져 제1 입력 정보를 얻으며, 제1 입력 정보의 채널의 수는 제1 이미지의 채널 수와 동일하다.
이 예에서, 설정된 차원에서 제1 주목 맵과 제1 이미지를 스플라이싱 하는 것은, 예를 들어 깊이 차원에서 스플라이싱을 취함으로써, 이미지 길이, 이미지 폭, 또는 깊이의 차원, 즉 채널의 차원(예를 들어 3 채널, 즉 RGB)에서 제1 주목 맵과 제1 이미지를 스플라이싱하는 것으로 이해될 수 있다. 즉, 제1 이미지는 깊이의 차원에서 제1 주목 맵과 스플라이싱 되어 6-채널 이미지를 형성하고, 얻어진 처리될 이미지의 이미지 크기는 설정된 차원에서 제1 이미지 및 제1 주목 맵의 크기의 합일수 있다. 여기서, 제1 이미지와 제1 주목 맵이 동일한 깊이를 갖는 경우, 제1 주목 맵은 제1 대상 물체의 위치 정보뿐만 아니라 제1 대상 물체의 이미지 특징을 제공하여, 뉴럴 네트워크에 의해 추출된 특징 맵들이 더 정확하고 포괄적인 이미지 특징을 갖도록 한다.
하나의 가능한 구현에서, 제1 입력 정보는 제1 뉴럴 네트워크의 제1 네트워크 분기(branch)를 사용하여 처리되어, 제1 네트워크 분기의 제1 입력 정보에 대응하는 특징 맵을 얻을 수 있고, 제2 입력 정보는 제1 뉴럴 네트워크의 제2 네트워크 분기를 사용하여 처리되어, 제2 네트워크 분기의 제2 입력 정보에 대응하는 특징 맵을 얻는다. 그 다음, 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵에 대해 특징 연관이 수행되어 제1 연관 특징 맵을 얻고, 및 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가, 제1 연관 특징 맵에 기초하여 얻어진다.
전술한 제1 입력 정보 획득 방법은 제2 입력 정보 획득 방법과 동일하거나 상이할 수 있으며, 세부 사항은 본 명세서에서 반복적으로 설명되지 않음에 유의해야 한다.
하나의 가능한 구현에서, 제1 입력 정보에 대응하는 특징 맵을 얻기 위해 제1 입력 정보에 대해 특징 추출이 수행되고, 제2 입력 정보에 대응하는 특징 맵을 얻기 위해 제2 입력 정보에 대해 특징 추출이 수행되며, 그 다음에, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가, 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵에 따라 얻어진다.
이 구현에서, 제1 입력 정보 및 제2 입력 정보는 뉴럴 네트워크의 입력 정보로서 사용될 수 있고, 뉴럴 네트워크을 이용하여 제1 입력 정보 및 제2 입력 정보에 대해 특징 추출이 개별적으로 수행되어, 제1 입력 정보에 대응하는 특징 맵과 제2 입력 정보에 대응하는 특징 맵이 얻어질 수 있다. 그 다음, 제1 이미지 정보에 대응하는 특징 맵과 제2 입력 정보에 대응하는 특징 맵에 따라, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가 얻어질 수 있다. 제1 입력 정보 및 제2 입력 정보에 대한 특징 추출을 수행함으로써, 상이한 입력 정보 사이의 차이가 더 잘 비교될 수 있고, 제1 예측 결과가 더 정확할 수 있다.
이 구현의 일 예에서, 제1 입력 정보의 특징 맵을 얻기 위해 뉴럴 네트워크의 제1 네트워크 분기를 사용하여 제1 입력 정보에 대해 특징 추출이 수행되고, 제2 입력 정보의 특징 맵을 얻기 위해 뉴럴 네트워크의 제2 네트워크 분기를 사용하여 제2 입력 정보에 대해 특징 추출이 수행될 수 있다. 제1 네트워크 분기 및 제2 네트워크 분기는 동일한 네트워크 파라미터 및 네트워크 구조를 갖는다.
이 구현에서, 뉴럴 네트워크는 제1 뉴럴 네트워크일 수 있고, 제1 뉴럴 네트워크는 적어도 2 개의 네트워크 분기를 포함할 수 있고, 하나의 네트워크 분기는 하나의 입력 정보에 대응할 수 있다. 제1 네트워크 분기 및 제2 네트워크 분기는 제1 뉴럴 네트워크의 임의의 2 개의 네트워크 분기일 수 있다. 제1 입력 정보는 제1 네트워크 분기의 입력으로 사용될 수 있고, 제2 입력 정보는 제2 네트워크 분기의 입력으로 사용될 수 있다. 제1 네트워크 분기는 특징 추출 층을 포함할 수 있고, 제1 입력 정보의 특징 맵을 얻기 위해 제1 네트워크 분기의 특징 추출 층을 이용하여 제1 입력 정보에 대한 특징 추출이 수행될 수 있다. 따라서, 제2 네트워크 분기는 특징 추출 층을 포함할 수 있고, 제2 입력 정보에 대응하는 특징 맵을 얻기 위해 제2 네트워크 분기의 특징 추출 층을 이용하여 제2 입력 정보에 대한 특징 추출이 수행될 수 있다. 여기서, 동일한 네트워크 파라미터 및 네트워크 구조를 갖는 제1 네트워크 분기 및 제2 네트워크 분기는 네트워크 파라미터를 공유하는 제1 네트워크 분기 및 제2 네트워크 분기로 이해될 수 있고, 따라서 제1 뉴럴 네트워크의 훈련 속도가 증가될 수 있다. 예를 들어, 제1 뉴럴 네트워크의 각 네트워크 분기는 채널 수 감소 층 및 특징 추출 층과 같은 네트워크 층을 포함하고, 네트워크 분기의 채널 수 감소 층은 동일한 네트워크 파라미터를 가질 수 있고, 네트워크 분기의 특징 추출 층은 상이한 네트워크 파라미터를 가지는 것으로 가정한다.
이 구현의 일 예에서, 제1 연관 특징 맵을 얻기 위해 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵에 대해 특징 연관이 수행될 수 있고, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과가 제1 연관 특징 맵에 기초하여 얻어진다.
이 예에서, 제1 뉴럴 네트워크는 연관 층 및 회귀 층과 같은 네트워크 층을 포함할 수 있고, 특징 연관은 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵에 대해 수행될 수 있다. 이어서 다수의 컨볼루션(multiple convolutions), 배치 정규화(batch normalization), 선형 정류(linear rectification) 및 전체 연결(full connection )이 제1 연관 특징 맵에 대해 수행될 수 있고, 제1 뉴럴 네트워크의 출력이 얻어질 수 있고, 제1 뉴럴 네트워크의 출력은 제1 예측 결과이거나, 또는 제1 예측 결과를 얻기 위해 제1 뉴럴 네트워크의 출력에 대해 추가의 처리가 수행될 수 있다. 여기서, 제1 대상 물체의 이미지 정보에 더하여, 제1 이미지는 제1 대상 물체를 둘러싸는 이미지 영역을 포함하므로, 제1 이미지에 의해 형성된 제1 입력 정보로부터 보다 포괄적인 이미지 특징을 얻을 수 있다. 또한, 제1 입력 정보는 제1 주목 맵을 더 포함하고, 제1 주목 맵은 제1 대상 물체의 이미지 위치 정보를 제공할 수 있어서, 보다 정확한 제1 예측 결과를 얻을 수 있다.
도 2는 본 개시의 실시 예들에 따른 제1 뉴럴 네트워크을 이용하여 제1 예측 결과를 얻는 예의 블록도를 도시한다.
일 예에서, 다수의 이미지 캡처 장치는 동일한 장면을 동기하여 촬영할 수 있고, 제1 이미지 캡처 장치 및 제2 이미지 캡처 장치는 다수의 이미지 캡처 장치 중 임의의 2 개일 수 있으며, 여기서 제1 이미지 캡처 장치에 의해 캡처된 이미지는 제1 이미지이고, 제2 이미지 캡처 장치에 의해 캡처된 이미지는 제2 이미지일 수 있다. 제1 이미지 및 제2 이미지의 대상 검출 결과를 얻기 위해 제1 이미지 및 제2 이미지에 대해 개별적으로 대상 검출이 수행될 수 있다. 이미지 처리 장치는 제1 이미지 및 제1 주목 맵을 얻고, 제2 이미지 및 제2 마스크 이미지를 얻은 후, 제1 이미지 및 제1 주목 맵을 제1 뉴럴 네트워크의 제1 네트워크 분기에 입력하고, 상기 제2 이미지 및 상기 제2 마스크 이미지를 상기 제1 뉴럴 네트워크의 제2 네트워크 분기에 입력할 수 있다. 제1 네트워크 분기의 프로세스를 예로서 취함으로써, 제1 이미지 및 제1 주목 맵은 깊이 차원에서 스플라이싱 되어 제1 입력 정보를 얻을 수 있고, 여기서 제1 이미지는 3 개의 채널에 대응하고, 제1 주목 맵은 하나의 채널에 대응하며, 제1 입력 정보는 4 개의 채널에 대응하고, 각 채널은 하나의 깊이에 대응한다. 그 다음, 제1 네트워크 분기를 이용하여 제1 입력 정보에 대해 컨볼루션 처리가 수행되고, 제1 입력 정보의 채널 수가 4 개에서 3 개로 감소된 다음, 특징 추출이 수행되어 제1 네트워크 분기의 제1 입력 정보에 대응하는 특징 맵을 얻으며, 여기서 제1 입력 정보에 대응하는 특징 맵은 3개의 차원 특징을 갖는 텐서(tensor)일 수 있고, 3개의 차원 특징은 길이 특징, 폭 특징 및 깊이 특징을 포함할 수 있다. 특징 추출 동안, 다중 컨볼루션 처리가 수행될 수 있다. 제2 네트워크 분기의 제2 입력 정보에 대응하는 특징 맵은 동일한 처리 방식으로 얻어질 수 있다. 그 후, 제1 뉴럴 네트워크의 연관 층을 이용하여 제1 입력 정보에 대응하는 특징 맵과 제2 입력 정보에 대응하는 특징 맵을 연관시킴으로써, 제1 연관 특징 맵이 얻어질 수 있다. 제1 입력 정보에 대응하는 특징 맵이 제2 입력 정보에 대응하는 특징 맵과 연관될 때, 다음 식 (1)이 사용될 수 있다:
Figure 112020075717070-pct00001
여기서
Figure 112020075717070-pct00002
는 제1 연관 특징 맵을 나타낼 수 있으며,
Figure 112020075717070-pct00003
, 여기서,
Figure 112020075717070-pct00004
는 한 세트의 실수를 나타낸다.
Figure 112020075717070-pct00005
는 제1 입력 정보에 대응하는 특징 맵의 특징 벡터이고;
Figure 112020075717070-pct00006
는 제2 입력 정보에 대응하는 특징 맵의 특징 벡터이며; i는 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵의 행을 나타내고, 길이 특징에 대응하며; j는 제1 입력 정보에 대응하는 특징 맵 및 제2 입력 정보에 대응하는 특징 맵의 열을 나타내고, 폭 특징에 대응하며, i 및 j는 양의 정수이고; k는 행 및 열에 대응하는 인덱스를 나타내고; 예를 들면
Figure 112020075717070-pct00007
; 및
Figure 112020075717070-pct00008
는 제1 연관 특징 맵의 3개의 차원 특징을 나타낸다. 그 다음, 채널 상호 작용 및 전역 회귀와 같은 처리가 제1 연관 특징 맵에 대해 수행되며, 채널 상호 작용에서, 제1 연관 특징 맵의 이미지 특징에 대해 1 단계 추출이 수행될 수 있고, 채널 상호 작용이 수행되는 제1 연관 특징 맵의 깊이 특징이 특정 깊이에서, 예를 들어 64의 깊이 내에서, 제어된다. 채널 상호 작용 및 전역 회귀와 같은 처리 후에, 이미지가 얻어질 수 있고, 이미지 내의 픽셀이 흰색인 이미지 영역이 제2 이미지 내의 제1 대상 물체의 위치를 나타낼 수 있다. 여기서 전역 회귀 처리는 다중 컨볼루션 처리, 배치 정규화 처리, 선형 정류 처리 및 전체 연결 층 처리를 포함할 수 있다. 단계 S21에서, 제2 이미지 내의 제2 대상 물체에 대한 검출 결과에 따라 제2 이미지의 제2 주목 맵이 얻어지며, 여기서 제2 주목 맵은 제2 이미지에서 제2 대상 물체의 위치를 나타낸다.
여기서, 제2 이미지 내의 제2 대상 물체에 대한 검출 결과가 얻어질 수 있으며, 검출 결과는 제2 대상 물체의 위치를 포함할 수 있다. 제2 대상 물체는 제2 이미지 내의 임의의 하나의 대상 물체일 수 있다. 제2 이미지의 제2 주목 맵은 제2 이미지 내의 제2 대상 물체에 대한 검출 결과에 따라 얻어질 수 있다. 제2 주목 맵을 얻기 위한 접근법은 제1 주목 맵을 얻기 위한 접근법과 동일하거나 상이할 수 있으며, 세부 사항은 여기에서 반복적으로 설명되지 않는다. 제2 주목 맵은 제2 이미지 내의 제2 대상 물체의 위치 정보를 포함할 수 있다. 여기서, 이미지 캡처 장치에 더하여, 다른 장치들이 제2 이미지의 제2 주목 맵을 직접 얻을 수 있다.
단계 S22에서, 제3 입력 정보 및 제4 입력 정보에 따라, 제1 대상 물체와 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수가 얻어지며, 여기서 제3 입력 정보는 제2 이미지 및 제2 주목 맵에 따라 결정되고, 제4 입력 정보는 제2 이미지 및 제1 예측 결과에 따라 결정된다.
본 개시의 실시 예에서, 제3 입력 정보를 얻기 위해 제2 이미지는 제2 주목 맵과 융합되고, 제4 입력 정보를 얻기 위해 제2 이미지는 제1 예측 결과와 융합되며, 제3 입력 정보 및 제4 입력 정보를 훈련된 제2 뉴럴 네트워크을 사용하여 처리하여, 제1 대상 물체와 제2 대상 물체 사이의 제1 연관 점수를 얻는다. 제1 연관 점수는 제1 대상 물체와 제2 대상 물체 사이의 연관도를 나타낼 수 있다. 여기서, 제2 주목 맵을 얻는 방법은 제1 주목 맵을 얻는 방법과 동일하거나 상이할 수 있고, 제2 주목 맵과 제2 이미지를 융합하는 과정은 제1 이미지를 제1 주목 맵과 융합하는 과정과 동일하거나 상이할 수 있으며, 세부 사항은 여기에서 반복적으로 설명되지 않는다.
하나의 가능한 구현에서, 제3 입력 정보에 대응하는 특징 맵을 얻기 위해, 제3 입력 정보는 제2 뉴럴 네트워크의 제3 네트워크 분기를 사용하여 처리될 수 있고, 제4 입력 정보에 대응하는 특징 맵을 얻기 위해, 제4 입력 정보는 제2 뉴럴 네트워크의 제4 네트워크 분기를 사용하여 처리될 수 있다. 그런 다음, 제3 입력 정보에 대응하는 특징 맵 및 제4 입력 정보에 대응하는 특징 맵에 대해 특징 연관이 수행되어 제2 연관 특징 맵을 얻고, 제1 대상 물체와 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수가 제2 연관 특징 맵에 기초하여 얻어진다.
이 구현에서, 제2 뉴럴 네트워크는 적어도 2 개의 네트워크 분기를 포함할 수 있으며, 하나의 네트워크 분기는 입력 정보의 하나에 대응할 수 있다. 제3 네트워크 분기 및 제4 네트워크 분기는 제2 뉴럴 네트워크의 임의의 2 개의 네트워크 분기일 수 있다. 제1 입력 정보는 제3 네트워크 분기의 입력으로 사용될 수 있고, 제3 입력 정보는 제2 네트워크 분기의 입력으로 사용될 수 있다. 제3 네트워크 분기는 특징 추출 층을 포함할 수 있고, 제3 네트워크 분기의 특징 추출 층을 이용하여 제1 입력 정보에 대한 특징 추출이 수행되어, 제3 입력 정보에 대응하는 특징 맵을 얻을 수 있다. 따라서, 제4 네트워크 분기는 특징 추출 층을 포함할 수 있고, 제4 네트워크 분기의 특징 추출 층을 이용하여 제3 입력 정보에 대한 특징 추출이 수행되어, 제4 입력 정보에 대응하는 특징 맵을 얻을 수 있다. 제2 뉴럴 네트워크는 연관 층 및 회귀 층과 같은 네트워크 층을 포함할 수 있고, 제2 연관 특징 맵을 얻기 위해 제3 입력 정보에 대응하는 특징 맵 및 제4 입력 정보에 대응하는 특징 맵에 대해 특징 연관이 수행될 수 있으며, 그 후, 다중 컨볼루션, 배치 정규화, 선형 정류 및 전체 연결이 제2 연관 특징 맵에 대해 수행될 수 있고, 제2 뉴럴 네트워크의 출력이 얻어질 수 있고, 제2 뉴널 네트워크의 출력이 제1 연관 점수이거나, 또는 제2 뉴럴 네트워크의 출력에 대해 추가의 처리가 수행되어 제1 연관 점수를 얻을 수 있다. 제1 연관 점수는 높고, 그것은 제1 예측 결과에 의해 지시된 제2 이미지 내의 제1 대상 물체와 제2 대상 물체 사이에 연관 관계가 존재함을 나타낼 수 있다. 즉, 2 개의 대상 물체가 동일한 대상 물체이면, 대상 물체에 대해 예측된 이미지 위치가 대상 물체의 실제 이미지 위치에 가깝고, 따라서 제1 연관 점수가 크다는 것을 알 수 있다. 그렇지 않으면, 대상 물체에 대해 예측된 이미지 위치와 대상 물체의 실제 이미지 위치의 차이가 크기 때문에, 제1 연관 점수는 작다.
단계 S23에서, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과가 제1 연관 점수에 따라 결정된다.
본 개시의 실시 예에서, 제1 대상 물체와 제2 대상 물체의 연관 결과는 제1 연관 점수에 따라 결정될 수 있다. 예를 들어, 제1 대상 물체와 제2 대상 물체가 동일한 대상 물체인지는 제1 연관 점수에 따라 결정될 수 있고, 제1 연관 점수가 미리 결정된 점수 임계치보다 큰 경우, 연관 결과는 제1 대상 물체와 제2 대상 물체가 동일한 대상 물체를 나타내는 것으로 간주될 수 있다. 제1 연관 점수가 미리 결정된 점수 임계치 이하인 경우, 연관 결과는 제1 대상 물체와 제2 대상 물체 사이에 연관 관계가 없음을 나타내는 것으로 간주될 수 있다.
일 예에서, 제2 이미지, 제2 주목 맵, 및 제1 예측 결과가 얻어질 수 있다. 그 다음에, 제2 이미지 및 제2 주목 맵이 제2 뉴럴 네트워크의 제3 네트워크 분기에 입력되고, 제2 이미지 및 제1 예측 결과가 제2 뉴럴 네트워크의 제4 네트워크 분기에 입력된다. 제3 네트워크 분기의 프로세스를 예로서 취함으로써, 제2 이미지 및 제2 주목 맵은 제3 입력 정보를 얻기 위해 깊이의 차원에서 스플라이싱 될 수 있고, 여기서 제2 이미지는 3 개의 채널에 대응하고, 제2 주목 맵은 하나의 채널에 대응하며, 제3 입력 정보는 4 개의 채널에 대응하고, 각 채널은 하나의 깊이에 대응한다. 그 다음, 제3 네트워크 분기를 이용하여 제3 입력 정보에 대해 컨볼루션 처리가 수행될 수 있고, 제3 입력 정보의 채널 수가 4 개에서 3 개로 감소된 후, 제3 네트워크 분기의 제3 입력 정보에 대응하는 특징 맵을 얻기 위해 특징 추출이 수행되며, 여기서, 제3 입력 정보에 대응하는 특징 맵은 3개의 차원 특징을 갖는 텐서(tensor)일 수 있고, 상기 3개의 차원 특징은 길이 특징, 폭 특징 및 깊이 특징을 포함할 수 있다. 특징 추출 동안, 다중 컨볼루션 처리가 수행될 수 있다. 제4 네트워크 분기의 제4 입력 정보에 대응하는 특징 맵은 동일한 처리 방식으로 얻어질 수 있다.
이어서, 제2 뉴럴 네트워크의 연관 층을 이용하여 제3 입력 정보에 대응하는 특징 맵과 제4 입력 정보에 대응하는 특징 맵을 연관시킴으로써, 제2 연관 특징 맵을 얻을 수 있다. 제3 입력 정보에 대응하는 특징 맵이 제4 입력 정보에 대응하는 특징 맵과 연관될 때, 제2 연관 특징 맵은 상기 수학식 1을 사용하여 얻어질 수 있다. 그런 다음, 제2 연관 특징 맵에 대해 전역 회귀 처리를 수행함으로써 제1 대상 물체와 제2 대상 물체 사이의 연관 점수가 얻어질 수 있다. 여기서 전역 회귀 처리는 다중 컨볼루션 처리, 배치 정규화 처리, 선형 정류 처리 및 전체 연결 층 처리를 포함할 수 있다.
일례로, 제1 대상 물체와 제2 대상 물체 간의 연관 정도를 나타내는 제2 연관 결과가 제1 입력 정보 및 제3 입력 정보에 따라 얻어질 수 있고, 이어서 제1 연관 점수 및 제2 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 연관 결과가 결정된다.
이 예에서, 연관 결과의 정확성을 보장하기 위해, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하기 위해 복수의 뉴럴 네트워크가 함께 결합될 수 있다. 즉, 제3 뉴럴 네트워크를 이용하여 제1 입력 정보 및 제3 입력 정보에 대한 특징 추출을 수행하여, 제1 입력 정보에 대응하는 특징 맵 및 제3 입력 정보에 대응하는 특징 맵을 얻은 다음, 제1 입력 정보에 대응하는 특징 맵 및 제3 입력 정보에 대응하는 특징 맵에 대해 특징 연관을 수행하여 제3 연관 특징 맵을 얻은 다음, 상기 제1 대상 물체와 상기 제2 대상 물체 간의 연관 정도를 나타내는 제2 연관 결과가 제3 연관 특징 맵에 기초하여 얻어질 수 있다. 연관도는 제1 대상 물체와 제2 대상 물체가 동일한 대상 물체를 나타낼 가능성으로 이해될 수 있다. 여기서, 제3 뉴럴 네트워크의 네트워크 구조 및 프로세스는 제2 뉴럴 네트워크의 네트워크 구조 및 프로세스와 동일하므로, 여기서는 반복 설명하지 않는다. 제2 연관 점수가 얻어진 후, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과는 제1 연관 점수 및 제2 연관 점수에 따라 결정될 수 있으며, 예를 들어 최종 연관 점수를 결정하기 위해 제1 연관 점수 및 제2 연관 점수에 대해 가중 평균화를 수행한 다음, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과가 최종 연관 점수에 따라 결정된다.
일 예에서, 제1 이미지 내의 제2 대상 물체의 위치를 나타내는 제2 예측 결과, 및 그 다음 제1 대상 물체와 제2 대상 물체 사이의 연관도를 나타내는 제3 연관 점수가 제5 입력 정보 및 제1 입력 정보에 따라 얻어지며, 여기서 제5 입력 정보는 제1 이미지 및 제2 예측 결과에 따라 결정된다. 그 다음에, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과는 제1 연관 점수 및 제3 연관 점수에 따라 결정된다.
이 예에서, 제2 예측 결과는 제2 이미지 및 제2 이미지에서의 제2 주목 맵, 및 제1 이미지 및 제1 마스크 이미지에 따라 결정될 수 있다. 제2 예측 결과를 결정하는 프로세스는 제1 예측 결과를 결정하는 프로세스와 동일하거나 상이할 수 있으며, 세부 사항은 여기에서 반복적으로 설명되지 않는다. 제2 예측 결과 및 제1 이미지는 제5 입력 정보로서 사용되거나, 제2 예측 결과와 제1 이미지를 융합하여 제5 입력 정보를 얻을 수 있다. 그 다음, 제5 입력 정보 및 제1 입력 정보는 제4 뉴럴 네트워크에 입력될 수 있고, 제3 연관 점수가 제4 뉴럴 네트워크의 출력에 따라 얻어질 수 있다. 여기서, 제4 뉴럴 네트워크의 네트워크 구조는 제2 뉴럴 네트워크의 네트워크 구조와 동일할 수 있으며, 여기서는 반복 설명하지 않는다. 제3 연관 점수는 제2 예측 결과와 제1 대상 물체 사이의 연관도를 나타낼 수 있다. 제3 연관 점수는 높고, 그것은 제2 예측 결과에 의해 지시된 제1 이미지 내의 제1 대상 물체와 제2 대상 물체 사이에 연관 관계가 존재함을 나타낼 수 있다. 그 다음, 제1 대상 물체와 제2 대상 물체 사이의 정확한 연관 결과는 제1 연관 점수 및 제3 연관 점수 둘 다에 의해 얻어질 수 있으며, 예를 들면 제1 연관 점수 및 제3 연관 점수의 평균 값 또는 최대 값이 계산될 수 있고, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과는 평균값 또는 최대 값에 따라 결정될 수 있다.
도 4는 본 개시의 실시 예에 따른 연관 결과를 얻는 예를 나타내는 블록도이다. 제1 이미지는 I1로 표현될 수 있고, 제1 이미지의 제1 주목 맵은 M1로 표현될 수 있고, 제1 이미지의 제1 마스크 이미지는 M01로 표현될 수 있다. 제2 이미지는 I2로 표현될 수 있고, 제2 이미지의 제2 주목 맵은 M2로 표현될 수 있고, 제2 이미지의 제2 마스크 이미지는 M02로 표현될 수 있다. 제1 이미지(I1) 및 제1 주목 맵(M1)은 제1 입력 정보일 수 있고, 제2 이미지(I2) 및 제2 마스크 이미지(M02)는 제2 입력 정보일 수 있고, 제1 뉴럴 네트워크는 Mask1로 표현될 수 있다. 제1 입력 정보 및 제2 입력 정보는 제1 뉴럴 네트워크(Mask1)에 입력되고, 제1 예측 결과가 얻어질 수 있으며, 여기서 제1 예측 결과는
Figure 112020075717070-pct00009
로 표현될 수 있다. 제2 이미지 및 제2 주목 맵은 제3 입력 정보일 수 있고, 제1 예측 결과 및 제2 이미지는 제4 입력 정보일 수 있고, 제4 입력 정보 및 제3 입력 정보는 제2 뉴럴 네트워크(Association 1)에 입력되고, 제1 연관 점수가 얻어질 수 있다. 제1 입력 정보 및 제3 입력 정보는 제3 뉴럴 네트워크(Association 2)에 입력되고, 제2 연관 점수가 얻어질 수 있다. 제3 입력 정보 및 제4 입력 정보는 제5 뉴럴 네트워크(Mask2)에 입력되고, 제2 예측 결과(
Figure 112020075717070-pct00010
)가 얻어질 수 있다. 제2 예측 결과(
Figure 112020075717070-pct00011
)는 제5 입력 정보로서 사용될 수 있고, 제1 입력 정보 및 제5 입력 정보는 제4 뉴럴 네트워크(Association 3)에 입력되고, 제3 연관 점수가 얻어질 수 있다. 그런 다음 제1 연관 점수, 제2 연관 점수 및 제3 연관 점수가 투표 층에 입력되며, 여기서 투표 층은 전체 연결 층일 수 있고, 투표 층을 통해 최종 연관 점수가 얻어질 수 있고, 및 제1 대상 물체와 제2 대상 물체 사이의 연관 결과가 최종 연관 점수에 따라 얻어질 수 있다.
제1 뉴럴 네트워크의 네트워크 구조와 제2 뉴럴 네트워크의 네트워크 구조는 임의로 조합될 수 있음에 유의해야 한다. 도 4는 가능한 조합 모드를 단순히 예시적으로 도시하며, 특정 조합 모드는 본 개시의 실시 예에서 제한되지 않는다.
일 예에서, 제1 대상 물체와 제2 대상 물체 사이의 최종 연관 점수는 제1 연관 점수 및 제3 연관 점수에 따라 결정되고, 최종 연관 점수가 점수 임계치보다 큰 경우, 연관 결과는 제1 대상 물체가 제2 대상 물체와 잠재적으로 연관되어 있음을 나타내는 것으로 결정된다.
이 예에서, 다수의 연관 점수에 따라 최종 연관 점수가 얻어질 수 있고, 최종 연관 점수는 제1 대상 물체와 제2 대상 물체 사이의 연관도를 정확하게 제시할 수 있다. 최종 연관 점수는 제1 연관 점수 및 제3 연관 점수의 평균값 또는 최대 값일 수 있고, 제1 연관 점수 및 제3 연관 점수는 최종 연관 점수를 얻기 위해 뉴럴 네트워크의 전체 연결 층에 입력될 수 있다. 이어서, 제1 대상 물체와 제2 대상 물체 사이의 연관 결과가 최종 연관 점수에 따라 결정된다. 최종 연관 점수가 높으면, 이는 제1 표적 물체와 제2 표적 물체 사이의 연관 정도가 크다는 것을 나타낼 수 있고; 최종 연관 점수는 낮으면, 이는 제1 대상 물체와 제2 대상 물체 사이의 연관 정도가 작음을 나타낼 수 있다. 이 예에서, 최종 연관 점수는 미리 결정된 점수 임계치과 비교될 수 있고, 얻어진 연관 점수가 점수 임계치보다 큰 경우, 이는 2 개의 대상 검출 결과가 잠재적으로 연관되어 있는 것으로, 즉 2 개의 대상이 같은 대상을 나타내는 것으로 간주될 수 있다. 이러한 방식으로, 2 개의 대상 물체가 동일한 대상 물체를 나타내는 지의 여부는 최종 연관 점수에 따라 신속하게 결정될 수 있다.
일 예에서, 최종 연관 점수가 점수 임계치 이하인 경우, 연관 결과는 제1 대상 물체가 제2 대상 물체와 연관되지 않음을 나타내는 것으로 결정된다.
이 예에서, 얻어진 최종 연관 점수가 미리 결정된 점수 임계치 이하인 경우, 2 개의 대상 물체 사이에 연관 관계가 존재하지 않는 것으로, 즉, 제1 대상 물체와 제2 대상 물체는 동일한 대상 물체를 나타내지 않는 것으로 간주될 수 있다. 이러한 방식으로, 2 개의 대상 물체가 동일한 대상 물체가 아닌지의 여부는 임의의 2 개의 대상 물체 사이의 연관성 점수에 따라 신속하게 결정될 수 있다.
일 예에서, 최종 연관 점수는 제1 연관 점수, 제2 연관 점수 및 제3 연관 점수에 따라 결정될 수 있다. 예를 들어, 최종 연관 점수를 얻기 위해 제1 연관 점수, 제2 연관 점수 및 제3 연관 점수에 대해 가중 평균화가 수행된다.
일 예에서, 제1 대상 물체와 제2 대상 물체 사이의 최종 연관 점수는 제1 연관 점수 및 제3 연관 점수에 따라 결정될 수 있으며, 제1 이미지 내의 각각의 제1 대상과 제2 이미지 내의 각각의 제2 대상을, 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라 매칭시켜, 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 연관의 결과를 얻는다.
이 예에서, 제1 이미지 및 제2 이미지 각각은 다수의 대상 물체를 포함할 수 있기 때문에, 제1 이미지 내의 특정 제1 대상 물체는 제2 이미지 내의 다수의 제2 대상 물체와 잠재적으로 관련되지만, 실제로는 하나의 제1 대상 물체가 하나의 제2 대상 물체에 대응한다. 따라서, 제1 대상 물체와 제2 대상 물체 사이의 최종 연관 점수에 따라 다수의 제1 대상 물체는 다수의 제2 대상 물체와 전체적으로 매칭될 수 있어서, 하나의 제1 대상 물체는 하나의 제2 대상 물체와 매칭되고, 성공적으로 매칭된 제1 대상 물체와 제2 대상 물체는 동일한 대상 물체로 간주될 수 있다.
이 예에서, 제1 이미지 내의 각각의 제1 대상 물체와 제2 이미지 내의 각각의 제2 대상 물체 사이의 연관 점수의 합은 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라 결정될 수 있으며, 연관 점수들의 합이 최대이고 미리 결정된 점수 임계치 합보다 큰 경우, 제1 이미지 내의 각각의 제1 대상 물체는 제2 이미지 내의 각각의 제2 대상 물체와 각각 매칭하는 것으로 결정되고, 각각의 제1 대상 물체와 각각의 제2 대상 물체 간의 연관 결과가 얻어진다.
이 예에서, 2 개의 이미지 내의 대상들은 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 최종 연관 점수의 합을 계산하는 방식으로 매칭된다. 즉, 제1 이미지 내의 다수의 대상은 제2 이미지 내의 다수의 대상과 각각 매칭되고, 그 다음 매칭된 대상 쌍들 사이의 계산된 최종 연관 점수에 따라 연관 점수의 합이 얻어진다. 연관 점수의 합이 최대인 경우, 제1 이미지 내의 각각의 제1 대상 물체가 제2 이미지 내의 각각의 제2 대상 물체와 최적으로 매칭되는 것을 간주될 수 있고, 연관 점수의 최대 합이 미리 결정된 점수 합 임계치보다 큰 경우, 제1 이미지 내의 다수의 대상 물체가 제2 이미지 내의 다수의 대상 물체와 각각 매칭하는 것으로 간주될 수 있다. 따라서 상이한 이미지들 내의 대상 물체들이 최적으로 매칭될 수 있다.
이 예에서, 연관 점수의 합들에서 연관 점수의 최대 합이 점수 합 임계치보다 작거나 같은 경우, 제1 이미지 내의 각각의 제1 대상 물체는 제2 이미지 내의 각각의 제2 대상 물체와 매칭하지 않는다.
여기서, 연관 점수의 최대 합이 미리 결정된 점수 합 임계치보다 작거나 같은 경우, 제1 이미지 내의 다수의 제1 대상 물체가 제2 이미지 내의 다수의 제2 대상 물체와 최적으로 매칭되는 경우에, 연관 점수의 최대 합이 미리 결정된 점수 합 임계치에 도달하지 않은 것으로 간주될 수 있으며, 제1 이미지 내의 다수의 제1 대상 물체가 제2 이미지 내의 다수의 제2 대상 물체와 일대일 대응하지 않고, 제1 이미지 및 제2 이미지는 동일한 장면에 대해 캡처된 이미지가 아닌 것으로, 예를 들면 제1 이미지 및 제2 이미지는 일부 동일한 대상 물체를 포함하거나 또는 상이한 대상 물체를 포함하거나, 또는 제1 이미지와 제2 이미지가 완전히 다른 것으로 간주될 수 있다.
예를 들어, 제1 이미지에는 각각 A, B 및 C인 3개의 제1 대상 물체가 존재하고, 제2 이미지에는 각각 a, b 및 c인 3개의 제2 대상 물체가 존재한다고 가정한다. 제1 이미지의 A와 제2 이미지의 a 사이의 연관 점수는 Aa로 표현될 수 있다. 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 연관 점수의 합은, 제1 이미지 내의 3개의 제1 대상 물체와 제2 이미지 내의 3개의 제2 대상 물체를 무작위로 짝지은 다음에, 대상 물체들 쌍 사이의 최종 연관 점수를 더함으로써 얻어질 수 있으며, 매번 무작위로 짝지은 후에, 제2 이미지 내의 하나의 제2 대상 물체는 제1 이미지 내의 하나의 제1 대상 물체에 할당된다. 즉, Aa, Bb 및 Cc가 하나의 무작위 짝짓기에 해당하고, Aa, Bc 및 Cb가 하나의 무작위 짝짓기에 해당하고, Ab, Ba 및 Cc가 하나의 무작위 짝짓기에 해당하고, Ab, Bc 및 Ca가 하나의 무작위 짝짓기에 해당하고, Ac, Ba 및 Cb가 하나의 무작위 짝짓기에 해당하고, Ac, Bb 및 Ca가 하나의 무작위 짝짓기에 해당하며, 여기서 최종 연관 점수들의 합이 최대일 때 하나의 무작위 짝짓기가 선택되고, 무작위로 짝지어진 대상들 사이의 최종 연관 점수들의 합이 최대 연관 점수 합이 될 수 있다.
주목할 것은, 다수의 제1 대상 물체가 다수의 제2 대상 물체와 쌍을 이룰 때, 특정 매칭 방법은 본 개시에서 제한되지 않으며, 여기서 제1 이미지 내의 다수의 제1 대상 물체는 어떤 관련된 알고리즘, 예를 들어 탐욕 알고리즘 또는 헝가리언 알고리즘(Hungarian algorithm)을 사용함으로써 제2 이미지 내의 다수의 제2 대상 물체와 쌍을 이루기 때문에 서로 다른 이미지 내의 대상 물체들이 최적으로 매칭된다는 것이다.
하나의 가능한 구현에서, 제1 이미지 및 제2 이미지는 상이한 시각에서 동일한 장면을 동기하여 캡처함으로써 얻어진다. 여기서, 다수의 이미지 캡처 장치는 서로 다른 시각에서 동일한 장면을 동기하여 촬영할 수 있고, 각 이미지 캡처 장치의 각도와 위치가 다르므로, 동일한 장면을 서로 다른 각도에서 촬영하여 얻은 이미지가 얻어질 수 있다: 예를 들면, 동일한 물체의 메인 뷰(main view) 및 톱 뷰. 다수의 이미지 캡처 장치에 의해 동기하여 캡처된 이미지들 내의 동일한 대상 물체들은 제1 이미지 및 제2 이미지 내의 대상 물체들 사이의 연관 결과에 따라 매칭되며, 예를 들어, 상이한 이미지 내의 동일한 대상 물체들 사이의 연관을 구현하기 위해, 상이한 이미지들 내의 동일한 대상들에 동일한 번호, 컬러 또는 형상 등의 주석이 달린다.
본 개시에서 언급된 전술한 다양한 방법 실시 예들은 원리 논리를 벗어나지 않고 서로 결합되어 실시 예를 형성할 수 있음을 이해할 수 있다. 공간 제한으로 인해 세부적인 것은 본 명세서에서 반복적으로 설명하지 않는다.
또한, 본 개시는 이미지 처리 장치, 전자 장치, 컴퓨터 판독 가능 저장 매체 및 프로그램을 더 제공하며, 이들 모두는 본 개시에서 제공된 이미지 처리 방법들 중 어느 하나를 구현하도록 구성될 수 있다. 해당하는 기술적 솔루션 및 설명에 대해서, 방법 섹션의 해당 내용을 참조할 수 있다. 세부 사항은 반복해서 설명하지 않는다.
당해 기술분야의 통상의 기술자는, 특정 구현의 전술한 방법에서, 단계들의 설명된 순서가 구현 프로세스에 대한 임의의 제한을 구성하는 엄격한 실행 순서를 의미하는 것이 아니고, 단계들을 실행하는 특정 순서는 구현의 기능 및 가능한 내부 논리에 의해 결정되어야 한다.
도 5는 본 개시의 실시 예들에 따른 이미지 처리 장치의 블록도를 도시한다. 도 5에 도시된 바와 같이, 이미지 처리 장치는:
제1 이미지 및 상기 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻도록 구성된 제1 획득 모듈(31) - 여기서, 상기 제1 주목 맵은 상기 제1 이미지 내의 상기 제1 대상 물체의 위치를 나타냄;
제2 이미지 및 상기 제2 이미지의 제2 마스크 이미지를 얻도록 구성된 제2 획득 모듈(32) - 여기서, 제2 마스크 이미지 내의 픽셀들의 픽셀 값들은 동일함; 및
제1 입력 정보 및 제2 입력 정보에 따라, 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻도록 구성된 제1 결정 모듈(33) - 여기서, 제1 입력 정보는 제1 이미지 및 제1 주목 맵에 따라 결정되고, 제2 입력 정보는 제2 이미지 및 제2 마스크 이미지에 따라 결정된다.
하나의 가능한 구현에서, 상기 이미지 처리 장치는 다음을 더 포함한다:
상기 제2 이미지 내의 제2 대상 물체에 대한 검출 결과에 따라 상기 제2 이미지의 제2 주목 맵을 얻도록 구성된 제3 획득 모듈 - 여기서, 상기 제2 주목 맵은 상기 제2 이미지 내의 상기 제2 대상 물체의 위치를 나타냄;
제3 입력 정보 및 제4 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수를 얻도록 구성된 제2 결정 모듈 - 여기서, 상기 제3 입력 정보는 상기 제2 이미지 및 상기 제2 주목 맵에 따라 결정되고, 상기 제4 입력 정보는 상기 제2 이미지 및 상기 제1 예측 결과에 따라 결정됨; 및
상기 제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하도록 구성된 제3 결정 모듈.
하나의 가능한 구현에서, 상기 이미지 처리 장치는:
상기 제1 입력 정보 및 상기 제3 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제2 연관 점수를 얻도록 구성된 제4 결정 모듈을 더 포함하며,
상기 제3 결정 모듈은 상기 제1 연관 점수 및 상기 제2 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하도록 구성된다.
하나의 가능한 구현에서, 상기 이미지 처리 장치는 다음을 더 포함한다:
상기 제1 이미지 내의 상기 제2 대상 물체의 위치를 나타내는 제2 예측 결과를 얻도록 구성된 제4 획득 모듈; 및
제5 입력 정보 및 제1 입력 정보에 따라, 제1 대상 물체와 제2 대상 물체 사이의 연관도를 나타내는 제3 연관 점수를 얻도록 구성된 제5 결정 모듈 - 여기서, 제5 입력 정보는 제1 이미지 및 제2 예측 결과에 따라 결정됨.
상기 제3 결정 모듈은 제1 연관 점수 및 제3 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 연관 결과를 결정하도록 구성된다.
하나의 가능한 구현에서, 상기 제3 결정 모듈은 다음을 포함한다:
상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 간의 최종 연관 점수를 결정하도록 구성된 제1 결정 서브-모듈; 및
상기 최종 연관 점수가 점수 임계치보다 큰 경우에, 상기 연관 결과는 제1 대상 물체가 제2 대상 물체와 잠재적으로 연관되어 있음을 나타내는 것으로 결정하도록 구성된 제2 결정 서브-모듈.
하나의 가능한 구현에서, 상기 제3 결정 모듈은 다음을 더 포함한다:
상기 최종 연관 점수가 상기 점수 임계치 이하인 경우에, 상기 연관 결과는 제1 대상 물체가 제2 대상 물체와 연관되지 않음을 나타내는 것으로 결정하도록 구성된 제3 결정 서브-모듈.
하나의 가능한 구현에서, 상기 제3 결정 모듈은 다음을 포함한다:
제1 연관 점수 및 제3 연관 점수에 따라 제1 이미지 내의 제1 대상 물체와 제2 대상 물체 사이의 최종 연관 점수를 결정하도록 구성된 제4 결정 서브-모듈; 및
상기 제1 이미지 내의 각각의 제1 대상 물체와 상기 제2 이미지 내의 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체를 상기 각각의 제2 대상 물체와 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻도록 구성된 매칭 서브-모듈.
하나의 가능한 구현에서, 상기 매칭 서브-모듈은 다음을 포함한다:
상기 제1 이미지 내의 각각의 제1 대상 물체와 상기 제2 이미지 내의 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 점수들의 합을 결정하도록 구성된 제1 결정 유닛; 및
상기 연관 점수들의 합이 최대이고 미리 결정된 점수 합 임계치보다 큰 경우에, 상기 제1 이미지 내의 각각의 제1 대상 물체가 상기 제2 이미지 내의 각각의 제2 대상 물체와 각각 매칭하는 것으로 결정하고, 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻도록 구성된 제2 결정 유닛.
하나의 가능한 구현에서, 상기 매칭 서브-모듈은 다음을 더 포함한다:
상기 연관 점수들의 합에서 최대 연관 점수의 합이 점수 합 임계치 이하인 경우, 제1 이미지 내의 각각의 제1 대상 물체가 제2 이미지 내의 각각의 제2 대상 물체와 매칭하지 않는 것으로 결정하도록 구성된 제3 결정 유닛.
하나의 가능한 구현에서, 상기 제1 결정 모듈은 다음을 포함한다:
상기 제1 입력 정보에 대응하는 특징 맵을 얻기 위해 상기 제1 입력 정보에 대해 특징 추출을 수행하도록 구성된 제1 특징 추출 서브-모듈;
상기 제2 입력 정보에 대응하는 특징 맵을 얻기 위해 상기 제2 입력 정보에 대해 특징 추출을 수행하도록 구성된 제2 특징 추출 서브-모듈; 및
상기 제1 입력 정보에 대응하는 특징 맵 및 상기 제2 입력 정보에 대응하는 특징 맵에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻도록 구성된 예측 결과 결정 서브-모듈.
하나의 가능한 구현에서, 상기 제1 특징 추출 서브-모듈은 제1 입력 정보에 대응하는 특징 맵을 얻기 위해 뉴럴 네트워크의 제1 네트워크 분기를 사용하여 상기 제1 입력 정보에 대해 특징 추출을 수행하도록 구성되고; 및
상기 제2 특징 추출 서브-모듈은 제2 입력 정보에 대응하는 특징 맵을 얻기 위해 뉴럴 네트워크의 제2 네트워크 분기를 사용하여 상기 제2 입력 정보에 대해 특징 추출을 수행하여 하도록 구성되며, 여기서 제1 네트워크 분기 및 제2 네트워크 분기는 동일한 네트워크 파라미터 및 네트워크 구조를 갖는다.
하나의 가능한 구현에서, 상기 예측 결과 결정 서브-모듈은 다음을 포함한다:
상기 제1 입력 정보에 대응하는 특징 맵 및 상기 제2 입력 정보에 대응하는 특징 맵에 대해 특징 연관을 수행하여 제1 연관 특징 맵을 얻도록 구성된 특징 연관 유닛; 및
상기 제1 연관 특징 맵에 기초하여, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻도록 구성된 예측 결과 결정 유닛.
하나의 가능한 구현에서, 상기 제1 획득 모듈은 다음을 포함한다:
상기 제1 이미지 내의 상기 제1 대상 물체에 대한 검출 결과에 따라 상기 제1 이미지 내의 상기 제1 대상 물체의 제1 이미지 영역을 결정하도록 구성된 영역 결정 서브-모듈; 및
제1 이미지 영역 및 제1 이미지 내의 제1 이미지 영역 이외의 제2 이미지 영역에 따라 제1 대상 물체의 제1 주목 맵을 결정하도록 구성된 주목 맵 결정 서브-모듈.
하나의 가능한 구현에서, 상기 영역 결정 서브-모듈은 다음을 포함한다:
상기 제1 이미지의 이미지 크기와 일치하는 이미지 크기를 갖는 제1 초기 이미지를 얻도록 구성된 제1 획득 유닛;
상기 제1 초기 이미지 내의 제1 이미지 영역의 픽셀들의 픽셀 값을 제1 픽셀 값으로 설정하도록 구성된 제1 설정 유닛 - 여기서, 상기 제1 초기 이미지 내의 상기 제1 이미지 영역은 상기 제1 이미지 내의 제1 이미지 영역에 대응함; 및
제1 초기 이미지 내의 제2 이미지 영역의 픽셀들의 픽셀 값을 제2 픽셀 값으로서 설정하여 제1 대상 물체의 제1 주목 맵을 얻도록 구성된 제2 설정 유닛 - 여기서, 상기 제1 초기 이미지 내의 제2 이미지 영역은 상기 제1 초기 이미지 내의 제1 이미지 영역 이외의 영역이고, 상기 제1 픽셀 값은 상기 제2 픽셀 값과 동일하지 않다.
하나의 가능한 구현에서, 상기 제2 획득 모듈은 다음을 포함한다:
상기 제2 이미지의 이미지 크기와 일치하는 이미지 크기를 갖는 제2 초기 이미지를 얻도록 구성된 제2 획득 유닛; 및
상기 제2 초기 이미지 내의 픽셀들의 픽셀 값을 제3 픽셀 값으로 설정하여 제2 마스크 이미지를 얻도록 구성된 제3 설정 유닛.
하나의 가능한 구현에서, 상기 이미지 처리 장치는 다음을 더 포함한다:
상기 제1 입력 정보를 얻기 위해 상기 제1 이미지를 상기 제1 주목 맵과 융합시키도록 구성된 이미지 융합 모듈.
하나의 가능한 구현에서, 상기 이미지 융합 모듈은 다음을 포함한다:
상기 제1 입력 정보를 얻기 위해 제1 주목 맵과 제1 이미지를 설정된 차원에서 더하도록 구성된 더하기 서브-모듈; 또는
상기 제1 입력 정보를 얻기 위해 상기 제1 이미지와 상기 제1 주목 맵을 설정된 차원에서 스플라이싱(splicing) 하도록 구성된 스플라이싱 서브-모듈.
하나의 가능한 구현에서, 상기 제1 이미지 및 제2 이미지는 상이한 시각에서 동일한 장면을 동기하여 캡처함으로써 얻어진다.
일부 실시 예들에서, 본 개시의 실시 예들에서 제공된 기능들 또는 상기 장치들에 포함된 기능들은 전술한 방법 실시 예들에서 설명된 방법들을 구현하기 위해 사용될 수 있다. 특정 구현들에 대해, 상기 방법 실시 예들에서의 설명이 참조 될 수 있다. 간결성을 위해, 여기에서 세부 사항은 반복해서 설명되지 않는다.
본 개시의 실시 예는 컴퓨터 프로그램 명령이 기억된 컴퓨터 판독 가능 저장 매체를 더 제공하며, 여기서 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때, 전술한 방법이 구현된다. 상기 컴퓨터 판독 가능 저장 매체는 비 휘발성 컴퓨터 판독 가능 저장 매체일 수 있다.
본 개시의 실시 예들은 전자 장치를 더 제공하며, 상기 전자 장치는 프로세서; 및 프로세서 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고, 상기 프로세서는 상기 방법을 실행하도록 구성된다.
상기 전자 장치는 단말기, 서버 또는 다른 형태의 장치로서 제공될 수 있다.
도 6은 본 발명의 일 실시 예에 따른 전자 장치(800)의 블록도이다. 예를 들어, 전자 장치(800)는 휴대폰, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 장치, 게임 콘솔, 태블릿 장치, 의료기기, 운동기구, 개인휴대정보단말기(PDA) 등의 단말기일 수 있다.
도 6에 도시된 바와 같이, 전자 장치(800)는 다음 중 하나 이상을 포함할 수 있다: 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816).
상기 처리 컴포넌트(802)는 일반적으로, 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 장치(800)의 전반적인 동작을 제어한다. 상기 처리 컴포넌트(802)는 상기 방법의 단계들의 전부 또는 일부를 구현하기 위한 명령을 실행하기 위한 하나 이상의 프로세서(820)를 포함할 수있다. 또한, 처리 컴포넌트(802)는 처리 컴포넌트(802)와 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808)와 처리 컴포넌트(802) 사이의 상호 작용을 용이하게 하기 위해 멀티미디어 모듈을 포함할 수 있다.
상기 메모리(804)는 전자 장치(800)에서의 동작을 지원하기 위해 다양한 유형의 데이터를 저장하도록 구성된다. 상기 데이터의 예는 전자 장치(800)상에서 동작되는 임의의 애플리케이션 또는 방법에 대한 명령, 연락처(contact) 데이터, 연락처 목록 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 SRAM (Static Random Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), EPROM(Erasable Programmable Read-Only), PROM(Programmable Read-Only Memory), ROM (Read-Only Memory), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크와 같은 임의의 유형의 휘발성 또는 비 휘발성 저장 장치 또는 이들의 조합에 의해 구현된다.
전원 컴포넌트(806)는 전자 장치(800)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 이상의 전원, 및 전자 장치(800)를 위한 전력 생성, 관리 및 배분에 관련되는 다른 컴포넌트를 포함해도 된다.
멀티미디어 컴포넌트(808)는 상기 전자 장치(800)와 사용자 사이에서 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시 예에서는, 상기 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함해도 된다. 상기 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해, 터치 스크린으로서 구현해도 된다. 터치 패널은 터치 패널상의 터치, 슬라이드 및 제스처를 검지하기 위해 하나 이상의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 검지할 뿐만 아니라, 상기 터치 또는 슬라이드 조작에 관련되는 지속 시간 및 압력을 검출하도록 해도 된다. 일부 실시 예에서는, 멀티미디어 컴포넌트(808)는 전면 카메라 및/또는 후면 카메라를 포함한다. 전자 장치(800)가 동작 모드, 예를 들면, 사진 또는 비디오 촬영 모드가 되는 경우, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신하도록 해도 된다. 전면 카메라 및 후면 카메라는 각각 고정된 광학 렌즈계이거나, 또는 초점 거리 및 광학 줌 능력을 갖는 것이어도 된다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들면, 오디오 컴포넌트(810)는 마이크(MIC)를 포함하고, 마이크(MIC)는 전자 장치(800)가 동작 모드, 예를 들면, 호출 모드, 기록 모드 및 음성 인식 모드가 되는 경우, 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 추가로 메모리(804)에 기억되거나, 또는 통신 컴포넌트(816)에 의해 송신되어도 된다. 일부 실시예에서는, 오디오 컴포넌트(810)는 추가로 오디오 신호를 출력하기 위한 스피커를 포함한다.
I/O 인터페이스(812)는 처리 컴포넌트(802)와 주변 인터페이스 모듈 사이의 인터페이스를 제공하고, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등이어도 된다. 상기 버튼은 홈 버튼, 음량 버튼, 시작 버튼 및 잠금 버튼을 포함해도 되지만, 이들에 한정되지 않는다.
센서 컴포넌트(814)는 전자 장치(800)의 각 측면에서의 상태 평가를 위해 하나 이상의 센서를 포함한다. 예를 들면, 센서 컴포넌트(814)는 전자 장치(800)의 온/오프 상태와, 예를 들면 전자 장치(800)의 표시 장치 및 키패드와 같은 컴포넌트의 상대적 위치 결정을 검출할 수 있고, 센서 컴포넌트(814)는 추가로 전자 장치(800) 또는 전자 장치(800)의 컴포넌트의 위치 변화, 사용자와 전자 장치(800)의 접촉 유무, 전자 장치(800)의 방위 또는 가감속, 및 전자 장치(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 어떠한 물리적 접촉도 없는 경우, 근방의 물체의 존재를 검출하도록 구성된 근접 센서를 포함해도 된다. 센서 컴포넌트(814)는 추가로 CMOS 또는 CCD 이미지 센서와 같은, 이미징 애플리케이션에서 사용하기 위한 광 센서를 포함해도 된다. 일부 실시예에서는, 센서 컴포넌트(814)는 추가로 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함해도 된다.
통신 컴포넌트(816)는 전자 장치(800)와 다른 기기 사이의 유선 또는 무선 통신을 실현하기 위해 배치된다. 전자 장치(800)는 예를 들면 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 규격에 기초하는 무선 네트워크에 액세스할 수 있다. 일 예시적 실시예에서는, 통신 컴포넌트(816)는 방송 채널에 의해 외부의 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서는, 상기 통신 컴포넌트(816)는 추가로 근거리 통신을 실현하기 위해 근거리 무선 통신(NFC) 모듈을 포함한다. 예를 들면, NFC 모듈은 무선 주파수 식별(RFID) 기술, 적외선 데이터 협회(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 의해 실현할 수 있다.
일 예시적인 실시예에서는, 전자 장치(800)는 하나 이상의 특정 용도용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 디바이스(DSPD), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 요소에 의해 실현되고, 상기 방법을 실행하기 위해 사용될 수 있다.
일 예시적인 실시예에서는, 추가로 비휘발성 컴퓨터 판독 가능 기억 매체 또는 휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(804)가 제공되며, 상기 컴퓨터 프로그램 명령은 전자 장치(800)의 프로세서(820)에 의해 실행되면, 상기 방법을 실행할 수 있다.
도 7은 본 발명의 실시예에 따른 전자 장치(1900)의 블록도를 나타낸다. 예를 들면, 전자 장치(1900)는 서버로서 제공되어도 된다. 도 7을 참조하면, 전자 장치(1900)는 하나 이상의 처리 프로세서를 더 포함하는 처리 컴포넌트(1922)와, 처리 컴포넌트(1922)에 의해 실행 가능한 명령, 예를 들면, 애플리케이션 프로그램을 기억하도록 구성되고 메모리(1932)로 대표되는 메모리 자원을 포함한다. 메모리(1932)에 기억된 애플리케이션 프로그램은 각각이 하나의 명령군에 대응하는 하나 이상의 모듈을 포함해도 된다. 또한, 처리 컴포넌트(1922)는 명령을 실행함으로써 상기 방법을 실행하도록 구성된다.
전자 장치(1900)는 또한 전자 장치(1900)의 전원 관리를 실행하도록 구성된 전원 컴포넌트(1926), 전자 장치(1900)를 네트워크에 접속하도록 구성된 유선 또는 무선 네트워크 인터페이스(1950), 및 입출력(I/O) 인터페이스(1958)를 포함해도 된다. 전자 장치(1900)는 메모리(1932)에 기억된 오퍼레이팅 시스템, 예를 들면, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기초하여 동작할 수 있다.
예시적인 실시예에서는, 추가로 비휘발성 컴퓨터 판독 가능 기억 매체 또는 휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 장치(1900)의 처리 컴포넌트(1922)에 의해 실행되면, 상기 방법을 실행할 수 있다.
본 개시는 시스템, 방법 및/또는 컴퓨터 프로그램 제품이어도 된다. 이 컴퓨터 프로그램 제품은 본 개시의 다양한 측면을 실현시키기 위해 프로세서에 의해 사용되는 컴퓨터 판독 가능 프로그램 명령이 기억된 컴퓨터 판독 가능 기억 매체를 포함해도 된다.
컴퓨터 판독 가능 기억 매체는 명령 실행 장치에 의해 사용되는 명령을 저장 및 기억 가능한 유형(有形)의 장치여도 된다. 컴퓨터 판독 가능 기억 매체는 예를 들면, 전자 기억 장치, 자기 기억 장치, 광 기억 장치, 전자기 기억 장치, 반도체 기억 장치 또는 이들의 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능 기억 매체의 더욱 구체적인 예(비망라적 목록)로는 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 예를 들면, 명령이 기억되어 있는 천공 카드 또는 슬롯 내 돌기 구조와 같은 기계적 부호화 장치 및 상기 임의의 적당한 조합을 포함한다. 여기에서 사용되는 컴퓨터 판독 가능 기억 매체는 예를 들면, 무선 전파 또는 기타 자유롭게 전파되는 전자파, 도파로 또는 다른 전송 매체를 경유하여 전파되는 전자파(예를 들면, 광섬유 케이블을 통해 전송되는 광 펄스), 또는 전선을 경유하여 전송되는 전기 신호와 같은 순시 신호로 해석되는 것은 아니다.
여기에서 기술된 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에서 각 계산/처리 장치에 다운로드되거나, 또는 네트워크, 예를 들면, 인터넷, LAN, WAN, 및/또는 무선 네트워크를 통해 외부 컴퓨터 또는 외부 기억 장치에 다운로드되어도 된다.
상기 네트워크는 구리 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터, 및/또는 에지 서버를 포함해도 된다. 각 계산/처리 장치 내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전송하여, 컴퓨터 판독 가능 명령이 각 계산/처리 장치 내의 컴퓨터 판독 가능 기억 매체에 기억된다.
본 개시의 동작을 실행하기 위한 컴퓨터 프로그램 명령은 어셈블러 명령, 명령 세트 아키텍처(ISA: Instruction-Set-Architecture) 명령, 기계어 명령, 기계 의존 명령, 마이크로코드, 펌웨어 명령, 상태 설정 데이터 또는 Smalltalk, C++ 등의 객체 지향 프로그래밍 언어 및 「C」언어 또는 유사한 프로그래밍 언어 등의 종래의 절차형 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목적 코드(object code)여도 된다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 사용자의 컴퓨터에서 부분적으로 및 리모트 컴퓨터에서 부분적으로 실행되거나, 또는 리모트 컴퓨터 혹은 서버에서 완전히 실행되어도 된다. 리모트 컴퓨터의 경우, 리모트 컴퓨터는 LAN 또는 WAN을 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되거나, 또는 (예를 들면, 인터넷 서비스 프로바이더의 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 일부 실시예에서는, 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여, 예를 들면, 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자 회로가 맞춤제조되며, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령을 실행함으로써, 본 개시의 각 측면을 실현할 수 있다.
또한, 여기에서 본 개시의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 개시의 각 측면을 설명했다. 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 블록들의 조합은 컴퓨터 판독 가능 프로그램 명령에 의해 구현될 수 있는 것으로 이해되어야 한다.
상기 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 제공되어 상기 명령이 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 의해 실행되면, 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현하도록 기계를 제조해도 된다. 또한, 상기 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에 기억시키고, 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 기타 장치를 특정 방식으로 동작시키도록 해도 된다. 따라서, 명령을 기억하고 있는 컴퓨터 판독 가능 기억 매체는 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 구현하는 다양한 측면의 명령을 갖는 제품을 포함한다.
컴퓨터 판독 가능 프로그램 명령은 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 장치에 로딩되어, 컴퓨터, 기타 프로그래머블 처리 장치 또는 기타 장치에 일련의 동작 단계를 실행시킴으로써, 컴퓨터에 의해 실행되는 프로세스를 생성할 수 있다. 따라서, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 장치에서 실행되는 명령은 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현한다.
첨부 도면들 중 흐름도 및 블록도는 본 발명의 복수의 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서, 흐름도 또는 블록도에서의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리 기능을 실현하기 위한 하나 이상의 실행 가능 명령을 포함한다. 몇 가지 대안으로서의 구현 형태에서, 블록에 표기되는 기능은 도면에 기재된 순서와 상이하게 출현해도 된다. 예를 들면, 두 개의 연속적인 블록은 실질적으로 병행하여 실행되거나, 수반된 기능에 따라 반대 순서로 실행해도 되는 경우가 있다. 또한, 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은 지정된 기능 또는 동작을 실행하는 전용 하드웨어-기반 시스템에 의해 구현되거나, 전용 하드웨어 및 컴퓨터 명령의 조합에 의해 구현해도 되는 것에 주의해야 한다.
위에서 본 개시의 실시 예들이 설명되었다. 상기 설명은 예시적인 것에 불과하고 망라적인 것이 아니며, 또한 개시된 각 실시예에 한정되는 것도 아니다. 당업자에게는, 설명된 각 실시예의 범위 및 정신에서 벗어나지 않으면서 다양한 수정 및 변경이 이루어질 수 있음이 자명하다. 본 명세서에 선택된 용어는 실시 예의 원리, 실제 응용 또는 시장에서의 기술에 대한 기술적 개선을 가장 잘 설명하거나, 또는 다른 당업자에게 여기서 개시된 각 실시 예를 이해시키기 위한 것이다. 

Claims (21)

  1. 이미지 처리 방법으로서,
    제1 이미지 및 상기 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻는 단계 - 여기서 상기 제1 주목 맵은 상기 제1 이미지 내의 상기 제1 대상 물체의 위치를 나타냄-;
    제2 이미지 및 상기 제2 이미지의 제2 마스크 이미지를 얻는 단계 - 여기서 상기 제2 이미지 내의 픽셀들의 픽셀 값들은 동일함 -; 및
    제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 단계 - 여기서 상기 제1 입력 정보는 상기 제1 이미지 및 상기 제1 주목 맵에 따라 결정되고, 상기 제2 입력 정보는 상기 제2 이미지 및 상기 제2 마스크 이미지에 따라 결정됨-;
    을 포함하고,
    상기 제1 이미지 및 상기 제2 이미지는 동일한 장면을 다른 각도에서 촬영하여 획득되는, 이미지 처리 방법.
  2. 제 1 항에 있어서,
    상기 제2 이미지 내의 제2 대상 물체에 대한 검출 결과에 따라 상기 제2 이미지의 제2 주목 맵을 얻는 단계를 추가로 포함하고, 여기서 상기 제2 주목 맵은 상기 제2 이미지 내의 상기 제2 대상 물체의 위치를 나타내며;
    여기서, 상기 제1 예측 결과를 얻은 후, 상기 방법은:
    제3 입력 정보 및 제4 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수를 얻는 단계 - 여기서 상기 제3 입력 정보는 상기 제2 이미지 및 상기 제2 주목 맵에 따라 결정되고, 상기 제4 입력 정보는 상기 제2 이미지 및 상기 제1 예측 결과에 따라 결정됨-; 및
    상기 제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 단계;
    를 더 포함하는, 이미지 처리 방법.
  3. 제 2 항에 있어서,
    상기 제1 입력 정보 및 상기 제3 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제2 연관 점수를 얻는 단계를 추가로 포함하고;
    여기서, 제1 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 상기 연관 결과를 결정하는 단계는:
    상기 제1 연관 점수 및 상기 제2 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 단계를 포함하는, 이미지 처리 방법.
  4. 제 2 항에 있어서,
    상기 제1 이미지 내의 상기 제2 대상 물체의 위치를 나타내는 제2 예측 결과를 얻는 단계; 및
    제5 입력 정보 및 상기 제1 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제3 연관 점수를 얻는 단계 - 여기서 상기 제5 입력 정보는 상기 제1 이미지 및 상기 제2 예측 결과에 따라 결정됨-;
    를 추가로 포함하며,
    여기서, 제1 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 상기 연관 결과를 결정하는 단계는:
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 단계를 포함하는, 이미지 처리 방법.
  5. 제 4 항에 있어서,
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 상기 연관 결과를 결정하는 단계는:
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 최종 연관 점수를 결정하는 단계;
    상기 최종 연관 점수가 점수 임계치보다 큰 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 잠재적으로 연관됨을 나타내는 것으로 결정하는 단계; 및
    상기 최종 연관 점수가 상기 점수 임계치 이하인 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 연관되지 않음을 나타내는 것으로 결정하는 단계;
    를 포함하는, 이미지 처리 방법.
  6. 제 4 항에 있어서,
    상기 제1 이미지는 하나 이상의 제1 대상 물체를 포함하고, 상기 제2 이미지는 하나 이상의 제2 대상 물체를 포함하고,
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 상기 연관 결과를 결정하는 단계는:
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 이미지 내의 각각의 제1 대상 물체와 각각의 제2 대상 물체 사이의 최종 연관 점수를 결정하는 단계; 및
    상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체를 상기 각각의 제2 대상 물체와 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻는 단계;
    를 포함하는, 이미지 처리 방법.
  7. 제 6 항에 있어서,
    상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 상기 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체를 상기 각각의 제2 대상 물체에 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 상기 연관 결과를 얻는 단계는;
    상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 상기 최종 연관 점수에 따라 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 점수들의 합을 결정하는 단계;
    상기 연관 점수들의 합이 최대이고 미리 결정된 점수 합 임계치보다 큰 경우, 상기 제1 이미지 내의 상기 각각의 제1 대상 물체가 상기 제2 이미지 내의 상기 각각의 제2 대상 물체와 각각 매칭한다고 결정하고, 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻는 단계; 및
    상기 연관 점수들의 합에서 최대 연관 점수 합이 상기 점수 합 임계치보다 작거나 같은 경우, 상기 제1 이미지 내의 상기 각각의 제1 대상 물체가 상기 제2 이미지 내의 상기 각각의 제2 대상 물체와 매칭하지 않는 것으로 결정하는 단계;
    를 포함하는, 이미지 처리 방법.
  8. 제 1 항에 있어서,
    제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 단계는:
    상기 제1 입력 정보에 대해 특징 추출을 수행하여 상기 제1 입력 정보에 대응하는 특징 맵을 얻는 단계;
    상기 제2 입력 정보에 대해 특징 추출을 수행하여 상기 제2 입력 정보에 대응하는 특징 맵을 얻는 단계; 및
    상기 제1 입력 정보에 대응하는 상기 특징 맵 및 상기 제2 입력 정보에 대응하는 상기 특징 맵에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 단계;
    를 포함하는, 이미지 처리 방법.
  9. 제 8 항에 있어서,
    상기 제1 입력 정보에 대응하는 상기 특징 맵 및 상기 제2 입력 정보에 대응하는 상기 특징 맵에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 단계는:
    상기 제1 입력 정보에 대응하는 상기 특징 맵 및 상기 제2 입력 정보에 대응하는 상기 특징 맵에 대해 특징 연관을 수행하여, 제1 연관 특징 맵을 얻는 단계; 및
    상기 제1 연관 특징 맵에 기초하여, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 단계;
    를 포함하는, 이미지 처리 방법.
  10. 이미지 처리 장치에 있어서,
    프로세서; 및
    프로세서-실행 가능 명령어를 저장하도록 구성된 메모리;
    를 포함하며,
    상기 프로세서는 상기 메모리에 기억된 명령어를 호출하여,
    제1 이미지 및 상기 제1 이미지 내의 제1 대상 물체의 제1 주목 맵을 얻는 동작으로서, 상기 제1 주목 맵은 상기 제1 이미지 내의 상기 제1 대상 물체의 위치를 나타내는, 동작;
    제2 이미지 및 상기 제2 이미지의 제2 마스크 이미지를 얻는 동작으로서, 상기 제2 마스크 이미지 내의 픽셀들의 픽셀 값들은 동일한, 동작; 및
    제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 제1 예측 결과를 얻는 동작으로서, 상기 제1 입력 정보는 상기 제1 이미지 및 상기 제1 주목 맵에 따라 결정되고, 상기 제2 입력 정보는 상기 제2 이미지 및 상기 제2 마스크 이미지에 따라 결정되는, 동작;
    을 수행하도록 구성되고,
    상기 제1 이미지 및 상기 제2 이미지는 동일한 장면을 다른 각도에서 촬영하여 획득되는, 이미지 처리 장치.
  11. 제 10 항에 있어서,
    상기 프로세서는:
    상기 제2 이미지 내의 제2 대상 물체에 대한 검출결과에 따라 상기 제2 이미지의 제2 주목 맵을 얻는 동작으로서, 상기 제2 주목 맵은 상기 제2 이미지 내의 상기 제2 대상 물체의 위치를 나타내는, 동작;
    제3 입력 정보 및 제4 입력 정보에 따라, 상기 제1 예측 결과를 얻은 후 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제1 연관 점수를 얻는 동작으로서, 상기 제3 입력 정보는 상기 제2 이미지 및 상기 제2 주목 맵에 따라 결정되고, 상기 제4 입력 정보는 상기 제2 이미지 및 상기 제1 예측 결과에 따라 결정되는, 동작; 및
    상기 제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 동작;
    을 추가로 수행하도록 구성된, 이미지 처리 장치.
  12. 제 11 항에 있어서,
    상기 프로세서는:
    상기 제1 입력 정보 및 상기 제3 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제2 연관 점수를 얻는 동작을 수행하도록 추가로 구성되고,
    제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 상기 동작은:
    상기 제1 연관 점수 및 상기 제2 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 동작을 포함하는, 이미지 처리 장치.
  13. 제 11 항에 있어서,
    상기 프로세서는:
    상기 제1 이미지 내의 상기 제2 대상 물체의 위치를 나타내는 제2 예측 결과를 얻는 동작; 및
    제5 입력 정보 및 상기 제1 입력 정보에 따라, 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관도를 나타내는 제3 연관 점수를 얻는 동작으로서, 상기 제5 입력 정보는 상기 제1 이미지 및 상기 제2 예측 결과에 따라 결정되는, 동작;
    을 추가로 수행하도록 구성되며,
    제1 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 상기 동작은:
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 연관 결과를 결정하는 동작을 포함하는, 이미지 처리 장치.
  14. 제 13 항에 있어서,
    제1 연관 점수 및 제3 연관 점수에 따라 제1 대상 물체와 제2 대상 물체 사이의 상기 연관 결과를 결정하는 동작은:
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 최종 연관 점수를 결정하는 동작;
    상기 최종 연관 점수가 점수 임계치보다 큰 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 잠재적으로 연관됨을 나타내는 것으로 결정하는 동작; 및
    상기 최종 연관 점수가 상기 점수 임계치보다 작거나 같은 경우, 상기 연관 결과는 상기 제1 대상 물체가 상기 제2 대상 물체와 연관되지 않음을 나타내는 것으로 결정하는 동작;
    을 포함하는, 이미지 처리 장치.
  15. 제 13 항에 있어서,
    상기 제1 이미지는 하나 이상의 제1 대상 물체를 포함하고, 상기 제2 이미지는 하나 이상의 제2 대상 물체를 포함하고,
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 상기 제1 대상 물체와 상기 제2 대상 물체 사이의 상기 연관 결과를 결정하는 동작은:
    상기 제1 연관 점수 및 상기 제3 연관 점수에 따라 각각의 제2 대상 물체와 상기 제1 이미지 내의 각각의 제1 대상 물체 사이의 최종 연관 점수를 결정하는 동작; 및
    상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 상기 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체를 상기 각각의 제2 대상 물체에 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 상기 연관 결과를 얻는 동작;
    을 포함하는, 이미지 처리 장치.
  16. 제 15 항에 있어서,
    상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 상기 최종 연관 점수에 따라, 상기 각각의 제1 대상 물체를 상기 각각의 제2 대상 물체에 매칭시켜 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 상기 연관 결과를 얻는 동작은:
    상기 제1 이미지 내의 상기 각각의 제1 대상 물체와 상기 제2 이미지 내의 상기 각각의 제2 대상 물체 사이의 상기 최종 연관 점수에 따라 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 점수들의 합을 결정하는 동작;
    상기 연관 점수들의 합이 최대이고 미리 결정된 점수 합 임계치보다 큰 경우, 상기 제1 이미지 내의 상기 각각의 제1 대상 물체가 상기 제2 이미지 내의 상기 각각의 제2 대상 물체에 각각 매칭된다고 결정하고, 상기 각각의 제1 대상 물체와 상기 각각의 제2 대상 물체 사이의 연관 결과를 얻는 동작; 및
    상기 연관 점수들의 합에서 최대 연관 점수 합이 상기 점수 합 임계치보다 작거나 같은 경우, 상기 제1 이미지 내의 상기 각각의 제1 대상 물체가 상기 제2 이미지 내의 상기 각각의 제2 대상 물체에 매칭되지 않는 것으로 결정하는 동작;
    을 포함하는, 이미지 처리 장치.
  17. 제 10 항에 있어서,
    제1 입력 정보 및 제2 입력 정보에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 동작은:
    상기 제1 입력 정보에 대해 특징 추출을 수행하여 상기 제1 입력 정보에 대응하는 특징 맵을 얻는 동작;
    상기 제2 입력 정보에 대해 특징 추출을 수행하여 상기 제2 입력 정보에 대응하는 특징 맵을 얻는 동작; 및
    상기 제1 입력 정보에 대응하는 상기 특징 맵 및 상기 제2 입력 정보에 대응하는 상기 특징 맵에 따라, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 동작;
    을 포함하는, 이미지 처리 장치.
  18. 제 17 항에 있어서,
    상기 제1 입력 정보에 대응하는 상기 특징 맵 및 상기 제2 입력 정보에 대응하는 상기 특징 맵에 따라, 상기 제2 이미지 내의 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 동작은:
    상기 제1 입력 정보에 대응하는 상기 특징 맵 및 상기 제2 입력 정보에 대응하는 상기 특징 맵에 대해 특징 연관을 수행하여 제1 연관 특징 맵을 얻는 동작; 및
    상기 제1 연관 특징 맵에 기초하여, 상기 제2 이미지 내의 상기 제1 대상 물체의 위치를 나타내는 상기 제1 예측 결과를 얻는 동작;
    을 포함하는, 이미지 처리 장치.
  19. 컴퓨터 프로그램 명령이 기억된 비휘발성 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 때, 제 1 항 내지 제 9 항 중 어느 한 항에 따른 방법이 실현되는, 비휘발성 컴퓨터 판독 가능 저장 매체.
  20. 삭제
  21. 삭제
KR1020207021154A 2019-12-30 2020-03-19 이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체 KR102445187B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10201913744S 2019-12-30
SG10201913744SA SG10201913744SA (en) 2019-12-30 2019-12-30 Image processing method and apparatus, electronic device, and storage medium
PCT/IB2020/052537 WO2021136979A1 (en) 2019-12-30 2020-03-19 Image processing method and apparatus, electronic device, and storage medium

Publications (2)

Publication Number Publication Date
KR20210088439A KR20210088439A (ko) 2021-07-14
KR102445187B1 true KR102445187B1 (ko) 2022-09-19

Family

ID=74101444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207021154A KR102445187B1 (ko) 2019-12-30 2020-03-19 이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체

Country Status (5)

Country Link
JP (1) JP7084485B2 (ko)
KR (1) KR102445187B1 (ko)
AU (1) AU2020309091B2 (ko)
SG (1) SG10201913744SA (ko)
WO (1) WO2021136979A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792827B (zh) * 2021-11-18 2022-03-25 北京的卢深视科技有限公司 目标对象识别方法、电子设备和计算机可读存储介质
CN114581667B (zh) * 2022-03-04 2024-08-20 北京百度网讯科技有限公司 地图数据处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068815A (ja) 2015-09-29 2017-04-06 オムロン株式会社 アテンション検出装置及びアテンション検出方法
CN108229493A (zh) 2017-04-10 2018-06-29 商汤集团有限公司 对象验证方法、装置和电子设备
JP2019509566A (ja) 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ理解のための動きベースアテンションを用いたリカレントネットワーク
CN109635721A (zh) 2018-12-10 2019-04-16 山东大学 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359559B (zh) * 2018-09-27 2021-11-12 天津师范大学 一种基于动态遮挡样本的行人再识别方法
CN110443143B (zh) * 2019-07-09 2020-12-18 武汉科技大学 多分支卷积神经网络融合的遥感图像场景分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068815A (ja) 2015-09-29 2017-04-06 オムロン株式会社 アテンション検出装置及びアテンション検出方法
JP2019509566A (ja) 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ理解のための動きベースアテンションを用いたリカレントネットワーク
CN108229493A (zh) 2017-04-10 2018-06-29 商汤集团有限公司 对象验证方法、装置和电子设备
CN109635721A (zh) 2018-12-10 2019-04-16 山东大学 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统

Also Published As

Publication number Publication date
AU2020309091B2 (en) 2022-01-20
SG10201913744SA (en) 2020-12-30
KR20210088439A (ko) 2021-07-14
WO2021136979A1 (en) 2021-07-08
JP7084485B2 (ja) 2022-06-14
AU2020309091A1 (en) 2021-07-15
JP2022509893A (ja) 2022-01-25

Similar Documents

Publication Publication Date Title
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
US20210326587A1 (en) Human face and hand association detecting method and a device, and storage medium
CN106651955B (zh) 图片中目标物的定位方法及装置
KR20210047336A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US11138758B2 (en) Image processing method and apparatus, and storage medium
KR20210047917A (ko) 보행자 인식 방법 및 장치
JP7061191B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
US11450021B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN104918107B (zh) 视频文件的标识处理方法及装置
CN110928627B (zh) 界面展示方法及装置、电子设备和存储介质
CN111553864A (zh) 图像修复方法及装置、电子设备和存储介质
AU2020323956B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN111310664B (zh) 图像处理方法及装置、电子设备和存储介质
KR102445187B1 (ko) 이미지 처리 방법 및 장치, 전자 장치, 및 저장 매체
CN112184787A (zh) 图像配准方法及装置、电子设备和存储介质
CN109101542B (zh) 图像识别结果输出方法及装置、电子设备和存储介质
CN111325786B (zh) 图像处理方法及装置、电子设备和存储介质
CN111860373A (zh) 目标检测方法及装置、电子设备和存储介质
CN110929545A (zh) 人脸图像的整理方法及装置
CN114519794A (zh) 特征点匹配方法及装置、电子设备和存储介质
CN112949568A (zh) 人脸和人体匹配的方法及装置、电子设备和存储介质
CN110717425A (zh) 案件关联方法及装置、电子设备和存储介质
CN110929546B (zh) 人脸比对方法及装置
CN116074432A (zh) 多媒体数据的处理方法、装置和存储介质

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant