KR20230026296A - 이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램 - Google Patents

이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20230026296A
KR20230026296A KR1020220189301A KR20220189301A KR20230026296A KR 20230026296 A KR20230026296 A KR 20230026296A KR 1020220189301 A KR1020220189301 A KR 1020220189301A KR 20220189301 A KR20220189301 A KR 20220189301A KR 20230026296 A KR20230026296 A KR 20230026296A
Authority
KR
South Korea
Prior art keywords
feature point
image
map
branch
feature
Prior art date
Application number
KR1020220189301A
Other languages
English (en)
Inventor
허 위전
저우 야오
선화 허우
펭 리앙
완 구오웨이
Original Assignee
아폴로 인텔리전트 드라이빙 테크놀로지(베이징) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아폴로 인텔리전트 드라이빙 테크놀로지(베이징) 컴퍼니 리미티드 filed Critical 아폴로 인텔리전트 드라이빙 테크놀로지(베이징) 컴퍼니 리미티드
Publication of KR20230026296A publication Critical patent/KR20230026296A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

본 개시는 자율주행 기술분야에 관한 것으로, 특히는 고정밀 지도 기술분야에 관한, 이미지 처리 방법, 멀티태스크 처리 모델의 훈련 방법, 장치, 전자기기, 저장매체 및 프로그램 제품을 제공한다. 구체적인 구현 방안은, 처리될 이미지를 처리하여, 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻으며, 특징점 및 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하며, 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정한다.

Description

이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램{IMAGE PROCESSING METHOD, MODEL TRAINING METHOD, ELECTRONIC DEVICE, AUTONOMOUS VEHICLE, STORAGE MEDIA AND COMPUTER PROGRAMS}
본 개시는 자율주행 기술분야에 관한 것으로, 특히는 고정밀 지도 기술분야에 관한 것이며, 구체적으로는 이미지 처리 방법, 멀티태스크(Multi-task) 처리 모델의 훈련 방법, 장치, 전자 기기, 저장매체 및 프로그램 제품에 관한 것이다.
고정밀도 위치 결정 네비게이션 기술은 자율주행 차량의 안전 주행 측면에서 없어서는 안되는 존재이며, 자율주행 차량의 횡방향 및 종방향 중의 정확한 위치 결정, 장애물 검출 및 충돌 회피, 지능형 차량속도 제어, 경로 계획 및 행위 결정 등 측면에서 모두 중요한 작용을 발휘하고 있다. 자율주행 차량에 사용되는 고정밀 지도는 고정밀도 지도라고도 칭한다. 고정밀 지도는 정확한 차량 위치 정보 및 풍부한 도로 요소 데이터 정보를 가지며, 차량이 경사도, 곡률, 코스(course) 등과 같은 노면의 복잡한 정보를 예지하여, 잠재적인 위험을 더 잘 회피하도록 도울 수 있다.
본 개시는 이미지 처리 방법, 멀티태스크 처리 모델의 훈련 방법, 장치, 전자기기, 저장매체 및 프로그램 제품을 제공한다.
본 개시의 일 측면에 따르면, 처리될 이미지를 처리하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터(Feature Descriptor) 맵 및 조밀 디스크립터(Dense Descriptor) 맵을 얻는 동작; 상기 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어(Pair)를 결정하는 동작; 상기 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작;을 포함하는 이미지 처리 방법을 제공한다.
본 개시의 다른 일 측면에 따르면, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작을 포함하며, 상기 훈련 샘플은 제1 샘플 이미지, 제2 샘플 이미지, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 포함하며, 상기 매칭 특징점 페어의 라벨은 상기 제1 샘플 이미지의 특징점과 상기 제2 샘플 이미지의 특징점 사이의 매칭 관계를 나타내기 위한 것이고, 상기 매칭 픽셀 페어의 라벨은 상기 제1 샘플 이미지의 픽셀 포인트와 상기 제2 샘플 이미지의 픽셀 포인트 사이의 매칭 관계를 나타내기 위한 것인 멀티태스크 처리 모델의 훈련 방법을 제공한다.
본 개시의 다른 일 측명에 따르면, 처리될 이미지를 처리하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻기 위한 처리 모듈; 상기 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 제1 결정 모듈; 상기 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하기 위한 제2 결정 모듈;을 포함하는 이미지 처리 장치를 제공한다.
본 개시의 다른 일 측면에 따르면, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻기 위한 훈련 모듈을 포함하며, 상기 훈련 샘플은 제1 샘플 이미지, 제2 샘플 이미지, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨 및 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 포함하고, 상기 매칭 특징점 페어의 라벨은 상기 제1 샘플 이미지의 특징점과 상기 제2 샘플 이미지의 특징점 사이의 매칭 관계를 나타내기 위한 것이고, 상기 매칭 픽셀 페어의 라벨은 상기 제1 샘플 이미지의 픽셀 포인트와 상기 제2 샘플 이미지의 픽셀 포인트 사이의 매칭 관계를 나타내기 위한 것인 멀티태스크 처리 모델의 훈련 장치를 제공한다.
본 개시의 다른 일 측면에 따르면, 적어도 하나의 프로세서; 상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하며, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 본 개시와 같은 방법을 실행할 수 있게 하는 전자기기를 제공한다.
본 개시의 다른 일 측면에 따르면, 컴퓨터로 하여금 본 개시와 같은 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장된 비휘발성 컴퓨터 판독 가능 저장매체를 제공한다.
본 개시의 다른 일 측면에 따르면, 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 본 개시와 같은 방법을 실현하는 컴퓨터 프로그램 제품을 제공한다.
본 개시의 다른 일 측면에 따르면, 본 개시와 같은 전자기기를 포함하는 자율주행 차량을 제공한다.
이해해야 할 것은, 본 부분에서 설명되는 내용은 본 개시의 실시예의 핵심적인 특징 또는 중요한 특징을 표시하기 위한 것이 아니며, 본 개시의 범위를 한정하기 위한 것도 아니다. 본 개시의 다른 특징은 아래의 명세서를 통해 쉽게 이해하게 될 것이다.
도면은 본 기술방안을 더 잘 이해하기 위한 것이며, 본 개시를 한정하기 위한 것은 아니다. 여기서,
도1은 본 개시의 실시예에 따른 이미지 처리 방법 및 장치를 적용할 수 있는 예시적인 시스템 아키텍처를 예시적으로 도시하는 것이고;
도2는 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도를 예시적으로 도시하는 것이고;
도3은 본 개시의 실시예에 따른 멀티태스크 처리 모델의 네트워크 구조도를 예시적으로 도시하는 것이고;
도4A는 본 개시의 다른 일 실시예에 따른 멀티태스크 처리 모델의 네트워크 구조도를 예시적으로 도시하는 것이고;
도4B는 본 개시의 다른 일 실시예에 따른 제1 셀프 어텐션 모듈의 네트워크 구조도를 예시적으로 도시하는 것이고;
도4C는 본 개시의 다른 일 실시예에 따른 융합 모듈의 네트워크 구조도를 예시적으로 도시하는 것이고;
도4D는 본 개시의 다른 일 실시예에 따른 제2 셀프 어텐션 모듈의 네트워크 구조도를 예시적으로 도시하는 것이고;
도5는 본 개시의 실시예에 따른 맵 네트워크의 네트워크 구조도를 예시적으로 도시하는 것이고;
도6은 본 개시의 실시예에 따른 매칭 픽셀 페어(pair)를 결정하는 흐름도를 예시적으로 도시하는 것이고;
도7은 본 개시의 다른 일 실시예에 따른 멀티태스크 처리 모델의 훈련 방법의 흐름도를 예시적으로 도시하는 것이고;
도8은 본 개시의 실시예에 따른 이미지 처리 장치의 블록도를 예시적으로 도시하는 것이고;
도9는 본 개시의 다른 일 실시예에 따른 멀티태스크 처리 모델의 훈련 장치의 블록도를 예시적으로 도시하는 것이며; 및
도10은 본 개시의 실시예에 따른 이미지 처리 방법을 실현하는 것에 적합한 전자기기의 블록도를 예시적으로 도시하는 것이다.
아래, 도면을 결합하여 본 개시의 예시적인 실시예에 대해 설명한다. 이해를 돕기 위해, 상기 설명에는 본 개시 실시예의 다양한 세부사항을 포함하며, 이를 단지 예시적인 것으로 간주해야 한다. 따라서, 당업자는 본 개시의 범위 및 사상을 벗어나는 것이 없이, 여기에서 설명되는 실시예에 대해 다양한 변경 및 수정을 진행할 수 있음을 인식해야 한다. 마찬가지로, 명확하고 간명한 설명을 위해, 아래의 설명에서 공지의 기능 및 구조에 대한 설명은 생략한다.
본 개시는 이미지 처리 방법, 멀티태스크 처리 모델의 훈련 방법, 장치, 전자기기, 저장매체 및 프로그램 제품을 제공한다.
본 개시의 실시예에 따르면, 이미지 처리 방법을 제공하며, 상기 방법은, 처리될 이미지를 처리하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻는 동작; 상기 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하는 동작; 상기 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작;을 포함한다.
본 개시의 기술방안에서, 언급된 사용자의 개인 정보에 대한 수집, 저장, 사용, 가공, 전송, 제공 및 공개 등 처리는, 모두 관련 법율 법규의 규정에 부합되며, 또한 공서양속에 어긋나지 않는다.
도1은 본 개시의 실시예에 따른 이미지 처리 방법 및 장치를 적용할 수 있는 예시적인 시스템 아키텍처를 예시적으로 도시하는 것이다.
주의해야 할 것은, 도1에 도시된 것은, 당업자가 본 개시의 기술내용을 이해하도록 돕기 위해, 본 개시의 실시예를 적용할 수 있는 시스템 아키텍처의 예시일 뿐이며, 본 개시의 실시예가 다른 기기, 시스템, 환경 또는 장면에 사용될 수 없음을 의미하는 것은 아니다.
도1에 도시된 바와 같이, 본 실시예에 따른 시스템 아키텍처(100)는 자율주행 차량(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 자율주행 차량(101)과 서버(103) 사이에서 통신링크를 제공하기 위한 매체이다. 네트워크(102)는, 예를 들면, 무선통신링크와 같은 다양한 연결 유형을 포함할 수 있다.
사용자는 자율주행 차량(101)을 사용하여 네트워크(102)를 통해 서버(103)와 인터랙션함으로써, 비디오 스트림 데이터 및 위치 결정 정보 등을 수신 또는 발송한다.
서버(103)는, 다양한 서비스를 제공하는 서버일 수 있으며, 예를 들면, 사용자가 자율주행 차량(101)을 이용하여 처리하는 처리될 이미지, 선택하는 타깃 위치의 네비게이션에 대해 지원을 제공하는 백그라운드 관리 서버(단지 예시임)이다. 백그라운드 관리 서버는 수신된 사용자의 요청 등 데이터에 대해 분석 등 처리를 진행하며, 처리결과(예를 들면, 사용자의 요청에 따라 취득되거나 생성된 웹페이지, 정보 또는 데이터 등)를 자율주행 차량(101)에 피드백할 수 있다.
자율주행 차량(101)에는, 예를 들면, 어안 카메라 및/또는 건카메라 등과 같은 이미지를 수집하는 정보 수집 장치가 장착될 수 있다. 자율주행 차량(101)은 정보 수집 장치를 이용하여 처리될 이미지를 수집할 수 있다.
설명해야 할 것은, 본 개시의 실시예에 의해 제공되는 이미지 처리 방법은 일반적으로 자율주행 차량(101)에 의해 실행될 수 있다. 상응하게, 본 개시의 실시예에 의해 제공되는 이미지 처리 장치는 자율주행 차량(101)에 설치될 수도 있다.
또는, 본 개시의 실시예에 의해 제공되는 이미지 처리 방법은 일반적으로 서버(103)에 의해 실행될 수도 있다. 상응하게, 본 개시의 실시예에 의해 제공되는 이미지 처리 장치는 일반적으로 서버(103)에 설치될 수 있다. 본 개시의 실시예에 의해 제공되는 이미지 처리 방법은 서버(103)와 다르며 자율주행 차량(101) 및/또는 서버(103)와 통신 가능한 서버 또는 서버 클러스터에 의해 실행될 수도 있다. 상응하게, 본 개시의 실시예에 의해 제공되는 이미지 처리 장치도 서버(103)와 다르며 자율주행 차량(101) 및/또는 서버(103)와 통신 가능한 서버 또는 서버 클러스터에 설치될 수 있다.
이해해야 할 것은, 도1 중의 자율주행 차량, 네트워크 및 이미지 수집기기의 수는 단지 예시적인 것일 뿐이다. 실현 수요에 따라, 임의의 수의 단말기기, 네트워크 및 서버를 가질 수 있다.
주의해야 할 것은, 아래의 방법에서 각 동작의 순번은 단지 설명의 편의를 위한 해당 동작에 대한 표시일 뿐, 상기 각 동작의 실행 순서를 표시하는 것으로 간주해서는 안된다. 명확하게 제시되지 않은 한, 상기 방법은 완전히 도시된 순서에 따라 실행할 필요는 없다.
도2는 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도를 예시적으로 도시하는 것이다.
도2에 도시된 바와 같이, 이 방법은 동작S210 내지 동작S230을 포함한다.
동작S210에서, 처리될 이미지를 처리하여, 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻는다.
동작S220에서, 특징점 및 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정한다
동작S230에서, 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정한다.
본 개시의 실시예에 따르면, 특징점은 특징점 집합을 가리킬 수 있으며, 예를 들면, 모서리 포인트, 가장자리, 블록 등과 같은 이미지에서 식별도 및 대표성을 갖는 포인트 또는 포인트의 집합일 수 있다. 특징점은 카메라 시야각에 작은 변화가 발생할 경우, 여전히 변하지 않고 유지될 수 있다.
본 개시의 실시예에 따르면, 특징점은 위치 정보를 포함할 수 있으나, 이에 한정되지 않으며, 방향, 크기 등 정보를 더 포함할 수 있다. 특징점을 이용하여 적어도 2개의 이미지 각자의 타깃 대상 사이의 매칭 및 연관을 진행할 수 있다.
본 개시의 실시예에 따르면, 특징점 디스크립터 맵은 벡터를 가리킬 수 있으며, 특징점 디스크립터는, 예를 들면, 특징점 주위의 픽셀과 같은 특징점과 서로 관련되는 정보를 설명한다. 벡터 공간에 있는, 예를 들면, 처리될 이미지 및 기준 이미지와 같은 2개의 이미지 사이의 특징점 디스크립터의 거리가 가깝거나 서로 매칭될 경우, 2개의 특징점 디스크립터와 일대일로 대응되는 2개의 특징점 사이는 서로 매칭되며, 서로가 매칭 특징점 페어인 것으로 간주할 수 있다.
본 개시의 실시예에 따르면, 처리될 이미지는 현재 시각의 비디오 프레임 이미지를 가리킬 수 있으며, 기준 이미지는 과거 시각의 비디오 프레임 이미지일 수 있다. 예를 들면, 기준 이미지는 현재 시각의 비디오 프레임 이미지의 이전 하나의 프레임의 비디오 프레임 이미지이다. 하지만, 이에 한정되지 않는다. 기준 이미지는 현재 시각의 비디오 프레임 이미지와 소정의 비디오 프레임 개수 만큼 간격을 둔 과거 비디오 프레임 이미지일 수도 있다.
본 개시의 실시예에 따르면, 처리될 이미지의 특징점과 특징점 디스크립터 맵 및 기준 이미지의 기준 특징점과 기준 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있다.
본 개시의 실시예에 따르면, 매칭 특징점 페어에 기반하여 시각적(visible) 거리계산 또는 시각적 관성 거리계산 등 동작을 실행할 수 있으며, 이에 한정되지 않으며, 매칭 특징점 페어에 기반하여 희소 재구성 또는 클라우드 기반 맵 구축 등 동작을 실행할 수도 있다.
본 개시의 실시예에 따르면, 예를 들면, 희소하고 핵심적인 특징점 집합의 디스크립터 맵과 같은 특징점 디스크립터 맵에 상대하여, 조밀 디스크립터 맵은 조밀하고 분산적인 픽셀 포인트 집합과 서로 대응되는 디스크립터 맵일 수 있다.
본 개시의 실시예에 따르면, 처리될 이미지의 조밀 디스크립터 맵 및 기준 이미지의 기준 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정할 수 있다.
본 개시의 실시예에 따르면, 매칭 픽셀 페어에 기반하여 장면 타깃 집합의 3차원 재구성 등 동작을 실행할 수 있다.
본 개시의 실시예에 의해 제공되는 이미지 처리 방법을 이용하면, 처리될 이미지를 직접 처리하여, 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻을 수 있고, 장면 타깃 집합의 3차원 재구성 동작을 실행하기 위한 조밀 디스크립터 맵을 얻을 수 있으며, 시각적 거리계산, 시각적 관성 거리계산, 희소 재구성 또는 클라우드 기반 맵 구축 등 동작을 실행하기 위한 매칭 특징점을 얻을 수 있으므로, 복수의 태스크를 동시에 처리할 수 있고, 복수의 태스크를 처리하는 시효성을 향상시킬 수 있다.
본 개시의 실시예에 따르면, 동작S210에 대해, 하나의 멀티태스크 처리 모델을 설계하여 처리될 이미지를 처리할 수 있다. 예를 들면, 처리될 이미지를 멀티태스크 처리 모델에 입력하여, 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻을 수 있다.
본 개시의 실시예에 따르면, 기준 이미지를 멀티태스크 처리 모델에 입력하여, 기준 특징점, 기준 특징점 디스크립터 맵 및 기준 조밀 디스크립터 맵을 얻을 수도 있다. 이로써, 특징점, 특징점 디스크립터 맵, 기준 특징점 및 기준 특징점 디스크립터 맵에 기반하여 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있고, 조밀 디스크립터 맵 및 기준 조밀 디스크립터 맵에 기반하여 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정할 수 있다.
도3은 본 개시의 실시예에 따른 멀티태스크 처리 모델의 네트워크 구조도를 예시적으로 도시하는 것이다.
도3에 도시된 바와 같이, 멀티태스크 처리 모델(300)은 특징점 추출 분기(310), 특징점 디스크립터 맵 계산 분기(320), 조밀 디스크립터 맵 계산 분기(330) 및 특징점 분류 분기(340)를 포함한다.
처리될 이미지(350)를 특징점 추출 분기(310)에 입력하여, 특징점(361)을 얻을 수 있다. 처리될 이미지(350)를 특징점 디스크립터 맵 계산 분기(320)에 입력하여, 특징점 디스크립터 맵(362)을 얻을 수 있다. 처리될 이미지(350)를 조밀 디스크립터 맵 계산 분기(330)에 입력하여, 조밀 디스크립터 맵(363)을 얻을 수 있다. 처리될 이미지(350)를 특징점 분류 분기(340)에 입력하여, 특징점 클래스(Class) 결과(364)를 얻을 수 있다.
본 개시의 실시예에 따르면, 멀티태스크 처리 모델을, 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기, 조밀 디스크립터 맵 계산 분기 및 특징점 분류 분기를 포함하도록 설계할 수 있지만, 이에 한정되지 않으며, 멀티태스크 처리 모델을, 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기 및 조밀 디스크립터 맵 계산 분기를 포함하도록 설계할 수도 있다.
본 개시의 실시예에 의해 제공되는 이미지 처리 방법을 이용하면, 멀티태스크 처리 모델을 이용하여 처리될 이미지를 처리하여, 복수의 태스크를 실행하기 위한 복수의 처리 결과를 얻고, 멀티태스크가 실행되는 실시간성을 향상시킬 수 있다. 또한, 멀티태스크 처리 모델 중의 특징점 분류 분기를 이용하면, 특징점 클래스 결과를 이용하여, 전경 특징점 및 배경 특징점을 효과적으로 구분하고, 시각적 위치 결정 및 희소 재구성 태스크에 적용되는 배경 특징점을 효과적으로 선별함으로써, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어가 더 효과적일 수 있게 된다.
본 개시의 실시예에 따르면, 특징점 추출 분기는 복수의 특징점 추출 서브 분기를 포함할 수 있으며, 특징점 추출 서브 분기 각각은 캐스케이드(cascade)된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함할 수 있다.
본 개시의 실시예에 따르면, 특징점 디스크립터 맵 계산 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함할 수 있다.
본 개시의 실시예에 따르면, 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈, 완전 합성곱 모듈을 포함할 수 있다.
본 개시의 실시예에 따르면, 특징점 추출 서브 분기, 특징점 디스크립터 맵 계산 분기, 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기 중의 특징 추출 모듈은 합성곱층, 풀링층 또는 캐스케이드된 합성곱층, 풀링층을 포함할 수 있다.
본 개시의 실시예에 따르면, 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기 중의 완전 합성곱 모듈은 스택(Stack)된 복수의 완전 합성곱층을 포함한다.
본 개시의 실시예에 따르면, 특징점 분류 분기는 복수의 특징점 분류 서브 분기, 융합 모듈, 분류기를 포함하며, 복수의 특징점 분류 서브 분기 각각은 특징점 분류 추출 모듈, 부호기(encoder) 및 융합 모듈을 포함한다.
본 개시의 실시예에 따르면, 처리될 이미지를 특징점 분류 분기에 입력하여, 특징점 클래스 결과를 얻는 동작은, 하기와 같은 동작을 포함할 수 있다.
즉, 예를 들면, 처리될 이미지를 복수의 특징점 분류 추출 모듈에 각각 입력하여, 복수의 특징점 클래스 특징 맵을 얻되, 여기서 복수의 특징점 클래스 특징 맵과 복수의 특징점 분류 추출 모듈은 일대일 대응되는 동작; 복수의 특징점 클래스 특징 맵 중의 특징점 클래스 특징 맵 각각에 대해, 특징점 클래스 특징 맵을 부호기에 입력하여, 복수의 부호화된 서브 특징점 클래스 특징 맵을 얻되, 여기서 복수의 부호화된 서브 특징점 클래스 특징 맵과 복수의 부호기는 일대일 대응되는 동작; 융합 모듈을 이용하여 복수의 부호화된 서브 특징점 클래스 특징 맵을 처리하여, 융합된 특징점 클래스 맵을 얻는 동작; 분류기를 이용하여 융합된 특징점 클래스 맵을 처리하여, 특징 클래스 결과를 얻는 동작;을 포함할 수 있다.
도4A는 본 개시의 다른 일 실시예에 따른 멀티태스크 처리 모델의 네트워크 구조도를 예시적으로 도시하는 것이다.
도4A에 도시된 바와 같이, 특징점 추출 분기는 제1 특징점 추출 서브 분기, 제2 특징점 추출 서브 분기 및 제3 특징점 추출 서브 분기를 포함할 수 있다. 제1 특징점 추출 서브 분기는 캐스케이드된 제1 특징 추출 모듈 및 제1 특징점 추출 헤드부(421, Score Map Head 1)를 포함할 수 있다. 제1 특징 추출 모듈은 제1 합성곱층(411)을 포함하고, 제1 특징점 추출 헤드부(421)는 합성곱층을 포함한다. 제2 특징점 추출 서브 분기는 캐스케이드된 제1 특징 추출 모듈, 제2 특징 추출 모듈 및 제2 특징점 추출 헤드부(422, Score Map Head 2)를 포함할 수 있다. 제2 특징 추출 모듈은 캐스케이드된 제1 풀링층(412), 제2 합성곱층(413)을 포함할 수 있으며, 제2 특징점 추출 헤드부(422)는 합성곱층을 포함할 수 있다. 제3 특징점 추출 서브 분기는 캐스케이드된 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈 및 제3 특징점 추출 헤드부(423, Descriptors Head)를 포함할 수 있다. 제3 특징 추출 모듈은 캐스케이드된 제2 풀링층(414) 및 제3 합성곱층(415)을 포함할 수 있다. 제3 특징점 추출 헤드부는 캐스케이드된 5개의 채널수가 128인 완전 합성곱층을 포함할 수 있다.
제1 특징점 추출 서브 분기, 제2 특징점 추출 서브 분기 및 제3 특징점 추출 서브 분기에 입력되는 것은 모두 처리될 이미지이고, 제1 특징점 추출 서브 분기, 제2 특징점 추출 서브 분기 및 제3 특징점 추출 서브 분기에서 출력되는 것은 각각, 예를 들면, 제1 특징점 스코어 맵(431), 제2 특징점 스코어 맵(432) 및 제3 특징점 스코어 맵(433)와 같은 특징점 스코어 맵이다. 제1 특징점 스코어 맵(431), 제2 특징점 스코어 맵(432) 및 제3 특징점 스코어 맵(433) 각각 사이의 특징 스케일은 서로 다르다.
도4A에 도시된 바와 같이, 특징점 디스크립터 맵 계산 분기는 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈 및 제3 특징점 추출 헤드부(423, Descriptors Head)를 포함할 수 있다. 특징점 디스크립터 맵 계산 분기의 입력은 처리될 이미지일 수 있으며, 특징점 디스크립터 맵 계산 분기의 출력은 128차원의 조밀 특징점 디스크립터 맵(441)일 수 있다.
도4A에 도시된 바와 같이, 고해상도 조밀 디스크립터 맵 계산 서브 분기는 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈 및 국부 조밀 네트워크 헤드부(451, Sparse To Dense Fine Descriptors Head)를 포함할 수 있다. 국부 조밀 네트워크 헤드부(451)는 캐스케이드된 복수의 합성곱층을 포함한다. 저해상도 조밀 디스크립터 맵 계산 서브 분기는 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈, 제4 특징 추출 모듈, 제5 특징 추출 모듈 및 시맨틱 조밀 네트워크 헤드부(452, Sparse To Dense Coarse Descriptors Head)를 포함할 수 있다. 제4 특징 추출 모듈은 캐스케이드된 제3 풀링층(416) 및 제4 합성곱층(417)을 포함할 수 있다. 제5 특징 추출 모듈은 캐스케이드된 제4 풀링층(418) 및 제5 합성곱층(419)을 포함할 수 있다. 시맨틱 조밀 네트워크 헤드부(452)는 캐스케이드된 복수의 합성곱층을 포함할 수 있다.
고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기의 입력은 각각 처리될 이미지일 수 있고, 고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기의 출력은 각각 고해상도 조밀 디스크립터 맵 및 저해상도 조밀 디스크립터 맵일 수 있다. 여기서, 고해상도 조밀 디스크립터 맵의 해상도는 저해상도 조밀 디스크립터 맵의 해상도보다 높다.
도4A에 도시된 바와 같이, 특징점 분류 분기는 제1 특징점 분류 서브 분기, 제2 특징점 분류 서브 분기, 제3 특징점 분류 서브 분기 및 제4 특징점 분류 서브 분기, 융합 모듈 및 분류기를 포함할 수 있다. 제1 특징점 분류 서브 분기, 제2 특징점 분류 서브 분기, 제3 특징점 분류 서브 분기 및 제4 특징점 분류 서브 분기는 병렬되어 있다. 제1 특징점 분류 서브 분기는 캐스케이드된 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈 및 부호기(461, Encoder 1)를 포함할 수 있다. 제2 특징점 분류 서브 분기는 캐스케이드된 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈, 제4 특징 추출 모듈 및 부호기(462, Encoder 2)를 포함할 수 있다. 제3 특징점 분류 서브 분기는 캐스케이드된 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈, 제4 특징 추출 모듈, 제5 특징 추출 모듈 및 부호기(463, Encoder 3)를 포함할 수 있다. 제4 특징점 분류 서브 분기는 캐스케이드된 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈, 제4 특징 추출 모듈, 제5 특징 추출 모듈, 제6 특징 추출 모듈 및 부호기(464, Encoder 4)를 포함할 수 있다. 제6 특징 추출 모듈은 제5 풀링층(4100)을 포함할 수 있다.
도4A에 도시된 바와 같이, 제1 특징점 분류 서브 분기, 제2 특징점 분류 서브 분기, 제3 특징점 분류 서브 분기 및 제4 특징점 분류 서브 분기의 입력은 각각 처리될 이미지일 수 있고, 제1 특징점 분류 서브 분기, 제2 특징점 분류 서브 분기, 제3 특징점 분류 서브 분기 및 제4 특징점 분류 서브 분기의 출력은 각각 제1 부호화된 서브 특징점 클래스 특징 맵, 제2 부호화된 서브 특징점 클래스 특징 맵, 제3 부호화된 서브 특징점 클래스 특징 맵 및 제4 부호화된 서브 특징점 클래스 특징 맵일 수 있다.
제1 셀프 어텐션 모듈(465, Feature Attention)을 설계하여 제3 부호화된 서브 특징점 클래스 특징 맵을 처리하여, 가중 조정된 제1 상위계층 특징 맵을 얻을 수 있고, 제2 셀프 어텐션 모듈(466, FAAP, Feature Attention and Projeciton)을 이용하여 제4 부호화된 서브 특징점 클래스 특징 맵을 처리하여, 가중 조정된 제2 상위계층 특징 맵을 얻을 수 있다. Add 융합 모듈(4671, 합산 융합 모듈)을 이용하여 제1 상위계층 특징 맵과 제2 상위계층 특징 맵을 융합시켜, 제1 융합된 특징점 클래스 맵을 얻을 수 있다. 제1 융합 모듈(4672, Feature Fusion)을 이용하여 제1 융합된 특징점 클래스 특징 맵과 제2 부호화된 서브 특징점 클래스 특징 맵을 융합시켜, 제2 융합된 특징점 클래스 특징 맵을 얻는다. 제2 융합 모듈(4673)을 이용하여 제2 융합된 특징점 클래스 특징 맵과 제1 부호화된 서브 특징점 클래스 특징 맵을 융합시켜, 융합된 특징점 클래스 특징 맵을 얻을 수 있다. 분류기(468)를 이용하여 융합된 특징점 클래스 맵을 처리함으로써, 특징 클래스 결과(469)를 얻을 수 있다. 특징 클래스 결과에 기반하여 해당 특징점이 전경 특징점에 속하는지 아니면 배경 특징점에 속하는지를 결정할 수 있다.
본 개시의 실시예에 따르면, 제1 특징 추출 모듈, 제2 특징 추출 모듈, 제3 특징 추출 모듈, 제4 특징 추출 모듈, 제5 특징 추출 모듈 및 제6 특징 추출 모듈을 캐스케이드하여 백본 네트워크(backbone network) 모듈을 얻을 수 있다. 백본 네트워크 모듈은 VGG 네트워크 구조를 적용할 수 있다. 백본 네트워크 모듈을 이용하여 6가지 서로 다른 스케일의 특징 맵을 추출할 수 있다. 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기, 조밀 디스크립터 맵 계산 분기 및 특징점 분류 분기의 다중화 사용에 편리하다. 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기, 조밀 디스크립터 맵 계산 분기 및 특징점 분류 분기는 백본 네트워크 모듈을 다중화 사용하여, 멀티태스크 처리 모델의동작 효율을 향상시킬 수 있다.
도4B는 본 개시의 다른 일 실시예에 따른 제1 셀프 어텐션 모듈의 네트워크 구조도를 예시적으로 도시하는 것이다.
도4B에 도시된 바와 같이, 제1 셀프 어텐션 모듈(465)은 캐스케이드된 분류 풀링층(4651), 제1 분류 합성곱층(4652), 제2 분류 합성곱층(4653), 활성화층(4654) 및 제1 분류 융합층(4655)을 포함할 수 있다. 제3 부호화된 서브 특징점 클래스 특징 맵을 제1 셀프 어텐션 모듈(465)에 입력하고, 분류 풀링층(4651), 제1 분류 합성곱층(4652), 제2 분류 합성곱층(4653) 및 활성화층(4654)을 순서대로 이용하여 처리함으로써, 활성화 특징 맵을 얻은 다음, 제1 분류 융합층(4655)을 이용하여 활성화 특징 맵 및 제3 부호화된 서브 특징점 클래스 특징 맵을 융합 처리함으로써, 제1 상위계층 특징 맵을 얻을 수 있다.
도4C는 본 개시의 다른 일 실시예에 따른 융합 모듈의 네트워크 구조도를 예시적으로 도시하는 것이다.
도4C에 도시된 바와 같이, 제1 융합 모듈(4672) 또는 제2 융합 모듈(4673)은 캐스케이드된 관련화층(4674, Concatenate), 제3 분류 합성곱층(4675) 및 제2 분류 융합층(4676)을 포함할 수 있으며, 제1 융합 모듈(4672) 또는 제2 융합 모듈(4673)은 제3 셀프 어텐션 모듈(4677)을 더 포함한다. 관련화층(4674)은 2개의 입력을 융합하고, 제3 분류 합성곱층(4675)을 이용하여 처리함으로써, 분류 특징 추출 결과를 얻을 수 있으며, 분류 특징 추출 결과를 제3 셀프 어텐션 모듈(4677)에 입력하여, 출력 결과를 얻을 수 있다. 제2 분류 융합층(4676)을 이용하여 출력 결과를 분류 특징 추출 결과와 융합시켜, 예를 들면, 융합된 특징점 클래스 특징 맵을 얻는다.
도4D는 본 개시의 다른 일 실시예에 따른 제2 셀프 어텐션 모듈의 네트워크 구조도를 예시적으로 도시하는 것이다.
도4D에 도시된 바와 같이, 제2 셀프 어텐션 모듈(466)은 캐스케이드된 제4 셀프 어텐션 모듈(4661) 및 제4 분류 합성곱층(4662)을 포함할 수 있다. 제2 셀프 어텐션 모듈(466)에 입력되는 것은 제4 부호화된 서브 특징점 클래스 특징 맵일 수 있고, 제2 셀프 어텐션 모듈(466)에서 출력되는 것은 제2 상위계층 특징 맵일 수 있다.
본 개시의 실시예에 따르면, 처리될 이미지를 특징점 추출 분기에 입력하여, 특징점을 얻는 동작은, 하기와 같은 동작을 포함할 수 있다.
즉, 예를 들면, 처리될 이미지를 복수의 특징점 추출 서브 분기에 각각 입력하여, 복수의 특징점 스코어 맵을 얻는 동작을 포함할 수 있으며, 여기서, 복수의 특징점 스코어 맵과 복수의 특징점 추출 서브 분기는 일대일 대응된다. 예를 들면, 특징점 추출 서브 분기의 개수는 3개를 포함할 수 있다. 복수의 특징점 추출 서브 분기를 이용하여 서로 다른 스케일의 복수의 특징점 스코어 맵, 예를 들면, 3개의 서로 다른 스케일의 특징점 스코어 맵
Figure pat00001
,
Figure pat00002
Figure pat00003
를 추출할 수 있다.
예를 들면, 계산식(1)에 도시된 바와 같이, 복수의 특징점 스코어 맵을 가중 합산하여, 타깃 특징점 스코어 맵 S를 얻을 수 있다.
Figure pat00004
(1)
타깃 특징점 스코어 맵을 보간 처리하여, 특징점을 얻을 수 있다. 예를 들면, 비최대값 억제 방법을 적용하여 추출된 특징점이 집중되는 것을 방지하며, 나아가 타깃 특징점 스코어 맵에서 희소한 특징점을 추출하여 얻을 수 있다.
예를 들면, 계산식(2) 및 계산식(3)에 도시된 바와 같은 차이값 방법을 이용하여 타깃 특징점 스코어 맵을 처리하여, 하위 픽셀 정밀도의 특징점의 위치 정보를 얻을 수 있다.
Figure pat00005
(2)
상기 계산식(2)를 유도하여, 하위 픽셀 정밀도의 특징점의 위치 정보를 얻을 수 있다.
Figure pat00006
(3)
여기서, (x, y)는 하위 픽셀 정밀도의 특징점의 위치 정보이고, (x0, y0)는 정수 정밀도의 특징점의 위치 정보이다.
본 개시의 실시예에 따르면, 특징점 스코어 맵 중의 각 특징점의 스코어 결과에 기반하여 스코어를 큰 것부터 작은 것의 순서에 따라 정렬할 수 있고, 타깃 개수에 따라 앞 순위에 정렬된 적어도 하나의 핵심 픽셀 포인트를 취득하여 특징점으로 할 수 있다. 하지만, 이에 한정되는 것은 아니다. 또한 임계값을 사전 설정하여, 스코어 결과가 임계값보다 큰 적어도 하나의 핵심 픽셀 포인트를 특징점으로 할 수도 있다.
본 개시의 실시예에 따르면, 동작S220의 경우, 특징점 및 특징점 디스크립터 맵에 기반하여 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있다. 하지만, 이에 한정되는 것은 아니다. 또한, 타깃 특징점 및 특징점 디스크립터 맵에 기반하여 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수도 있다.
본 개시의 다른 실시예에 따르면, 특징점 클래스 결과에 기반하여, 특징점을 선별하여, 타깃 특징점을 결정하며, 타깃 특징점 및 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있다.
본 개시의 실시예에 따르면, 타깃 특징점은 정지 상태의 타깃 대상의 특징점, 예를 들면, 배경 타깃 대상의 배경 특징점일 수 있다. 특징점 클래스 결과를 이용하여 동적인, 예를 들면, 전경 타깃 대상의 전경 특징점을 선별하여 제거하고, 타깃 특징점을 유지함으로써, 전경 타깃 대상의 전경 특징점이 추출됨으로 인하여, 시각적 위치 결정 및 희소 재구성 등 태스크에 발생되는 정밀도 및 로버스트니스가 열화되는 문제를 해결할 수 있다.
본 개시의 다른 실시예에 따르면, 특징점 클래스 결과를 이용하여, 타깃 특징점 스코어 맵을 선별함으로써, 제2 타깃 특징점 스코어 맵을 결정할 수도 있다. 제2 타깃 특징 맵을 뺄셈 처리하여, 타깃 특징점을 얻는다. 이로써, 타깃 특징점 및 특징점 디스크립터 맵에 기반하여 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있도록 한다.
본 개시의 실시예에 따르면, 타깃 특징점에 기반하여, 특징점 디스크립터 맵에서 타깃 특징점과 서로 매칭되는 특징점 디스크립터를 추출하며, 타깃 특징점 및 타깃 특징점과 서로 매칭되는 특징점 디스크립터에 기반하여, 특징점 매칭 방법을 이용하여 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있다.
본 개시의 실시예에 따르면, 타깃 특징점의 위치 정보에 따라, 쌍선형 보간 방법을 이용하여 특징점 디스크립터 맵에서 타깃 특징점의 특징 벡터를 추출함으로써, 특징점 디스크립터를 얻을 수 있다. 하지만, 이에 한정되는 것은 아니다. 또한 추출하여 얻은 특징 벡터를 정규화 처리하고, 정규화된 결과를 특징점 디스크립터로 할 수도 있다.
본 개시의 실시예에 따르면, 특징점 매칭 방법을 이용하여 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있다. 특징점 매칭 방법은 최근접 이웃 매칭 방법, 크로스 매칭 방법 및 맵 네트워크에 기반하는 매칭 방법 중 적어도 하나를 포함한다.
본 개시의 실시예에 따르면, 처리될 이미지와 기준 이미지 사이의 시각적 변화가 너무 크지 않을 경우, 최근접 이웃 매칭 방법(KNN, K-Nearest Neighbor)을 이용하여, 특징점 페어를 매칭시키는 매칭 효과가 양호하고, 매칭 속도가 빠르게 하며, 나아가 시각적 거리계산 또는 시각적 관성 거리계산의 태스크를 수행하는 데 더 잘 적용될 수 있다.
본 개시의 실시예에 따르면, 복잡한 장면에서, 예를 들면, 동적인 전경 대상이 많을 경우, 맵 네트워크의 매칭 방법에 기반하여, 특징점 페어를 매칭시키는 매칭 정확율이 높게 하여, 나아가 희소 재구성 및 클라우드 기반 맵 구축 태스크에 더 잘 적용될 수 있도록 한다.
도5는 본 개시의 실시예에 따른 맵 네트워크의 네트워크 구조도를 예시적으로 도시하는 것이다.
도5에 도시된 바와 같이, 맵 네트워크는 부호기/복호기(Transform)의 구조를 포함할 수 있다. 처리될 이미지의 특징점 디스크립터(511) 및 처리될 이미지의 타깃 특징점(512), 기준 이미지의 기준 특징점 디스크립터(521) 및 기준 이미지의 기준 특징점(522)을 맵 네트워크에 입력하고, 맵 네트워크 중의 위치 부호기는 타깃 특징점의 위치 정보 및 타깃 특징점의 스코어 결과를 128차원의 부호화 특징 벡터로 부호화한 다음, 매칭 융합 모듈(513, Add 융합 모듈)을 이용하여 특징점 디스크립터를 부호화 특징 벡터와 융합시켜, 융합된 특징 벡터(514)를 얻을 수 있다. 마찬가지로, 맵 네트워크 중의 위치 부호기와 병렬된 기준 위치 부호기를 이용하여 기준 특징점의 위치 정보 및 기준 특징점의 스코어 결과를 128차원의 기준 부호화 특징 벡터로 부호화한 다음, 기준 융합 모듈(523, Add 융합 모듈)을 이용하여 기준 특징점 디스크립터를 기준 부호화 특징 벡터와 융합시켜, 융합된 기준 특징 벡터(524)를 얻을 수 있다. 융합된 기준 특징 벡터(524) 및 융합된 특징 벡터(514)를 셀프 어텐션 모듈(530) 및 크로스 어텐션 모듈(540)에 입력하고, 처리될 이미지 및 기준 이미지가 융합된 타깃 특징 벡터를 출력할 수 있다. 마지막으로 Sinkhorn Algorithm(최적화 전송) 알고리즘(550)을 사용하여 반복적으로 해답을 구함으로써, 처리될 이미지의 특징점과 기준 이미지의 특징점 사이의 매칭 스코어(Match Score, 560)를 얻을 수 있다. 처리될 이미지 중의 특징점 각각에 대해 기준 이미지에서 매칭 스코어가 가장 큰 특징점을 선택하여 매칭점으로 하여, 매칭 특징점 페어를 형성할 수 있다.
본 개시의 실시예에 따르면, 동작S230에 대해, 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작은, 하기와 같은 동작을 포함할 수 있다.
즉, 예를 들면, 저해상도 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 후보 픽셀 페어를 결정하는 동작; 고해상도 조밀 디스크립터 맵에 기반하여, 후보 픽셀 페어에서 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작;을 포함할 수 있다.
본 개시의 실시예에 따르면, 조밀 디스크립터 맵 계산 분기는 고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기를 포함할 수 있다. 조밀 디스크립터 맵은 고해상도 조밀 디스크립터 맵 및 저해상도 조밀 디스크립터 맵을 포함할 수 있다. 저해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 처리될 이미지를 처리함으로써 저해상도 조밀 디스크립터 맵을 얻을 수 있다. 고해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 처리될 이미지를 처리함으로써 고해상도 조밀 디스크립터 맵을 얻을 수 있다.
본 개시의 실시예에 따르면, 저해상도 조밀 디스크립터 맵은 코스 특징 맵(coarse feature map)이라고 칭할 수 있고, 저해상도의 디스크립터 맵일 수 있으며, 예를 들면, 처리될 이미지의 해상도의 1/16일 수 있다. 고해상도 조밀 디스크립터 맵은, 파인 특징 맵(fine feature map)이라고 칭할 수 있고, 고해상도의 디스크립터 맵일 수 있으며, 예를 들면, 처리될 이미지 해상도의 1/4일 수 있다. 처리될 이미지의 저해상도 조밀 디스크립터 맵 및 기준 이미지의 기준 저해상도 조밀 디스크립터 맵을 이용하여, 픽셀 포인트에 대해 코스 그레인드(coarse grain)의 연관을 진행하여, 처리될 이미지와 기준 이미지 사이의 매칭 후보 픽셀 페어를 취득할 수 있다. 그 다음, 처리될 이미지의 고해상도 조밀 디스크립터 맵 및 기준 이미지의 기준 고해상도 조밀 디스크립터 맵을 이용하여, 매칭 후보 픽셀 페어에서 파인 그레인드(fine grain)의 연관을 진행하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 취득하고, 매칭 픽셀 페어의 정확한 위치 정보를 획득한다.
본 개시의 실시예에 의해 제공되는 매칭 픽셀 페어의 결정 방법을 이용하면, 저해상도 조밀 디스크립터 맵을 이용하여 검색 범위를 확장함으로써, 전체 매칭을 보장할 수 있으며, 또한 고해상도 조밀 디스크립터 맵을 이용하여 정확한 위치 결정을 진행함으로써, 매칭의 정확도를 보장할 수 있다. 나아가, 저해상도 조밀 디스크립터 맵과 고해상도 조밀 디스크립터 맵을 결합시키는 방식을 이용하여 획득한 매칭 픽셀 페어는 후속적의 장면 타깃 집합의 3차원 재구성 태스크에 사용되면, 효과가 우수하다.
도6은 본 개시의 실시예에 따른 매칭 픽셀 페어를 결정하는 흐름도를 예시적으로 도시하는 것이다.
도6에 도시된 바와 같이, 연관 모듈을 이용하여 처리될 이미지와 기준 이미지 사이의 후보 매칭 픽셀 페어를 결정할 수 있다. 처리될 이미지의 저해상도 조밀 디스크립터 맵(611) 및 기준 이미지의 기준 저해상도 조밀 디스크립터 맵(621)을 연관 모듈(630)에 입력할 수 있다. 연관 모듈(630)을 이용하여, 예를 들면, 계산식(4) 및 계산식(5)과 같은 계산을 진행하고, 나아가 후보 매칭 픽셀 페어(640)를 결정한다.
예를 들면, 처리될 이미지의 저해상도 조밀 디스크립터 맵
Figure pat00007
및 기준 이미지의 기준 저해상도 조밀 디스크립터 맵
Figure pat00008
의 경우, 처리될 이미지 중의 연관해야 할 픽셀 포인트의 위치
Figure pat00009
(x, y)를 결정하고, 처리될 이미지에서 대응되는 시맨틱 조밀 디스크립터
Figure pat00010
를 취득할 수 있으며, 시맨틱 조밀 디스크립터를 이용하여 상기 픽셀 포인트와 기준 이미지 상의 픽셀 포인트 각각 사이의 연관 확율
Figure pat00011
을 결정할 수 있다. 연관 확율에 기반하여 픽셀 포인트 위치의 기대값
Figure pat00012
을 구함으로써, 저해상도 조밀 디스크립터 맵 상의 후보 연관 위치 정보를 얻으며, 즉 후보 픽셀 페어를 획득한다. 그 다음, 처리될 이미지의 고해상도 조밀 디스크립터 맵(612) 및 기준 이미지의 기준 고해상도 조밀 디스크립터 맵(622)을 연관 모듈(650)에 입력하여, 후보 픽셀 페어(640) 중의 후보 연관 위치 정보로 처리될 이미지의 고해상도 조밀 디스크립터 맵(612)에 후보 영역(ROI, Region Of Interesting)을 결정한다. 상기 매칭 방법을 이용하여 처리될 이미지의 고해상도 조밀 디스크립터 맵(612)에서 연관해야 할 픽셀 포인트의 국부 조밀 디스크립터
Figure pat00013
를 결정하며, 픽셀 포인트와 기준 이미지의 기준 고해상도 조밀 디스크립터 맵(622)의 후보 영역 중의 픽셀 포인트 각각 사이의 연관 확율을 계산한다. 연관 확율에 기반하여 기대값을 구함으로써, 최종적인 연관 위치 정보를 얻어, 매칭 픽셀 페어(660)를 결정할 수 있다.
Figure pat00014
(4)
Figure pat00015
(5)
도7은 본 개시의 다른 일 실시예에 따른 멀티태스크 처리 모델의 훈련 방법의 흐름도를 예시적으로 도시하는 것이다.
도7에 도시된 바와 같이, 이 방법은 동작S710 내지 동작S720을 포함한다.
동작S710에서, 훈련 샘플을 취득한다.
동작S720에서, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻되, 여기서, 훈련 샘플은 제1 샘플 이미지, 제2 샘플 이미지, 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨, 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 포함하며, 여기서, 매칭 특징점 페어의 라벨은 제1 샘플 이미지의 특징점과 제2 샘플 이미지의 특징점 사이의 매칭 관계를 나타내기 위한 것이고, 매칭 픽셀 페어의 라벨은 제1 샘플 이미지의 픽셀 포인트와 제2 샘플 이미지의 픽셀 포인트 사이의 매칭 관계를 나타내기 위한 것이다.
본 개시의 실시예에 따르면, 멀티태스크 처리 모델의 훈련 방법은 동작S710 및 동작S720을 포함할 수 있으나, 이에 한정되지 않으며, 동작S720만 포함할 수도 있다.
본 개시의 실시예에 따르면, 초기 멀티태스크 처리 모델은 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 포함한다.
본 개시의 실시예에 따르면, 동작S720에 대해, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작은, 하기와 같은 동작을 포함할 수 있다.
즉, 예를 들면, 제1 샘플 이미지, 제2 샘플 이미지, 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨을 이용하여 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 훈련하여, 멀티태스크 처리 모델 중의 초기 특징점 추출 분기 및 특징점 디스크립터 맵 계산 분기를 얻는 동작을 포함할 수 있다.
본 개시의 실시예에 따르면, 이미지가 재구성된 3D 모델의 훈련 샘플 집합 중의 훈련 샘플을 이용하여 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 함께 훈련할 수 있다. 계산식(6)에 도시된 바와 같은 손실 함수loss(I1, I2)를 이용하여 훈련할 수 있다.
Figure pat00016
(6)
여기서,
Figure pat00017
는 계산된 첫번째 샘플 이미지 상의 c번째 픽셀 포인트의 특징점 스코어를 나타내고,
Figure pat00018
는 첫번째 샘플 이미지 상의 c번째 픽셀 포인트의 특징점 디스크립터를 나타내며, D(.,.)는 특징점 디스크립터의 거리 함수를 나타내고,
Figure pat00019
Figure pat00020
는 각각 상수를 나타내며,
Figure pat00021
는 픽셀 포인트의 집합 개수를 나타내고, q는 q번째 픽셀 포인트를 나타내며,
Figure pat00022
는 0보다 크거나 같음을 나타내고, I1 및 I2는 각각 제1 샘플 이미지와 제2 샘플 이미지를 나타낸다.
본 개시의 실시예에 따르면, 초기 멀티태스크 처리 모델은 초기 조밀 디스크립터 맵 계산 분기를 포함할 수 있다.
본 개시의 실시예에 따르면, 동작S720에 대해, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작은, 하기와 같은 동작을 포함할 수 있다.
즉, 예를 들면, 제1 샘플 이미지, 제2 샘플 이미지, 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 이용하여 초기 조밀 디스크립터 맵 계산 분기를 훈련하여, 멀티태스크 처리 모델 중의 조밀 디스크립터 맵 계산 분기를 얻는 동작을 포함할 수 있다.
본 개시의 실시예에 따르면, 이미지가 재구성된 3D 모델의 훈련 샘플 집합 중의 훈련 샘플을 이용하여 초기 조밀 디스크립터 맵 계산 분기를 훈련할 수 있다. 계산식(7)에 도시된 바와 같은 손실 함수loss를 이용하여 훈련할 수 있다.
Figure pat00023
(7)
여기서, (x, y)는 제2 샘플 이미지 중의 제1 샘플 이미지의 하나의 타깃 픽셀 포인트와 매칭 픽셀 페어를 형성하는 픽셀 포인트의 예측 위치 정보이고, (x0, y0)는 제2 샘플 이미지 중의 타깃 픽셀 포인트와 매칭 픽셀 페어를 형성하는 픽셀 포인트의 실제 위치 정보이다.
본 개시의 실시예에 따르면, 초기 멀티태스크 처리 모델은 초기 특징점 분류 분기를 더 포함할 수 있다.
본 개시의 실시예에 따르면, 동작S720에 대해, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작은, 하기와 같은 동작을 포함할 수 있다.
즉, 예를 들면, 타깃 샘플 이미지, 타깃 샘플 이미지의 특징점 라벨 및 타깃 샘플 이미지의 클래스 라벨을 이용하여 초기 특징점 분류 분기를 훈련하여, 멀티태스크 처리 모델의 특징점 분류 분기를 얻는 동작을 포함할 수 있다. 여기서, 타깃 샘플 이미지는, 제1 샘플 이미지 및 제2 샘플 이미지 중 적어도 하나를 포함하고, 타깃 샘플 이미지의 특징점 라벨은 타깃 샘플 이미지의 픽셀 포인트가 특징점인 확율값을 나타내기 위한 것이며, 타깃 샘플 이미지의 클래스 라벨은 픽셀 포인트의 클래스를 나타내기 위한 것이다.
본 개시의 실시예에 따르면, 클래스 라벨이 라벨링된 훈련 샘플 집합 중의 훈련 샘플을 이용하여 초기 특징점 분류 분기를 훈련할 수 있다. 손실 함수loss(I)는 계산식(8)에 도시된 바와 같은 크로스 엔트로피 손실 함수를 적용할 수 있다.
Figure pat00024
(8)
여기서,
Figure pat00025
는 k번째 픽셀 포인트의 특징점 스코어를 나타내고,
Figure pat00026
는 픽셀 포인트의 클래스 라벨을 나타내며,
Figure pat00027
는 해당 픽셀 포인트가 전경 포인트에 속하는 예측 확율을 나타내고, q는 q번째 픽셀 포인트를 나타낸다.
본 개시의 실시예에 따르면, 멀티태스크 처리 모델은 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기, 조밀 디스크립터 맵 계산 분기 및 특징점 분류 분기를 포함할 수 있다. 하지만, 이에 한정되지 않으며, 멀티태스크 처리 모델은 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기 및 조밀 디스크립터 맵 계산 분기만 포함할 수도 있다.
본 개시의 실시예에 따르면, 특징점 추출 분기는 복수의 특징점 추출 서브 분기를 포함할 수 있으며, 특징점 추출 서브 분기 각각은 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함할 수 있다.
본 개시의 실시예에 따르면, 특징점 디스크립터 맵 계산 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함할 수 있다.
본 개시의 실시에에 따르면, 조밀 디스크립터 맵 계산 분기는 고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기를 포함할 수 있다. 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 완전 합성곱 모듈을 포함할 수 있다.
본 개시의 실시예에 따르면, 특징점 추출 서브 분기, 특징점 디스크립터 맵 계산 분기, 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기 중의 특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함할 수 있다.
본 개시의 실시예에 따르면, 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기 중의 완전 합성곱 모듈은 캐스케이드된 복수의 완전 합성곱층을 포함한다.
본 개시의 실시예에 따르면, 특징점 분류 분기는 복수의 특징점 분류 서브 분기, 융합 모듈, 분류기를 포함하며, 복수의 특징점 분류 서브 분기 각각은 특징점 분류 추출 모듈, 부호기 및 융합 모듈을 포함한다.
본 개시의 실시예에 따르면, 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기, 조밀 디스크립터 맵 계산 분기 및 특징점 분류 분기는 백본 네트워크 모듈을 다중화 사용할 수 있다. 백본 네트워크 모듈은 VGG 네트워크 구조를 적용할 수 있다. 백본 네트워크 모듈은 사용되기 전, ImageNet 훈련 집합을 이용하여 사전 훈련될 수 있다. 초기 멀티태스크 처리 모델에 대한 훈련을 수행할 경우, 백본 네트워크 모듈의 파라미터를 고정하고, 초기 특징점 추출 분기, 초기 특징점 디스크립터 맵 계산 분기, 초기 조밀 디스크립터 맵 계산 분기 및 초기 특징점 분류 분기의 파라미터를 하나씩 훈련할 수 있다.
도8은 본 개시의 실시예에 따른 이미지 처리 장치의 블록도를 예시적으로 도시하는 것이다.
도8에 도시된 바와 같이, 이미지 처리 장치(800)는 처리 모듈(810), 제1 결정 모듈(820) 및 제2 결정 모듈(830)을 포함할 수 있다.
처리 모듈(810)은, 처리될 이미지를 처리하여, 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻기 위한 것이다.
제1 결정 모듈(820)은, 특징점 및 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 것이다.
제2 결정 모듈(830)은, 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정하기 위한 것이다.
본 개시의 실시예에 따르면, 처리 모듈은 처리 서브 모듈을 포함할 수 있다.
처리 서브 모듈은, 처리될 이미지를 멀티태스크 처리 모델에 입력하여, 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻기 위한 것이다.
본 개시의 실시예에 따르면, 멀티태스크 처리 모델은 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기 및 조밀 디스크립터 맵 계산 분기를 포함한다.
본 개시의 실시예에 따르면, 처리 서브 모듈은 제1 처리 유닛, 제2 처리 유닛 및 제3 처리 유닛을 포함할 수 있다.
제1 처리 유닛은, 처리될 이미지를 특징점 추출 분기에 입력하여, 특징점을 얻기 위한 것이다.
제2 처리 유닛은, 처리될 이미지를 특징점 디스크립터 맵 계산 분기에 입력하여, 특징점 디스크립터 맵을 얻기 위한 것이다.
제3 처리 유닛은, 처리될 이미지를 조밀 디스크립터 맵 계산 분기에 입력하여, 조밀 디스크립터를 얻기 위한 것이다.
본 개시의 실시예에 따르면, 멀티태스크 처리 모델은 특징점 분류 분기를 더 포함한다.
본 개시의 실시예에 따르면, 이미지 처리 장치는 제4 처리 유닛을 더 포함할 수 있다.
제4 처리 유닛은, 처리될 이미지를 특징점 분류 분기에 입력하여, 특징점 클래스 결과를 얻어, 특징점, 특징점 디스크립터 맵 및 특징점 클래스 결과에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있도록 하기 위한 것이다.
본 개시의 실시예에 따르면, 제1 결정 모듈은 선별 유닛 및 결정 유닛을 포함할 수 있다.
선별 유닛은, 특징점 클래스 결과에 기반하여, 특징점을 선별하여, 타깃 특징점을 결정하기 위한 것이다.
결정 유닛은, 타깃 특징점 및 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 것이다.
본 개시의 실시예에 따르면, 결정 유닛은 추출 서브 유닛 및 제1 매칭 서브 유닛을 포함할 수 있다.
추출 서브 유닛은, 타깃 특징점에 기반하여, 특징점 디스크립터 맵에서 타깃 특징점과 서로 매칭되는 특징점 디스크립터를 추출하기 위한 것이다.
제1 매칭 서브 유닛은, 타깃 특징점 및 타깃 특징점과 서로 매칭되는 특징점 디스크립터에 기반하여, 특징점 매칭 방법을 이용하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 것이다.
본 개시의 실시예에 따르면, 특징점 추출 분기는 복수의 특징점 추출 서브 분기를 포함한다.
본 개시의 실시예에 따르면, 제1 처리 유닛은 제1 입력 서브 유닛, 가중 서브 유닛 및 보간 서브 유닛을 포함할 수 있다.
제1 입력 서브 유닛은, 처리될 이미지를 복수의 특징점 추출 서브 분기에 각각 입력하여, 복수의 특징점 스코어 맵을 얻기 위한 것이며, 여기서, 복수의 특징점 스코어 맵은 복수의 특징점 추출 서브 분기와 일대일 대응된다.
가중 서브 유닛은, 복수의 특징점 스코어 맵을 가중 합산하여, 타깃 특징점 스코어 맵을 얻기 위한 것이다.
보간 서브 유닛은, 타깃 특징점 스코어 맵을 보간 처리하여, 특징점을 얻기 위한 것이다.
본 개시의 실시예에 따르면, 조밀 디스크립터 맵은 고해상도 조밀 디스크립터 맵 및 저해상도 조밀 디스크립터 맵을 포함한다.
본 개시의 실시예에 따르면, 조밀 디스크립터 맵 계산 분기는 고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기를 포함한다.
본 개시의 실시예에 따르면, 제3 처리 유닛은 제2 매칭 서브 유닛 및 제3 매칭 서브 유닛을 포함할 수 있다.
제2 매칭 서브 유닛은, 저해상도 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 후보 픽셀 페어를 결정하기 위한 것이며, 여기서, 저해상도 조밀 디스크립터 맵은 저해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 처리될 이미지를 처리하여 얻은 것이다.
제3 매칭 서브 유닛은, 고해상도 조밀 디스크립터 맵에 기반하여, 후보 픽셀 페어에서 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정하기 위한 것이며, 여기서, 고해상도 조밀 디스크립터 맵은 고해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 처리될 이미지를 처리하여 얻은 것이다.
본 개시의 실시예에 따르면, 특징점 분류 분기는 복수의 특징점 분류 서브 분기, 융합 모듈 및 분류기를 포함하며, 복수의 특징점 분류 서브 분기 각각은 특징점 분류 추출 모듈, 부호기 및 융합 모듈을 포함한다.
본 개시의 실시예에 따르면, 제4 처리 유닛은 제2 입력 서브 유닛, 부호화 서브 유닛, 융합 서브 유닛 및 분류 서브 유닛을 포함할 수 있다.
제2 입력 서브 유닛은, 처리될 이미지를 복수의 특징점 분류 추출 모듈에 각각 입력하여, 복수의 특징점 클래스 특징 맵을 얻기 위한 것이며, 여기서, 복수의 특징점 클래스 특징 맵은 복수의 특징점 분류 추출 모듈과 일대일 대응된다.
부호화 서브 유닛은, 복수의 특징점 클래스 특징 맵 중의 각 특징점 클래스 특징 맵에 대해, 특징점 클래스 특징 맵을 부호기에 입력하여, 복수의 부호화된 서브 특징점 클래스 특징 맵을 얻기 위한 것이며, 여기서, 복수의 부호화된 서브 특징점 클래스 특징 맵은 복수의 부호기와 일대일 대응된다.
융합 서브 유닛은, 융합 모듈을 이용하여 복수의 부호화된 서브 특징점 클래스 특징 맵을 처리하여, 융합된 특징점 클래스 맵을 얻기 위한 것이다.
분류 서브 유닛은, 분류기를 이용하여 융합된 특징점 클래스 맵을 처리하여, 특징 클래스 결과를 얻기 위한 것이다.
본 개시의 실시예에 따르면, 이미지 처리 장치는 입력 모듈을 더 포함할 수 있다.
입력 모듈은, 기준 이미지를 멀티태스크 처리 모델에 입력하여, 기준 특징점, 기준 특징점 디스크립터 맵 및 기준 조밀 디스크립터 맵을 얻어, 특징점, 특징점 디스크립터 맵, 기준 특징점 및 기준 특징점 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어을 결정하고, 조밀 디스크립터 맵 및 기준 조밀 디스크립터 맵에 기반하여, 처리될 이미지와 기준 이미지 사이의 매칭 픽셀 페어를 결정할 수 있도록 하기 위한 것이다.
본 개시의 실시예에 따르면, 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 완전 합성곱 모듈을 포함한다.
특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함한다. 완전 합성곱 모듈은 스택된 복수의 완전 합성곱층을 포함한다.
본 개시의 실시예에 따르면, 복수의 특징점 추출 서브 분기 중의 적어도 하나의 특징점 추출 서브 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함한다. 특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함한다.
본 개시의 실시예에 따르면, 특징점 디스크립터 맵 계산 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함한다. 특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함한다.
본 개시의 실시예에 따르면, 특징점 매칭 방법은 최근접 이웃 매칭 방법, 크로스 매칭 방법 및 맵 네트워크에 기반하는 매칭 방법 중 적어도 하나를 포함한다.
도9는 본 개시의 실시예에 따른 멀티태스크 처리 모델의 훈련 장치의 블록도를 예시적으로 도시하는 것이다.
도9에 도시된 바와 같이, 멀티태스크 처리 모델의 훈련 장치(900)는 취득 모듈(910) 및 훈련 모듈(920)을 포함할 수 있다.
취득 모듈(910)은, 훈련 샘플을 취득하기 위한 것이다.
훈련 모듈(920)은, 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻기 위한 것이다.
본 개시의 실시예에 따르면, 훈련 샘플은 제1 샘플 이미지, 제2 샘플 이미지, 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨 및 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 포함하며, 여기서, 매칭 특징점 페어의 라벨은 제1 샘플 이미지의 특징점과 제2 샘플 이미지의 특징점 사이의 매칭 관계를 나타내기 위한 것이고, 매칭 픽셀 페어의 라벨은 제1 샘플 이미지의 픽셀 포인트와 제2 샘플 이미지의 픽셀 포인트 사이의 매칭 관계를 나타내기 위한 것이다.
본 개시의 실시예에 따르면, 멀티태스크 처리 모델의 훈련 장치(900)는 취득 모듈(910) 및 훈련 모듈(920)을 포함할 수 있으나, 이에 한정되지 않으며, 훈련 모듈(920)만 포함할 수도 있다.
본 개시의 실시예에 따르면, 초기 멀티태스크 처리 모델은 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 포함할 수 있다.
본 개시의 실시예에 따르면, 훈련 모듈은 제1 훈련 유닛을 포함할 수 있다.
제1 훈련 유닛은, 제1 샘플 이미지, 제2 샘플 이미지 및 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨을 이용하여 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 훈련하여, 멀티태스크 처리 모델 중의 초기 특징점 추출 분기 및 특징점 디스크립터 맵 계산 분기를 얻기 위한 것이다.
본 개시의 실시예에 따르면, 초기 멀티태스크 처리 모델은 초기 조밀 디스크립터 맵 계산 분기를 포함한다.
본 개시의 실시예에 따르면, 훈련 모듈은 제2 훈련 유닛을 포함할 수 있다.
제2 훈련 유닛은, 제1 샘플 이미지, 제2 샘플 이미지 및 제1 샘플 이미지와 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 이용하여, 초기 조밀 디스크립터 맵 계산 분기를 훈련하여, 멀티태스크 처리 모델 중의 조밀 디스크립터 맵 계산 분기를 얻기 위한 것이다.
본 개시의 실시예에 따르면, 초기 멀티태스크 처리 모델은 초기 특징점 분류 분기를 더 포함한다.
본 개시의 실시예에 따르면, 훈련 모듈은 제3 훈련 유닛을 포함할 수 있다.
제3 훈련 유닛은, 타깃 샘플 이미지, 타깃 샘플 이미지의 특징점 라벨 및 타깃 샘플 이미지의 클래스 라벨을 이용하여, 초기 특징점 분류 분기를 훈련하여, 멀티태스크 처리 모델의 특징점 분류 분기를 얻기 위한 것이며, 여기서, 타깃 샘플 이미지는 제1 샘플 이미지 및 제2 샘플 이미지 중 적어도 하나를 포함하고, 타깃 샘플 이미지의 특징점 라벨은 타깃 샘플 이미지의 픽셀 포인트가 특징점인 확율값을 나타내기 위한 것이며, 타깃 샘플 이미지의 클래스 라벨은 픽셀 포인트의 클래스를 나타내기 위한 것이다.
본 개시의 실시예에 따르면, 본 개시는 전자기기, 판독 가능 저장매체, 자율주행 차량 및 컴퓨터 프로그램 제품을 더 제공한다.
본 개시의 실시예에 따르면, 적어도 하나의 프로세서 및 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하며, 여기서, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 명령어는 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서가 본 개시의 실시예와 같은 방법을 실행하도록 하는 전자기기를 더 제공한다.
본 개시의 실시예에 따르면, 컴퓨터가 본 개시의 실시예와 같은 방법을 실행하도록 하기 위한 컴퓨터 명령어가 저장된 비휘발성 컴퓨터 판독 가능 저장매체를 더 제공한다.
본 개시의 실시예에 따르면, 프로세서에 의해 실행될 시 본 개시의 실시예와 같은 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 더 제공한다.
도10은 본 개시의 실시예를 실현할 수 있는 전자기기(1000)의 블록도를 예시적으로 도시하는 것이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등 다양한 형태의 디지털 컴퓨터를 의미한다. 전자기기는 개인 디지털 프로세서, 셀룰러 전화, 스마트 폰, 웨어러블 디바이스 및 다른 유형의 컴퓨팅 장치 등 다양한 형태의 이동 장치를 의미할 수도 있다. 본 문장에 개시되는 부품, 이들의 연결과 관계 및 이들의 기능은 오직 예시일 뿐이고, 본 문장에서 설명 및/또는 요구되는 본 개시의 실현을 제한하는 것은 아니다.
도10에 도시된 바와 같이, 전자기기(1000)에는 리드 온리 메모리(ROM)(1002)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1008)으로부터 랜덤 액세스 메모리(RAM)(1003)로 로딩되는 컴퓨터 프로그램에 근거하여 여러가지 적합한 동작과 처리를 실행할 수 있는 컴퓨팅 유닛(1001)이 포함된다. RAM(1003)에는, 전자기기(1000)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장 될 수 있다. 컴퓨팅 유닛(1001), ROM(1002) 및 RAM(1003)은 버스(1004)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1005)도 버스(1004)에 연결된다.
전자기기(1000) 중의 복수의 부품은 I/O 인터페이스(1005)에 연결되며, 상기 부품에는, 예를 들면 키보드, 마우스 등과 같은 입력 유닛(1006), 예를 들면 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1007), 예를 들면 디스크, 광 디스크 등과 같은 저장 유닛(1008); 및 예를 들면 네트워크 카드, 모뎀(modem), 무선통신 송수신기 등과 같은 통신 유닛(1009)이 포함된다. 통신 유닛(1009)은 전자기기(1000)로 하여금 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 텔레콤 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있게 한다.
컴퓨팅 유닛(1001)은 처리 능력과 컴퓨팅 능력을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(1001)의 일부 예시에는, 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등이 포함되지만 이에 한정되는 것은 아니다. 컴퓨팅 유닛(1001)은, 예를 들면, 이미지 처리 방법 또는 멀티태스크 처리 모델의 훈련 방법과 같은 위에서 설명된 각 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 이미지 처리 방법 또는 멀티태스크 처리 모델의 훈련 방법은 컴퓨터 소프트웨어 프로그램으로 구현되어, 저장 유닛(1008)과 같은 기계 판독 가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1002) 및/또는 통신 유닛(1009)을 거쳐 전자기기(1000)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1003)에 로딩되어 컴퓨팅 유닛(1001)에 의해 실행될 경우, 위에서 설명한 이미지 처리 방법 또는 멀티태스크 처리 모델의 훈련 방법의 하나 이상의 단계를 실행할 수 있다. 선택적으로, 기타 실시예에서, 컴퓨팅 유닛(1001)은 기타 임의의 적합한 방식(예를 들면, 펌웨어를 이용함)을 통해 이미지 처리 방법 또는 멀티태스크 처리 모델의 훈련 방법을 실행하도록 구성될 수 있다.
본 개시의 실시예에 따르면, 본 개시는 전자기기, 통신기기, 이미지 수집 기기 등을 포함할 수 있는 자율주행 차량을 더 제공한다.
본 개시의 실시예에 따르면, 전자기기는 통신부품 및 정보 수집 기기와 일체로 통합될 수 있으며, 통신부품 및 정보 수집 기기와 분리되어 설치될 수도 있다.
본 명세서에서 상기 설명한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래밍 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래밍 가능 로직 디바이스(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 상기 다양한 실시형태는 다음과 같은 내용을 포함할 수 있다. 하나 이상의 컴퓨터 프로그램에서 실시되고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석될 수 있다. 상기 프로그래밍 가능 프로세서는 전용 또는 범용 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하며, 또한 상기 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 데이터 및 명령어를 전송할 수 있다.
본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 시 흐름도 및/또는 블록도에서 규정된 기능/동작이 실시되도록, 이러한 프로그램 코드를 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 개별적인 소프트웨어 패키지(Software Package)로서 부분적으로 기계에서 실행되며, 부분적으로 원격 기계에서 실행되거나, 완전히 원격 기계 또는 서버에서 실행될 수 있다.
본 개시의 콘텍스트에서, 기계 판독 가능 매체는 유형적인 매체일 수 있다. 상기 기계 판독 가능 매체에는, 명령어 실행 시스템, 장치 또는 기기에 사용되거나 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용되게끔 제공되는 프로그램이 포함되거나 저장될 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장매체일 수 있다. 기계 판독 가능 매체에는, 전자, 자성, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있지만 이에 한정되는 것은 아니다. 기계 판독 가능 저장매체의 더 구체적인 예시에는 하나 이상의 와이어에 의한 전기적인 연결, 휴대용 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 소거 가능 및 프로그램 가능 리드 온리 메모리(EPROM 또는 플래시 메모리), 광섬유,휴대용 콤팩트 디스크 리드 온리 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있다.
사용자와의 인터랙션을 제공하기 위해, 여기에서 설명하는 시스템과 기술을 컴퓨터에서 실행할 수 있다. 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들면, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드, 포인팅 장치(예를 들면, 마우스 또는 트랙 볼)를 포함한다. 사용자는 상기 키보드 및 포인팅 장치를 통해 입력을 컴퓨터에 제공한다. 기타 종류의 장치는 사용자와의 인터랙션을 제공하기 위해 사용될 수도 있다. 예를 들면, 사용자에게 제공하는 피드백은 임의의 형태의 센싱 피드백(예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 또한 사용자로부터의 입력은 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 수신될 수 있다.
여기에서 설명하는 시스템 및 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 부품을 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터, 사용자는 상기 그래픽 유저 인터페이스 또는 웹 브라우저를 통해 여기에서 설명하는 시스템 및 기술의 실시형태와 인터랙션을 진행할 수 있음), 또는 상기 백그라운드 부품, 미들웨어 부품 또는 프론트 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실행할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함한다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 통신망을 통해 인터랙션을 진행한다. 해당 컴퓨터에서 실행되고, 또한 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있으며, 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.
상기의 다양한 형태의 흐름을 이용하여, 단계를 다시 순서 배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 개시에 기재된 각 단계는 병행하여 실행할 수 있고, 순서대로 실행할 수도 있으며, 서로 다른 순서로 실행할 수도 있는데, 본 개시에 의해 개시되는 기술방안이 기대하는 결과를 실현할 수만 있다면, 이에 대해 제한하지 않는다.
상기 구체적인 실시형태는 본 개시의 보호 범위에 대해 제한하지 않는다. 당업자는 설계 요구와 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 개시의 사상 및 원칙 내에서 진행되는 수정, 균등한 교체 및 개선 등은 모두 본 개시의 보호 범위에 포함되어야 한다.

Claims (36)

  1. 처리될 이미지를 처리하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터(Feature Descriptor) 맵 및 조밀 디스크립터(Dense Descriptor) 맵을 얻는 동작;
    상기 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하는 동작; 및
    상기 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작;을 포함하는 이미지 처리 방법.
  2. 청구항1에 있어서,
    상기 처리될 이미지를 처리하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻는 동작은,
    상기 처리될 이미지를 멀티태스크 처리 모델에 입력하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻는 동작을 포함하는 이미지 처리 방법.
  3. 청구항2에 있어서,
    상기 멀티태스크 처리 모델은 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기 및 조밀 디스크립터 맵 계산 분기를 포함하며,
    상기 처리될 이미지를 멀티태스크 처리 모델에 입력하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻는 동작은,
    상기 처리될 이미지를 상기 특징점 추출 분기에 입력하여, 상기 특징점을 얻는 동작;
    상기 처리될 이미지를 상기 특징점 디스크립터 맵 계산 분기에 입력하여, 상기 특징점 디스크립터 맵을 얻는 동작; 및
    상기 처리될 이미지를 상기 조밀 디스크립터 맵 계산 분기에 입력하여, 상기 조밀 디스크립터 맵을 얻는 동작;을 포함하는 이미지 처리 방법.
  4. 청구항2 또는 청구항3에 있어서,
    상기 멀티태스크 처리 모델은 특징점 분류 분기를 더 포함하며,
    상기 처리될 이미지를 상기 특징점 분류 분기에 입력하여, 특징점 클래스 결과를 얻어, 상기 특징점, 상기 특징점 디스크립터 맵 및 상기 특징점 클래스 결과에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있도록 하는 동작을 더 포함하는 이미지 처리 방법.
  5. 청구항4에 있어서,
    상기 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하는 동작은,
    상기 특징점 클래스 결과에 기반하여, 상기 특징점을 선별하여, 타깃 특징점을 결정하는 동작;
    상기 타깃 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하는 동작;을 포함하는 이미지 처리 방법.
  6. 청구항4에 있어서,
    상기 타깃 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하는 동작은,
    상기 타깃 특징점에 기반하여, 상기 특징점 디스크립터 맵에서 상기 타깃 특징점과 서로 매칭되는 특징점 디스크립터를 추출하는 동작; 및
    상기 타깃 특징점 및 상기 타깃 특징점과 서로 매칭되는 특징점 디스크립터에 기반하여, 특징점 매칭 방법을 이용하여 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하는 동작;을 포함하는 이미지 처리 방법.
  7. 청구항3에 있어서,
    상기 특징점 추출 분기는 복수의 특징점 추출 서브 분기를 포함하고,
    상기 처리될 이미지를 상기 특징점 추출 분기에 입력하여, 상기 특징점을 얻는 동작은,
    상기 처리될 이미지를 상기 복수의 특징점 추출 서브 분기에 각각 입력하여, 복수의 특징점 스코어 맵을 얻는 동작;
    상기 복수의 특징점 스코어 맵을 가중 합산하여, 타깃 특징점 스코어 맵을 얻는 동작; 및
    상기 타깃 특징점 스코어 맵을 보간 처리하여, 상기 특징점을 얻는 동작;을 포함하며,
    상기 복수의 특징점 스코어 맵과 상기 복수의 특징점 추출 서브 분기는 일대일 대응되는 이미지 처리 방법.
  8. 청구항3에 있어서,
    상기 조밀 디스크립터 맵은 고해상도 조밀 디스크립터 맵 및 저해상도 조밀 디스크립터 맵을 포함하며,
    상기 조밀 디스크립터 맵 계산 분기는 고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기를 포함하고,
    상기 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작은,
    상기 저해상도 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 후보 픽셀 페어를 결정하는 동작;
    상기 고해상도 조밀 디스크립터 맵에 기반하여, 상기 후보 픽셀 페어에서 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하는 동작;을 포함하며,
    상기 저해상도 조밀 디스크립터 맵은 상기 저해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 상기 처리될 이미지를 처리하여 얻은 것이고,
    상기 고해상도 조밀 디스크립터 맵은 상기 고해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 상기 처리될 이미지를 처리하여 얻은 것인 이미지 처리 방법.
  9. 청구항3에 있어서,
    상기 특징점 분류 분기는 복수의 특징점 분류 서브 분기, 융합 모듈, 분류기를 포함하고, 상기 복수의 특징점 분류 서브 분기 각각은 특징점 분류 추출 모듈 및 부호기를 포함하며,
    상기 처리될 이미지를 상기 특징점 분류 분기에 입력하여, 특징점 클래스 결과를 얻는 동작은,
    상기 처리될 이미지를 복수의 상기 특징점 분류 추출 모듈에 각각 입력하여, 복수의 특징점 클래스 특징 맵을 얻는 동작;
    상기 복수의 특징점 클래스 특징 맵 중의 각 특징점 클래스 특징 맵에 대해, 상기 특징점 클래스 특징 맵을 상기 부호기에 입력하여, 복수의 부호화된 서브 특징점 클래스 특징 맵을 얻는 동작;
    상기 융합 모듈을 이용하여 상기 복수의 부호화된 서브 특징점 클래스 특징 맵을 처리하여, 융합된 특징점 클래스 맵을 얻는 동작; 및
    상기 분류기를 이용하여 상기 융합된 특징점 클래스 맵을 처리하여, 상기 특징 클래스 결과를 얻는 동작;을 포함하며,
    상기 복수의 특징점 클래스 특징 맵은 복수의 특징점 분류 추출 모듈과 일대일 대응되고,
    상기 복수의 부호화된 서브 특징점 클래스 특징 맵은 복수의 부호기와 일대일 대응되는 이미지 처리 방법.
  10. 청구항8에 있어서,
    상기 고해상도 조밀 디스크립터 맵 계산 서브 분기 또는 저해상도 조밀 디스크립터 맵 계산 서브 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 완전 합성곱 모듈을 포함하며,
    상기 특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함하고,
    상기 완전 합성곱 모듈은 캐스케이드된 복수의 완전 합성곱층을 포함하는 이미지 처리 방법.
  11. 청구항7에 있어서,
    상기 복수의 특징점 추출 서브 분기 중의 적어도 하나의 특징점 추출 서브 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함하며,
    상기 특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함하는 이미지 처리 방법.
  12. 청구항6에 있어서,
    상기 특징점 디스크립터 맵 계산 분기는 캐스케이드된 적어도 하나의 특징 추출 모듈 및 합성곱층을 포함하며,
    상기 특징 추출 모듈은 합성곱층, 풀링층, 또는 캐스케이드된 합성곱층과 풀링층을 포함하는 이미지 처리 방법.
  13. 청구항1 내지 청구항3 중 어느 한 항에 있어서,
    상기 기준 이미지를 상기 멀티태스크 처리 모델에 입력하여, 기준 특징점, 기준 특징점 디스크립터 맵 및 기준 조밀 디스크립터 맵을 얻어, 상기 특징점, 상기 특징점 디스크립터 맵, 상기 기준 특징점 및 상기 기준 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하고, 상기 조밀 디스크립터 맵 및 상기 기준 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정할 수 있도록 하는 동작을 더 포함하는 이미지 처리 방법.
  14. 청구항5에 있어서,
    상기 특징점 매칭 방법은,
    최근접 이웃 매칭 방법, 크로스 매칭 방법 및 맵 네트워크에 기반하는 매칭 방법 중 적어도 하나를 포함하는 이미지 처리 방법.
  15. 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작을 포함하며,
    상기 훈련 샘플은 제1 샘플 이미지, 제2 샘플 이미지, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 포함하며, 상기 매칭 특징점 페어의 라벨은 상기 제1 샘플 이미지의 특징점과 상기 제2 샘플 이미지의 특징점 사이의 매칭 관계를 나타내기 위한 것이고, 상기 매칭 픽셀 페어의 라벨은 상기 제1 샘플 이미지의 픽셀 포인트와 상기 제2 샘플 이미지의 픽셀 포인트 사이의 매칭 관계를 나타내기 위한 것인 멀티태스크 처리 모델의 훈련 방법.
  16. 청구항15에 있어서,
    상기 초기 멀티태스크 처리 모델은 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 포함하며,
    상기 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작은,
    상기 제1 샘플 이미지, 상기 제2 샘플 이미지, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨을 이용하여, 상기 초기 특징점 추출 분기 및 상기 초기 특징점 디스크립터 맵 계산 분기를 훈련하여, 상기 멀티태스크 처리 모델 중의 초기 특징점 추출 분기 및 특징점 디스크립터 맵 계산 분기를 얻는 동작을 포함하는 멀티태스크 처리 모델의 훈련 방법.
  17. 청구항15 또는 청구항16에 있어서,
    상기 초기 멀티태스크 처리 모델은 초기 조밀 디스크립터 맵 계산 분기를 포함하며,
    상기 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작은,
    상기 제1 샘플 이미지, 상기 제2 샘플 이미지, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 이용하여 상기 초기 조밀 디스크립터 맵 계산 분기를 훈련하여, 상기 멀티태스크 처리 모델 중의 조밀 디스크립터 맵 계산 분기를 얻는 동작을 포함하는 멀티태스크 처리 모델의 훈련 방법.
  18. 청구항15 또는 청구항16에 있어서,
    상기 초기 멀티태스크 처리 모델은 초기 특징점 분류 분기를 더 포함하고,
    상기 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻는 동작은,
    타깃 샘플 이미지, 상기 타깃 샘플 이미지의 특징점 라벨 및 상기 타깃 샘플 이미지의 클래스 라벨을 이용하여 상기 초기 특징점 분류 분기를 훈련하여, 상기 멀티태스크 처리 모델의 특징점 분류 분기를 얻는 단계를 포함하며, 상기 타깃 샘플 이미지는 상기 제1 샘플 이미지 및 상기 제2 샘플 이미지 중 적어도 하나를 포함하고, 상기 타깃 샘플 이미지의 상기 특징점 라벨은 상기 타깃 샘플 이미지의 픽셀 포인트가 특징점인 확율값을 나타내기 위한 것이며, 상기 타깃 샘플 이미지의 상기 클래스 라벨은 상기 픽셀 포인트의 클래스를 나타내기 위한 것인 멀티태스크 처리 모델의 훈련 방법.
  19. 처리될 이미지를 처리하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻기 위한 처리 모듈;
    상기 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 제1 결정 모듈; 및
    상기 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하기 위한 제2 결정 모듈;을 포함하는 이미지 처리 장치.
  20. 청구항19에 있어서,
    상기 처리 모듈은,
    상기 처리될 이미지를 멀티태스크 처리 모델에 입력하여, 상기 처리될 이미지의 특징점, 특징점 디스크립터 맵 및 조밀 디스크립터 맵을 얻기 위한 처리 서브 모듈을 포함하는 이미지 처리 장치.
  21. 청구항20에 있어서,
    상기 멀티태스크 처리 모델은 특징점 추출 분기, 특징점 디스크립터 맵 계산 분기 및 조밀 디스크립터 맵 계산 분기를 포함하며,
    상기 처리 서브 모듈은,
    상기 처리될 이미지를 상기 특징점 추출 분기에 입력하여, 상기 특징점을 얻기 위한 제1 처리 유닛;
    상기 처리될 이미지를 상기 특징점 디스크립터 맵 계산 분기에 입력하여, 상기 특징점 디스크립터 맵을 얻기 위한 제2 처리 유닛; 및
    상기 처리될 이미지를 상기 조밀 디스크립터 맵 계산 분기에 입력하여, 상기 조밀 디스크립터 맵을 얻기 위한 제3 처리 유닛;을 포함하는 이미지 처리 장치.
  22. 청구항20 또는 청구항21에 있어서,
    상기 멀티태스크 처리 모델은 특징점 분류 분기를 더 포함하며,
    상기 처리될 이미지를 상기 특징점 분류 분기에 입력하여, 특징점 클래스 결과를 얻어, 상기 특징점, 상기 특징점 디스크립터 맵 및 상기 특징점 클래스 결과에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정할 수 있도록 하기 위한 제4 처리 유닛을 더 포함하는 이미지 처리 장치.
  23. 청구항22에 있어서,
    상기 제1 결정 모듈은,
    상기 특징점 클래스 결과에 기반하여, 상기 특징점을 선별하여, 타깃 특징점을 결정하기 위한 선별 유닛; 및
    상기 타깃 특징점 및 상기 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 결정 유닛;을 포함하는 이미지 처리 장치.
  24. 청구항23에 있어서,
    상기 결정 유닛은,
    상기 타깃 특징점에 기반하여, 상기 특징점 디스크립터 맵에서 상기 타깃 특징점과 서로 매칭되는 특징점 디스크립터를 추출하기 위한 추출 서브 유닛; 및
    상기 타깃 특징점 및 상기 타깃 특징점과 서로 매칭되는 특징점 디스크립터에 기반하여, 특징점 매칭 방법을 이용하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하기 위한 제1 매칭 서브 유닛;을 포함하는 이미지 처리 장치.
  25. 청구항21에 있어서,
    상기 특징점 추출 분기는 복수의 특징점 추출 서브 분기를 포함하고,
    상기 제1 처리 유닛은,
    상기 처리될 이미지를 상기 복수의 특징점 추출 서브 분기에 각각 입력하여, 복수의 특징점 스코어 맵을 얻기 위한 제1 입력 서브 유닛;
    상기 복수의 특징점 스코어 맵을 가중합산하여, 타깃 특징점 스코어 맵을 얻기 위한 가중 서브 유닛; 및
    상기 타깃 특징점 스코어 맵을 보간 처리하여, 상기 특징점을 얻기 위한 보간 서브 유닛;을 포함하며,
    상기 복수의 특징점 스코어 맵은 상기 복수의 특징점 추출 서브 분기와 일대일 대응되는 이미지 처리 장치.
  26. 청구항21에 있어서,
    상기 조밀 디스크립터 맵은 고해상도 조밀 디스크립터 맵 및 저해상도 조밀 디스크립터 맵을 포함하고,
    상기 조밀 디스크립터 맵 계산 분기는 고해상도 조밀 디스크립터 맵 계산 서브 분기 및 저해상도 조밀 디스크립터 맵 계산 서브 분기를 포함하고,
    상기 제3 처리 유닛은,
    상기 저해상도 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 후보 픽셀 페어를 결정하기 위한 제2 매칭 서브 유닛; 및
    상기 고해상도 조밀 디스크립터 맵에 기반하여, 상기 후보 픽셀 페어에서 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정하기 위한 제3 매칭 서브 유닛;을 포함하며,
    상기 저해상도 조밀 디스크립터 맵은 상기 저해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 상기 처리될 이미지를 처리하여 얻은 것이고,
    상기 고해상도 조밀 디스크립터 맵은 상기 고해상도 조밀 디스크립터 맵 계산 서브 분기를 이용하여 상기 처리될 이미지를 처리하여 얻은 것인 이미지 처리 장치.
  27. 청구항21에 있어서,
    상기 특징점 분류 분기는 복수의 특징점 분류 서브 분기, 융합 모듈 및 분류기를 포함하며, 복수의 상기 특징점 분류 서브 분기 각각은 특징점 분류 추출 모듈 및 부호기를 포함하고,
    상기 제4 처리 유닛은,
    상기 처리될 이미지를 복수의 상기 특징점 분류 추출 모듈에 각각 입력하여, 복수의 특징점 클래스 특징 맵을 얻기 위한 제2 입력 서브 유닛;
    상기 복수의 특징점 클래스 특징 맵 중의 각 특징점 클래스 특징 맵에 대해, 상기 특징점 클래스 특징 맵을 상기 부호기에 입력하여, 복수의 부호화된 서브 특징점 클래스 특징 맵을 얻기 위한 부호화 서브 유닛;
    상기 융합 모듈을 이용하여 상기 복수의 부호화된 서브 특징점 클래스 특징 맵을 처리하여, 융합된 특징점 클래스 맵을 얻기 위한 융합 서브 유닛; 및
    상기 분류기를 이용하여 상기 융합된 특징점 클래스 맵을 처리하여, 상기 특징 클래스 결과를 얻기 위한 분류 서브 유닛;을 포함하며,
    상기 복수의 특징점 클래스 특징 맵은 복수의 특징점 분류 추출 모듈과 일대일 대응되고,
    상기 복수의 부호화된 서브 특징점 클래스 특징 맵은 복수의 부호기와 일대일 대응되는 이미지 처리 장치.
  28. 청구항19 내지 청구항21 중 어느 한 항에 있어서,
    상기 기준 이미지를 상기 멀티태스크 처리 모델에 입력하여, 기준 특징점, 기준 특징점 디스크립터 맵 및 기준 조밀 디스크립터 맵을 얻어, 상기 특징점, 상기 특징점 디스크립터 맵, 상기 기준 특징점 및 상기 기준 특징점 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 특징점 페어를 결정하고, 상기 조밀 디스크립터 맵 및 상기 기준 조밀 디스크립터 맵에 기반하여, 상기 처리될 이미지와 상기 기준 이미지 사이의 매칭 픽셀 페어를 결정할 수 있도록 하기 위한 입력 모듈을 더 포함하는 이미지 처리 장치.
  29. 훈련 샘플을 이용하여 초기 멀티태스크 처리 모델을 훈련하여, 멀티태스크 처리 모델을 얻기 위한 훈련 모듈을 포함하며,
    상기 훈련 샘플은 제1 샘플 이미지, 제2 샘플 이미지, 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨 및 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 포함하고, 상기 매칭 특징점 페어의 라벨은 상기 제1 샘플 이미지의 특징점과 상기 제2 샘플 이미지의 특징점 사이의 매칭 관계를 나타내기 위한 것이고, 상기 매칭 픽셀 페어의 라벨은 상기 제1 샘플 이미지의 픽셀 포인트와 상기 제2 샘플 이미지의 픽셀 포인트 사이의 매칭 관계를 나타내기 위한 것인 멀티태스크 처리 모델의 훈련 장치.
  30. 청구항29에 있어서,
    상기 초기 멀티태스크 처리 모델은 초기 특징점 추출 분기 및 초기 특징점 디스크립터 맵 계산 분기를 포함하며,
    상기 훈련 모듈은,
    상기 제1 샘플 이미지, 상기 제2 샘플 이미지 및 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 특징점 페어의 라벨을 이용하여, 상기 초기 특징점 추출 분기 및 상기 초기 특징점 디스크립터 맵 계산 분기를 훈련하여, 상기 멀티태스크 처리 모델 중의 초기 특징점 추출 분기 및 특징점 디스크립터 맵 계산 분기를 얻기 위한 제1 훈련 유닛을 포함하는 멀티태스크 처리 모델의 훈련 장치.
  31. 청구항29 또는 청구항30에 있어서,
    상기 초기 멀티태스크 처리 모델은 초기 조밀 디스크립터 맵 계산 분기를 포함하며,
    상기 훈련 모듈은,
    상기 제1 샘플 이미지, 상기 제2 샘플 이미지 및 상기 제1 샘플 이미지와 상기 제2 샘플 이미지 사이의 매칭 픽셀 페어의 라벨을 이용하여 상기 초기 조밀 디스크립터 맵 계산 분기를 훈련하여, 상기 멀티태스크 처리 모델 중의 조밀 디스크립터 맵 계산 분기를 얻기 위한 제2 훈련 유닛을 포함하는 멀티태스크 처리 모델의 훈련 장치.
  32. 청구항29 또는 청구항30에 있어서,
    상기 초기 멀티태스크 처리 모델은 초기 특징점 분류 분기를 더 포함하고,
    상기 훈련 모듈은,
    타깃 샘플 이미지, 상기 타깃 샘플 이미지의 특징점 라벨 및 상기 타깃 샘플 이미지의 클래스 라벨을 이용하여, 상기 초기 특징점 분류 분기를 훈련하여, 상기 멀티태스크 처리 모델의 특징점 분류 분기를 얻기 위한 제3 훈련 유닛을 포함하며, 상기 타깃 샘플 이미지는 상기 제1 샘플 이미지 및 상기 제2 샘플 이미지 중 적어도 하나를 포함하고, 상기 타깃 샘플 이미지의 상기 특징점 라벨은 상기 타깃 샘플 이미지의 픽셀 포인트가 특징점인 확율값을 나타내기 위한 것이며, 상기 타깃 샘플 이미지의 상기 클래스 라벨은 상기 픽셀 포인트의 클래스를 나타내기 위한 것인 멀티태스크 처리 모델의 훈련 장치.
  33. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 청구항1 내지 청구항3 및 청구항7 내지 청구항11 중 어느 한 항에 따른 이미지 처리 방법, 또는, 청구항15 또는 청구항16에 따른 멀티태스크 처리 모델의 훈련 방법을 실행할 수 있게 하는 전자기기.
  34. 컴퓨터로 하여금 청구항1 내지 청구항3 및 청구항7 내지 청구항11 중 어느 한 항에 따른 이미지 처리 방법, 또는, 청구항15 또는 청구항16에 따른 멀티태스크 처리 모델의 훈련 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장된 비휘발성 컴퓨터 판독 가능 저장매체.
  35. 저장매체에 저장되어 있으며,
    프로세서에 의해 실행될 경우, 청구항1 내지 청구항3 및 청구항7 내지 청구항11 중 어느 한 항에 따른 이미지 처리 방법, 또는, 청구항15 또는 청구항16에 따른 멀티태스크 처리 모델의 훈련 방법을 실현하는 컴퓨터 프로그램.
  36. 청구항33에 따른 전자기기를 포함하는 자율주행 차량.
KR1020220189301A 2021-12-29 2022-12-29 이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램 KR20230026296A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111635804.5 2021-12-29
CN202111635804.5A CN114332509B (zh) 2021-12-29 2021-12-29 图像处理方法、模型训练方法、电子设备及自动驾驶车辆

Publications (1)

Publication Number Publication Date
KR20230026296A true KR20230026296A (ko) 2023-02-24

Family

ID=81017038

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220189301A KR20230026296A (ko) 2021-12-29 2022-12-29 이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US20230162474A1 (ko)
EP (1) EP4174789A1 (ko)
JP (1) JP2023036795A (ko)
KR (1) KR20230026296A (ko)
CN (1) CN114332509B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993996B (zh) * 2023-09-08 2024-01-12 腾讯科技(深圳)有限公司 对图像中的对象进行检测的方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526944B (zh) * 2008-12-23 2011-10-12 广州乐庚信息科技有限公司 图像检索比对方法
US20170337682A1 (en) * 2016-05-18 2017-11-23 Siemens Healthcare Gmbh Method and System for Image Registration Using an Intelligent Artificial Agent
CN110177278B (zh) * 2019-05-24 2021-04-06 北京迈格威科技有限公司 一种帧间预测方法、视频编码方法及装置
CN110599586A (zh) * 2019-08-06 2019-12-20 湖北亿咖通科技有限公司 一种半稠密场景重建方法、装置、电子设备及存储介质
CN110705365A (zh) * 2019-09-06 2020-01-17 北京达佳互联信息技术有限公司 一种人体关键点检测方法、装置、电子设备及存储介质
US11475590B2 (en) * 2019-09-12 2022-10-18 Nec Corporation Keypoint based pose-tracking using entailment
CN110927743A (zh) * 2019-12-05 2020-03-27 武汉理工大学 一种基于多线激光点云极化表征的智能车定位方法
CN111652240B (zh) * 2019-12-18 2023-06-27 南京航空航天大学 一种基于cnn的图像局部特征检测与描述方法
US11830253B2 (en) * 2020-04-14 2023-11-28 Toyota Research Institute, Inc. Semantically aware keypoint matching
CN111583340B (zh) * 2020-04-28 2023-03-31 西安交通大学 基于卷积神经网络降低单目相机位姿估计误差率的方法
CN112784743B (zh) * 2021-01-21 2023-08-04 北京百度网讯科技有限公司 关键点的识别方法、装置及存储介质
CN113052311B (zh) * 2021-03-16 2024-01-19 西北工业大学 具有跳层结构的特征提取网络及特征和描述子生成的方法
CN113012208B (zh) * 2021-03-22 2024-05-17 上海应用技术大学 多视角遥感图像配准方法及系统
CN113157962B (zh) * 2021-04-14 2022-09-13 杭州灵伴科技有限公司 图像检索方法、电子装置和存储介质

Also Published As

Publication number Publication date
CN114332509B (zh) 2023-03-24
CN114332509A (zh) 2022-04-12
EP4174789A1 (en) 2023-05-03
JP2023036795A (ja) 2023-03-14
US20230162474A1 (en) 2023-05-25

Similar Documents

Publication Publication Date Title
JP7218805B2 (ja) ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11940803B2 (en) Method, apparatus and computer storage medium for training trajectory planning model
US20210065393A1 (en) Method for stereo matching using end-to-end convolutional neural network
JP7273129B2 (ja) 車線検出方法、装置、電子機器、記憶媒体及び車両
CN109712071B (zh) 基于航迹约束的无人机图像拼接与定位方法
CN112381828B (zh) 基于语义和深度信息的定位方法、装置、介质与设备
WO2022257602A1 (zh) 视频目标分割方法、装置、存储介质及电子设备
CN114863229A (zh) 图像分类方法和图像分类模型的训练方法、装置
KR20230026296A (ko) 이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램
KR20230026962A (ko) 장애물 검출 방법, 장치, 전자 기기 및 자율주행 차량
Feng et al. Using appearance to predict pedestrian trajectories through disparity-guided attention and convolutional LSTM
Yi et al. Elanet: effective lightweight attention-guided network for real-time semantic segmentation
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN113379719A (zh) 道路缺陷检测方法、装置、电子设备和存储介质
CN113628216A (zh) 模型训练方法、图像分割方法、装置及相关产品
CN117745944A (zh) 预训练模型确定方法、装置、设备以及存储介质
Zhang et al. Online vehicle trajectory compression algorithm based on motion pattern recognition
CN112085842A (zh) 深度值确定方法及装置、电子设备和存储介质
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN115908992A (zh) 双目立体匹配的方法、装置、设备以及存储介质
CN111553921B (zh) 一种基于通道信息共享残差模块的实时语义分割方法
CN114119974A (zh) 基于改进PSPNet的语义分割模型
CN113763468A (zh) 一种定位方法、装置、系统及存储介质
CN115830408B (zh) 伪标签生成方法、装置、设备以及存储介质