KR20210012004A - 이미지 처리 방법 및 장치, 전자 기기와 기억 매체 - Google Patents

이미지 처리 방법 및 장치, 전자 기기와 기억 매체 Download PDF

Info

Publication number
KR20210012004A
KR20210012004A KR1020207036987A KR20207036987A KR20210012004A KR 20210012004 A KR20210012004 A KR 20210012004A KR 1020207036987 A KR1020207036987 A KR 1020207036987A KR 20207036987 A KR20207036987 A KR 20207036987A KR 20210012004 A KR20210012004 A KR 20210012004A
Authority
KR
South Korea
Prior art keywords
feature
stage
scale
feature maps
encoding
Prior art date
Application number
KR1020207036987A
Other languages
English (en)
Other versions
KR102436593B1 (ko
Inventor
쿤린 양
쿤 얀
준 호우
시아오총 차이
슈아이 이
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210012004A publication Critical patent/KR20210012004A/ko
Application granted granted Critical
Publication of KR102436593B1 publication Critical patent/KR102436593B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체에 관한 것으로, 상기 방법은 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것과, M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하는 것과, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것을 포함하는 것으로, 본 발명의 실시예에 의하면, 예측 결과의 품질 및 로버스트성을 향상시킬 수 있다.

Description

이미지 처리 방법 및 장치, 전자 기기와 기억 매체
본원은 2019년 7월 18일에 중국 특허청에 출원된, 출원번호가 201910652028. 6이고, 발명의 명칭이 「이미지 처리 방법 및 장치, 전자 기기 및 기억 매체」인 중국 특허출원의 우선권을 주장하고, 그 내용 전체가 원용에 의해 본 발명에 포함된다.
본 발명은 컴퓨터 테크놀로지의 분야에 관한 것으로, 특히 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체에 관한 것이다.
인공 지능은 기술의 계속적인 발전에 수반하여 컴퓨터 비전, 음성 인식 등 모든 것에 있어서 우수한 효과를 거두고 있다. 장면 내의 대상물(예를 들면, 보행자, 차량 등)을 식별하는 태스크(task)에서는 장면 내의 대상물의 수나 분포 상황 등을 예측하는 것이 필요로 되는 경우가 있다.
본 발명은 이미지 처리의 발명을 제안하는 것이다.
본 발명의 일 측면에서는 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것과, M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운(scale-down) 및 멀티스케일(multi-scale) 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하는 것과, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업(scale-up) 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것을 포함하며, 여기에서 M, N은 1보다 큰 정수인 이미지 처리 방법을 제공한다.
하나의 가능한 실시형태에서는 M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 부호화 후의 복수의 특징맵을 취득하는 것은 제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하는 것과, 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것과, 제M 단의 부호화 네트워크에 의해 제M-1 단의 부호화 후의 M개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제M 단의 부호화 후의 M+1개의 특징맵을 취득하는 것을 포함하며, 여기에서 m은 정수로 1<m<M이다.
하나의 가능한 실시형태에서는 제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵을 취득하는 것은 상기 제1 특징맵을 스케일 다운하고, 제2 특징맵을 취득하는 것과, 상기 제1 특징맵과 상기 제2 특징맵을 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, 스케일이 제m-1 단의 부호화 후의 m개의 특징맵의 스케일보다도 작은 m+1번째의 특징맵을 취득하는 것과, 상기 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, m+1번째의 특징맵을 취득하는 것은 제m 단의 부호화 네트워크의 합성곱(convolution) 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일이 상기 m+1번째의 특징맵의 스케일과 동일한 스케일 다운 후의 m개의 특징맵을 취득하는 것과, 상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, 상기 m+1번째의 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 제m 단의 부호화 네트워크의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하는 것과, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 상기 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함하고, 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드(stride)가 2이고, 상기 특징 최적화 서브 네트워크는 적어도 2개의 제2 합성곱층 및 잔차층을 포함하고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이고, 상기 m+1개의 융합 서브 네트워크는 최적화 후의 m+1개의 특징맵에 대응한다.
하나의 가능한 실시형태에서는 m+1개의 융합 서브 네트워크 내의 k번째의 융합 서브 네트워크의 경우, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1 개의 특징맵을 스케일 다운하고, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일 다운 후의 k-1개의 특징맵을 취득하는 것과, 및/또는 업샘플링층 및 제3 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 작은 m+1-k개의 특징맵에 대해 스케일업 및 채널 조정을 행하여, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일업 후의 m+1-k개의 특징맵을 취득하는 것을 포함하며, 여기에서 k는 정수로 1≤k≤m+1이고, 상기 제3 합성곱층의 합성곱 커널 사이즈는 1×1이다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 상기 스케일 다운 후의 k-1개의 특징맵, 상기 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵 중 적어도 2항을 융합시키고, 제m 단의 부호화 후의 k번째의 특징맵을 취득하는 것을 추가로 포함한다.
하나의 가능한 실시형태에서는 N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것은 제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하고, 제1 단의 복호화 후의 M개의 특징맵을 취득하는 것과, 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것과, 제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것을 포함하며, 여기에서 n은 정수로 1<n<N≤M이다.
하나의 가능한 실시형태에서는 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것은 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것과, 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것은 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하는 것과, 상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것을 포함한다.
하나의 가능한 실시형태에서는 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것은 제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하는 것과, 제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것은 제n 단의 복호화 네트워크의 M-n+1개의 제2 융합 서브 네트워크에 의해 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하는 것과, 제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 상기 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것은 상기 제N 단의 복호화 후의 대상 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 예측 밀도맵을 취득하는 것과, 상기 예측 밀도맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것을 포함한다.
하나의 가능한 실시형태에서는 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것은 상기 특징 추출 네트워크의 하나 이상의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵을 취득하는 것과, 상기 특징 추출 네트워크의 하나 이상의 제2 합성곱층에 의해 합성곱 후의 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것을 포함한다.
하나의 가능한 실시형태에서는 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이다.
하나의 가능한 실시형태에서는 복수의 라벨이 첨부된 샘플 이미지를 포함하는 미리 설정된 트레이닝군에 기초하여, 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하는 것을 추가로 포함한다.
본 발명의 다른 측면에서는 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하기 위한 특징 추출 모듈과, M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하기 위한 부호화 모듈과, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하기 위한 복호화 모듈을 포함하며, 여기에서 M, N은 1보다 큰 정수인 이미지 처리 장치를 제공한다.
하나의 가능한 실시형태에서는 상기 부호화 모듈은 제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하기 위한 제1 부호화 서브 모듈과, 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하기 위한 제2 부호화 서브 모듈과, 제M 단의 부호화 네트워크에 의해 제M-1 단의 부호화 후의 M개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제M 단의 부호화 후의 M+1개의 특징맵을 취득하기 위한 제3 부호화 서브 모듈을 포함하며, 여기에서 m은 정수로 1<m<M 이다.
하나의 가능한 실시형태에서는 상기 제1 부호화 서브 모듈은 상기 제1 특징맵을 스케일 다운하고, 제2 특징맵을 취득하기 위한 제1 축소 서브 모듈과, 상기 제1 특징맵과 상기 제2 특징맵을 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하기 위한 제1 융합 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제2 부호화 서브 모듈은 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, 스케일이 제m-1 단 부호화 후의 m개 특징맵의 스케일보다도 작은 m+1번째의 특징맵을 취득하기 위한 제2 축소 서브 모듈과, 상기 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하기 위한 제2 융합 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제2 축소 서브 모듈은 제m 단의 부호화 네트워크의 합성곱 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일이 상기 m+1번째의 특징맵의 스케일과 동일한 스케일 다운 후의 m개의 특징맵을 취득하고, 상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, 상기 m+1번째의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 제2 융합 서브 모듈은 제m 단의 부호화 네트워크의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하고, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함하고, 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 특징 최적화 서브 네트워크는 적어도 2개의 제2 합성곱층 및 잔차층을 포함하고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이고, 상기 m+1개의 융합 서브 네트워크는 최적화 후의 m+1개의 특징맵에 대응한다.
하나의 가능한 실시형태에서는 m+1개의 융합 서브 네트워크 내의 k번째의 융합 서브 네트워크의 경우, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1개의 특징맵을 스케일 다운하고, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일 다운 후의 k-1개의 특징맵을 취득하는 것과, 및/또는 업샘플링층 및 제3 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 작은 m+1-k개의 특징맵에 대해 스케일업 및 채널 조정을 행하여, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일업 후의 m+1-k개의 특징맵을 취득하는 것을 포함하며, 여기에서 k는 정수로 1≤k≤m+1이고, 상기 제3 합성곱층의 합성곱 커널 사이즈는 1×1이다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 상기 스케일 다운 후의 k-1개의 특징맵, 상기 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵 중 적어도 2항을 융합시키고, 제m 단의 부호화 후의 k번째의 특징맵을 취득하는 것을 추가로 포함한다.
하나의 가능한 실시형태에서는 상기 복호화 모듈은 제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하고, 제1 단의 복호화 후의 M개의 특징맵을 취득하기 위한 제1 복호화 서브 모듈과, 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하기 위한 제2 복호화 서브 모듈과, 제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하기 위한 제3 복호화 서브 모듈을 포함하며, 여기에서 n은 정수로 1<n<N≤M이다.
하나의 가능한 실시형태에서는 상기 제2 복호화 서브 모듈은 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하기 위한 확대 서브 모듈과, 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하기 위한 제3 융합 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제3 복호화 서브 모듈은 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하기 위한 제4 융합 서브 모듈과, 상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하기 위한 결과 결정 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 확대 서브 모듈은 제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하며, 제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 스케일업 후의 M-n+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 제3 융합 서브 모듈은 제n 단의 복호화 네트워크의 M-n+1개의 제2 융합 서브 네트워크에 의해 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하고, 제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 상기 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 결과 결정 서브 모듈은 상기 제N 단의 복호화 후의 대상 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 예측 밀도맵을 취득하고, 상기 예측 밀도맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정한다.
하나의 가능한 실시형태에서는 상기 특징 추출 모듈은 상기 특징 추출 네트워크의 하나 이상의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵을 취득하기 위한 합성 서브 모듈과, 상기 특징 추출 네트워크의 하나 이상의 제2 합성곱층에 의해 합성곱 후의 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하기 위한 최적화 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이다.
하나의 가능한 실시형태에서는 상기 장치는 복수의 라벨이 부착된 샘플 이미지를 포함하는 미리 설정된 트레이닝군에 기초하여, 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하기 위한 트레이닝 서브 모듈을 추가로 포함한다.
본 발명의 다른 측면에서는 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서는 상기 메모리에 기억되어 있는 명령을 불러냄으로써, 상기 방법을 실행하도록 구성되는 전자 기기를 제공한다.
본 발명의 다른 측면에서는 컴퓨터 프로그램 명령을 기억하고 있는 컴퓨터 판독 가능 기억 매체이고, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 제공한다.
본 발명의 다른 측면에서는 컴퓨터 판독 가능한 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드는 전자 기기에 있어서 실행되면 상기 전자 기기의 프로세서에 상기 방법을 실행시키는 컴퓨터 프로그램을 제공한다.
본 발명의 실시예에 있어서, M단의 부호화 네트워크에 의해 이미지의 특징맵에 대해 스케일 다운 및 멀티스케일 융합을 행하고, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합을 행함으로써, 부호화 및 복호화 과정에 있어서 멀티스케일의 글로벌 정보와 로컬 정보를 복수회 융합시켜, 보다 유효한 멀티스케일 정보를 보류하고, 예측 결과의 품질 및 로버스트성을 향상시킬 수 있다.
이상의 일반적인 설명 및 후술하는 상세한 설명은 예시적·해석적인 것에 불과하며, 본 발명을 제한하는 것은 아님을 이해해야 한다. 이하에 도면을 참조하면서 예시적인 실시예를 상세하게 설명함으로써 본 발명의 기타 특징 및 측면이 보다 명확해진다.
여기에서 본 명세서의 일부로서 포함되는 도면은 본 발명에 적합한 실시예를 나타내고, 명세서와 함께 본 발명의 기술적 해결 수단의 설명에 사용된다.
도 1은 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도를 나타낸다.
도 2a는 본 발명의 실시예에 따른 이미지 처리 방법의 멀티스케일 융합 순서의 모식도를 나타낸다.
도 2b는 본 발명의 실시예에 따른 이미지 처리 방법의 멀티스케일 융합 순서의 모식도를 나타낸다.
도 2c는 본 발명의 실시예에 따른 이미지 처리 방법의 멀티스케일 융합 순서의 모식도를 나타낸다.
도 3는 본 발명의 실시예에 따른 이미지 처리 방법의 네트워크 구조의 모식도를 나타낸다.
도 4는 본 발명의 실시예에 따른 이미지 처리 장치의 블록도를 나타낸다.
도 5는 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
도 6은 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
이하에 도면을 참조하면서 본 발명의 여러 가지 예시적 실시예, 특징 및 측면을 상세하게 설명한다. 도면에 있어서, 동일한 부호는 동일 또는 유사한 기능의 요소를 나타낸다. 도면에 있어서 실시예의 여러 측면을 나타내지만, 특별히 언급이 없는 한, 비례에 따라 도면을 그릴 필요가 없다.
여기서의 용어「예시적」이란 「예, 실시예로서 사용되는 것 또는 설명적인 것」을 의미한다. 여기에서「예시적」으로 설명되는 어떠한 실시예도 다른 실시예보다 바람직하거나 또한 우수한 것으로 이해해서는 안된다.
본 명세서에서의 용어 「및/또는」은 단순히 관련 대상과의 관련 관계를 기술하는 것이고, 3개의 관계가 존재 가능함을 나타내며, 예를 들면, A 및/또는 B는 A만이 존재하고, A와 B 전부가 존재하고, B만이 존재하는 3개의 경우를 나타내도 된다. 또한, 본 명세서에서의 용어 「하나 이상」은 복수 중 어느 하나, 또는 복수 중 적어도 2개의 임의의 조합을 나타내고, 예를 들면, A, B, C 중 하나 이상을 포함하는 것은 A, B 및 C로 이루어지는 집합에서 선택된 어느 하나 또는 복수의 요소를 포함하는 것을 나타내도 된다.
또한, 본 발명을 보다 효과적으로 설명하기 위해, 이하의 구체적인 실시형태에서 다양한 구체적인 상세를 나타낸다. 당업자라면 본 발명은 어떠한 구체적인 상세가 없어도 동일하게 실시할 수 있는 것으로 이해해야 한다. 일부 실시예에서는 본 발명의 취지를 강조하기 위해 당업자가 숙지하고 있는 방법, 수단, 요소 및 회로에 대해 상세한 설명을 하지 않는다.
도 1은 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도를 나타낸다. 도 1에 나타내는 바와 같이, 상기 이미지 처리 방법은 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 단계(S11)와, M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하는 단계(S12)와, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 단계(S13)를 포함하며, 여기에서 M, N은 1보다 큰 정수이다.
하나의 가능한 실시형태에서는 상기 이미지 처리 방법은 사용자측 장치(User Equipment, UE), 휴대 기기, 사용자 단말, 단말, 셀룰러 폰, 코드리스 전화기, 퍼스널 디지털 어시스턴트(Personal Digital Assistant, PDA), 휴대용 기기, 계산 장치, 차재 장치, 웨어러블 장치 등의 단말 장치, 또는 서버 등의 전자 기기에 의해 실행되어도 되고, 상기 방법은 프로세서에 의해 메모리에 기억되어 있는 컴퓨터 판독 가능한 명령을 불러 내는 형태로 실현되어도 된다. 또는 서버에 의해 상기 방법을 실행해도 된다.
하나의 가능한 실시형태에서는 처리 대상이 되는 이미지는 이미지 취득 장치(예를 들면, 카메라)에 의해 촬영된 감시 영역(예를 들면, 교차로, 쇼핑몰 등의 영역)의 이미지이여도 되고, 다른 방법으로 취득된 이미지(예를 들면, 네트워크를 통해 다운로드된 이미지)여도 된다. 처리 대상이 되는 이미지에는 일정 수의 대상물(예를 들면, 보행자, 차량, 고객 등)이 포함되어도 된다. 본 발명에서는 처리 대상이 되는 이미지의 종류, 취득 방법 및 이미지에 있어서의 대상물의 종류에 대해서는 한정하지 않는다.
하나의 가능한 실시형태에서는 뉴럴 네트워크(예를 들면, 특징 추출 네트워크, 부호화 네트워크 및 복호화 네트워크를 포함함)에 의해 처리 대상이 되는 이미지을 해석하여 처리 대상이 되는 이미지에 있어서의 대상물의 수, 분포 상황 등의 정보를 예측해도 된다. 상기 뉴럴 네트워크는 예를 들면, 합성곱 뉴럴 네트워크를 포함해도 되고, 본 발명에서는 뉴럴 네트워크의 구체적인 종류에 대해서는 한정하지 않는다.
하나의 가능한 실시형태에서는 단계(S11)에 있어서, 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 처리 대상이 되는 이미지의 제1 특징맵을 취득하도록 해도 된다. 상기 특징 추출 네트워크는 적어도 합성곱층을 포함하고, 스트라이드를 갖는 합성곱층(스트라이드>1)에 의해 이미지 또는 특징맵의 스케일을 축소하고, 스트라이드를 갖지 않는 합성곱층(스트라이드=1)에 의해 특징맵을 최적화하도록 해도 된다. 특징 추출 네트워크에 의한 처리 후, 제1 특징맵이 취득된다. 본 발명에서는 특징 추출 네트워크의 네트워크 구조에 대해서는 한정하지 않는다.
특징맵의 스케일이 클수록, 처리 대상이 되는 이미지의 로컬 정보가 많이 포함되고, 특징맵의 스케일이 작을수록, 처리 대상이 되는 이미지의 글로벌 정보가 많이 포함되므로, 멀티스케일에 있어서 글로벌 정보와 로컬 정보를 융합시켜, 보다 유효한 멀티스케일의 특징을 추출할 수 있다.
하나의 가능한 실시형태에서는 단계(S12)에 있어서, M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득한다. 이에 의해, 각 스케일에 있어서 글로벌 정보와 로컬 정보를 융합시켜, 추출된 특징의 유효성을 향상시킬 수 있다.
하나의 가능한 실시형태에서는 M단의 부호화 네트워크에 있어서의 각 단의 부호화 네트워크는 합성곱층, 잔차층, 업샘플링층, 융합층 등을 포함해도 된다. 제1 단의 부호화 네트워크에 대해, 제1 단의 부호화 네트워크의 합성곱층(스트라이드>1)에 의해 제1 특징맵을 스케일 다운하고, 스케일 다운 후의 특징맵(제2 특징맵)을 취득하도록 해도 된다. 제1 단의 부호화 네트워크의 합성곱층(스트라이드=1) 및/또는 잔차층에 의해 제1 특징맵과 제2 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 제1 특징맵과 제2 특징맵을 취득한다. 또한, 제1 단의 부호화 네트워크의 업샘플링층, 합성곱층(스트라이드>1) 및/또는 융합층 등에 의해 특징 최적화 후의 제1 특징맵과 제2 특징맵을 각각 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵을 취득한다.
하나의 가능한 실시형태에서는 제1 단의 부호화 네트워크와 유사한 것과 같이, M단의 부호화 네트워크에 있어서의 각 단의 부호화 네트워크에 의해, 순차적으로 직전의 1단의 부호화 후의 복수의 특징맵에 대해 스케일 다운 및 멀티스케일 융합을 행하고, 글로벌 정보와 로컬 정보를 복수회 융합시킴으로써, 추출된 특징의 유효성을 더욱 향상시킬 수 있다.
하나의 가능한 실시형태에서는 M단의 부호화 네트워크에 의한 처리 후, M단의 부호화 후의 복수의 특징맵이 취득된다. 단계(S13)에 있어서, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 처리 대상이 되는 이미지의 N단의 복호화 후의 특징맵을 취득하여 처리 대상이 되는 이미지의 예측 결과를 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 N단의 복호화 네트워크에 있어서의 각 단의 복호화 네트워크는 융합층, 역합성곱층, 합성곱층, 잔차층, 업샘플링층 등을 포함해도 된다. 제1 단의 복호화 네트워크에 대해, 제1 단의 복호화 네트워크의 융합층에 의해 부호화 후의 복수의 특징맵을 융합시키고, 융합 후의 복수의 특징맵을 취득하도록 해도 된다. 또한, 역합성곱층에 의해 융합 후의 복수의 특징맵을 스케일업하고, 스케일업 후의 복수의 특징맵을 취득한다. 융합층, 합성곱층(스트라이드=1) 및/또는 잔차층 등에 의해 복수의 특징맵에 대해 각각 융합 및 최적화를 행하여, 제1 단의 복호화 후의 복수의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 제1 단의 복호화 네트워크와 유사한 것과 같이, N단의 복호화 네트워크에 있어서의 각 단의 복호화 네트워크에 의해, 각 단의 복호화 네트워크에 의해 취득된 특징맵의 수가 순차적으로 감소하도록 직전의 1단의 복호화 후의 특징맵에 대해 스케일업 및 멀티스케일 융합을 순차적으로 행하여, 제N 단의 복호화 네트워크에 의해 처리 대상이 되는 이미지의 스케일과 일치하는 밀도맵(예를 들면, 대상물의 분포 밀도맵)을 취득하여, 예측 결과를 결정한다. 이와 같이 스케일업 과정에 있어서 글로벌 정보와 로컬 정보를 복수회 융합시킴으로써 예측 결과의 품질을 향상시킬 수 있다.
본 발명의 실시예에 있어서, M단의 부호화 네트워크에 의해 이미지의 특징맵에 대해 스케일 다운 및 멀티스케일 융합을 행하고, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합을 행함으로써, 부호화 및 복호화 과정에 있어서 멀티스케일의 글로벌 정보와 로컬 정보를 복수회 융합시켜, 보다 유효한 멀티스케일 정보를 보류하고, 예측 결과의 품질 및 로버스트성을 향상시킬 수 있다.
하나의 가능한 실시형태에서는 단계(S11)는 상기 특징 추출 네트워크의 하나 이상의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵을 취득하는 것과, 상기 특징 추출 네트워크의 하나 이상의 제2 합성곱층에 의해 합성곱 후의 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것을 포함해도 된다.
예를 들면, 특징 추출 네트워크는 하나 이상의 제1 합성곱층과 하나 이상의 제2 합성곱층을 포함해도 된다. 제1 합성곱층은 스트라이드를 가지며(스트라이드>1), 이미지 또는 특징맵의 스케일을 축소하기 위한 합성곱층이고, 제2 합성곱층은 스트라이드를 갖지 않으며(스트라이드=1), 특징맵을 최적화하기 위한 합성곱층이다.
하나의 가능한 실시형태에서는 특징 추출 네트워크는 연속되는 2개의 제1 합성곱층을 포함해도 되고, 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이다. 연속되는 2개의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱층을 행한 후, 합성곱 후의 특징맵이 취득되고, 상기 특징맵의 폭과 높이는 각각 처리 대상이 되는 이미지의 1/4이 된다. 또한, 당업자는 실제의 상황에 따라 제1 합성곱층의 수, 합성곱 커널 사이즈 및 스트라이드를 설정할 수 있으며, 본 발명에서는 한정하지 않는다.
하나의 가능한 실시형태에서는 특징 추출 네트워크는 연속되는 3개의 제2 합성곱층을 포함해도 되고, 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이다. 제1 합성곱층에 의해 합성된 후의 특징맵을 연속하는 3개의 제1 합성곱층에 의해 최적화한 후, 처리 대상이 되는 이미지의 제1 특징맵이 취득된다. 상기 제1 특징맵에서 스케일은 제1 합성곱층에 의해 합성된 후의 특징맵의 스케일과 동일하고, 즉 제1 특징맵의 폭과 높이는 각각 처리 대상이 되는 이미지의 1/4이 된다. 또한, 당업자는 실제의 상황에 따라 제2 합성곱층의 수 및 합성곱 커널 사이즈를 설정할 수 있으며, 본 발명에서는 한정하지 않는다.
이와 같은 방법에 의하면, 처리 대상이 되는 이미지의 스케일 다운 및 최적화를 실현하고, 특징 정보를 유효하게 추출할 수 있다.
하나의 가능한 실시형태에서는 단계(S12)는 제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하는 것과, 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것과, 제M 단의 부호화 네트워크에 의해 제M-1 단의 부호화 후의 M개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제M 단의 부호화 후의 M+1개의 특징맵을 취득하는 것을 포함해도 되며, 여기에서 m은 정수로 1<m<M이다.
예를 들면, M단의 부호화 네트워크에 있어서의 각 단의 부호화 네트워크에 의해, 순차적으로, 직전의 1단의 부호화 후의 특징맵을 처리해도 되고, 각 단의 부호화 네트워크는 합성곱층, 잔차층, 업샘플링층, 융합층 등을 포함해도 된다. 제1 단의 부호화 네트워크에 대해, 제1 단의 부호화 네트워크에 의해 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵을 취득하는 단계는 상기 제1 특징맵을 스케일 다운하고, 제2 특징맵을 취득하는 것과, 상기 제1 특징맵과 상기 제2 특징맵을 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하는 것을 포함해도 된다.
예를 들면, 제1 단의 부호화 네트워크의 제1 합성곱층(합성곱 커널 사이즈가 3×3, 스트라이드가 2)에 의해 제1 특징맵에 대해 스케일 다운을 행하여, 스케일이 제1 특징맵의 스케일보다도 작은 제2 특징맵을 취득하도록 해도 된다. 제2 합성곱층(합성곱 커널 사이즈가 3×3, 스트라이드가 1) 및/또는 잔차층에 의해 제1 특징맵과 제2 특징맵을 각각 최적화하고, 최적화 후의 제1 특징맵과 제2 특징맵을 취득한다. 융합층에 의해 제1 특징맵과 제2 특징맵에 대해 각각 멀티스케일 융합을 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵을 취득한다.
하나의 가능한 실시형태에서는 제2 합성곱층에 의해 특징맵을 직접 최적화해도 되고, 제2 합성곱층 및 잔차층으로 이루지는 기본 블록(basic block)에 의해 특징맵을 최적화해도 된다. 상기 기본 블록은 최적화를 행하는 기본 유닛으로서, 연속되는 2개의 제2 합성곱층과 잔차층을 포함하며, 잔차층에 의해, 입력된 특징맵과 합성곱에 의해 취득된 특징맵을 가산하여 결과로서 출력하도록 해도 된다. 본 발명에서는 최적화의 구체적인 방법에 대해서는 한정하지 않는다.
하나의 가능한 실시형태에서는 추출된 멀티스케일 특징의 유효성을 더욱 향상시키도록, 멀티스케일 융합 후의 제1 특징맵 및 제2 특징맵에 대해 최적화 및 융합을 재차 행하고, 재차 최적화 및 융합 후의 제1 특징맵 및 제2 특징맵을 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵으로 한다. 본 발명에서는 최적화 및 멀티스케일 융합의 횟수에 대해서는 한정하지 않는다.
하나의 가능한 실시형태에서는 M단의 부호화 네트워크에 있어서의 임의의 1단의 부호화 네트워크(제m 단의 부호화 네트워크이고, m은 정수로 1<m<M임)에 대해, 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 단계는 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, 스케일이 제m-1 단의 부호화 후의 m개의 특징맵의 스케일보다도 작은 m+1번째의 특징맵을 취득하는 것과, 상기 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것을 포함해도 된다.
하나의 가능한 실시형태에서는 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, m+1번째의 특징맵을 취득하는 단계는 제m 단의 부호화 네트워크의 합성곱 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일이 상기 m+1번째의 특징맵의 스케일과 동일한 스케일 다운 후의 m개의 특징맵을 취득하는 것과, 상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, 상기 m+1번째의 특징맵을 취득하는 것을 포함해도 된다.
예를 들면, 제m 단의 부호화 네트워크의 m개의 합성곱 서브 네트워크(각 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함함)에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일 다운 후의 m개의 특징맵을 취득하도록 해도 된다. 상기 스케일 다운 후의 m개의 특징맵은 스케일이 동일하고, 또한 제m-1 단의 부호화 후의 m번째의 특징맵의 스케일보다도 작다(m+1번째의 특징맵의 스케일과 동일하다). 융합층에 의해 상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, m+1번째의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 각 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함하고, 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 특징맵을 스케일 다운하는데 사용된다. 합성곱 서브 네트워크의 제1 합성곱층의 수는 대응하는 특징맵의 스케일과 관련되어 있고, 예를 들면, 제m-1 단의 부호화 후의 1번째의 특징맵의 스케일이 4x(폭과 높이는 각각 처리 대상이 되는 이미지의 1/4)이고, 생성되는 m개의 특징맵의 스케일이 16x(폭과 높이는 각각 처리 대상이 되는 이미지의 1/16)일 경우에, 1번째의 합성곱 서브 네트워크는 2개의 제1 합성곱층을 포함한다. 또한, 당업자는 실제의 상황에 따라 합성곱 서브 네트워크의 제1 합성곱층의 수, 합성곱 커널 사이즈 및 스트라이드를 설정할 수 있고, 본 발명에서는 한정하지 않는다.
하나의 가능한 실시형태에서는 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 단계는 제m 단의 부호화 네트워크의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하는 것과, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것을 포함해도 된다.
하나의 가능한 실시형태에서는 융합층에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 멀티스케일 융합을 행하고, 융합 후의 m개의 특징맵을 취득하도록 해도 된다. m+1개의 특징 최적화 서브 네트워크(각 특징 최적화 서브 네트워크는 제2 합성곱층 및/또는 잔차층을 포함함)에 의해 융합 후의 m개의 특징맵과 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득한다. 그 후, m+1개의 융합 서브 네트워크에 의해 특징 최적화 후의 m+1개의 특징맵에 대해 각각 멀티스케일 융합을 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 m+1개의 특징 최적화 서브 네트워크(각 특징 최적화 서브 네트워크는 제2 합성곱층 및/또는 잔차층을 포함함)에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 직접 처리할 수도 있다. 즉, m+1개의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵과 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득한다. 그 후, m+1개의 융합 서브 네트워크에 의해 특징 최적화 후의 m+1개의 특징맵에 대해 각각 멀티스케일 융합을 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 추출된 멀티스케일 특징의 유효성을 더욱 향상시키도록, 멀티스케일 융합 후의 m+1개의 특징맵에 대해 특징 최적화 및 멀티스케일 융합을 재차 행하도록 해도 된다. 본 발명에서는 특징 최적화 및 멀티스케일 융합의 횟수에 대해서는 한정하지 않는다.
하나의 가능한 실시형태에서는 각 특징 최적화 서브 네트워크는 적어도 2개의 제2 합성곱층 및 잔차층을 포함해도 된다. 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이다. 예를 들면, 각 특징 최적화 서브 네트워크는 전부, 하나 이상의 기본 블록(연속되는 2개의 제2 합성곱층 및 잔차층)을 포함해도 된다. 각 특징 최적화 서브 네트워크의 기본 블록에 의해 제m-1 단의 부호화 후의 m개의 특징맵과 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하도록 해도 된다. 또한, 당업자는 실제의 상황에 따라 제2 합성곱층의 수 및 합성곱 커널 사이즈를 설정할 수 있고, 본 발명에서는 한정하지 않는다.
이와 같은 방법에 의하면, 추출된 멀티스케일 특징의 유효성을 더욱 향상시킬 수 있다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크는 각각 특징 최적화 후의 m+1개의 특징맵을 융합시키도록 해도 된다. m+1개의 융합 서브 네트워크 내의 k번째의 융합 서브 네트워크(k는 정수로 1≤k≤m+1)의 경우, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1개의 특징맵을 스케일 다운하고, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일 다운 후의 k-1개의 특징맵을 취득하는 것, 및/또는 업샘플링층 및 제3 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 작은 m+1-k개의 특징맵에 대해 스케일업 및 채널 조정을 행하여, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일업 후의 m+1-k개의 특징맵을 취득하는 것을 포함해도 되며, 상기 제3 합성곱층의 합성곱 커널 사이즈는 1×1이다.
예를 들면, 우선 k번째의 융합 서브 네트워크는 m+1개의 특징맵의 스케일을 특징 최적화 후의 k번째의 특징맵의 스케일로 조정하도록 해도 된다. 1<k<m+1의 경우, 특징 최적화 후의 k번째의 특징맵보다도 앞의 k-1개의 특징맵의 스케일은 전부 특징 최적화 후의 k번째의 특징맵보다도 크고, 예를 들면, k번째의 특징맵의 스케일은 16x(폭과 높이는 각각 처리 대상이 되는 이미지의 1/16)이고, k번째의 특징맵보다도 앞의 특징맵의 스케일은 4x와 8x이다. 이 경우, 하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1개의 특징맵을 스케일 다운하여, 스케일 다운 후의 k-1개의 특징맵을 취득하도록 해도 된다. 즉, 스케일이 4x와 8x인 특징맵의 각각을 16x의 특징맵으로 축소하기 위해 2개의 제1 합성곱층에 의해 4x의 특징맵을 스케일 다운하고, 1개의 제1 합성곱층에 의해 8x의 특징맵을 스케일 다운하도록 해도 된다. 이에 의해, 스케일 다운 후의 k-1개의 특징맵을 취득할 수 있다.
하나의 가능한 실시형태에서는 1<k<m+1의 경우, 특징 최적화 후의 k번째의 특징맵보다도 뒤의 m+1-k개의 특징맵의 스케일은 전부 특징 최적화 후의 k번째의 특징맵보다도 작고, 예를 들면, k번째의 특징맵의 스케일은 16x(폭과 높이는 각각 처리 대상이 되는 이미지의 1/16)이며, k번째의 특징맵보다도 뒤의 m+1-k개의 특징맵은 32x이다. 이 경우, 업샘플링층에 의해 32x의 특징맵을 스케일업하고, 제3 합성곱층(합성곱 커널 사이즈가 1×1)에 의해 스케일업 후의 특징맵에 대해 채널 조정을 행하여 스케일업 후의 특징맵의 채널수와 k번째의 특징맵의 채널수를 동일하게 하여 스케일이 16x인 특징맵을 취득하도록 해도 된다. 이에 의해, 스케일업 후의 m+1-k개의 특징맵을 취득할 수 있다.
하나의 가능한 실시형태에서는 k=1의 경우, 특징 최적화 후의 1번째의 특징맵보다도 뒤의 m개의 특징맵의 스케일은 전부 특징 최적화 후의 1번째의 특징맵보다도 작고, 뒤의 m개의 특징맵의 각각에 대해 스케일업 및 채널 조정을 행하여 뒤의 m개의 스케일업 후의 특징맵을 취득하도록 해도 된다. k=m+1의 경우, 특징 최적화 후의 m+1번째의 특징맵보다도 앞의 m개의 특징맵의 스케일은 전부 특징 최적화 후의 m+1번째의 특징맵보다도 크고, 앞의 m개의 특징맵의 각각을 스케일 다운하여 앞의 m개의 스케일 다운 후의 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 단계는 상기 스케일 다운 후의 k-1개의 특징맵, 상기 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵 중 적어도 2항을 융합시키고, 제m 단의 부호화 후의 k번째의 특징맵을 취득하는 것을 추가로 포함해도 된다.
예를 들면, k번째의 융합 서브 네트워크는 스케일 조정 후의 m+1개의 특징맵을 융합시키도록 해도 된다. 1<k<m+1의 경우, 스케일 조정 후의 m+1개의 특징맵은 스케일 다운 후의 k-1개의 특징맵, 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개 특징맵을 포함한다. 스케일 다운 후의 k-1개의 특징맵, 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵의 3자를 융합시켜(가산하여), 제m 단의 부호화 후의 k번째의 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 k=1의 경우, 스케일 조정 후의 m+1개의 특징맵은 특징 최적화 후의 1번째의 특징맵과 스케일업 후의 m개의 특징맵을 포함한다. 특징 최적화 후의 1번째의 특징맵과 스케일업 후의 m개의 특징맵의 양자를 융합시켜(가산하여), 제m 단의 부호화 후의 1번째의 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 k=m+1의 경우, 스케일 조정 후의 m+1개의 특징맵은 스케일 다운 후의 m개의 특징맵과 특징 최적화 후의 m+1번째의 특징맵을 포함한다. 스케일 다운 후의 m개의 특징맵과 특징 최적화 후의 m+1번째의 특징맵의 양자를 융합시켜(가산하여), 제m 단의 부호화 후의 m+1번째의 특징맵을 취득하도록 해도 된다.
도 2a, 도 2b 및 도 2c는 본 발명의 실시예에 따른 이미지 처리 방법의 멀티스케일 융합 순서의 모식도를 나타낸다. 도 2a, 도 2b 및 도 2c에서는 융합 대상이 되는 특징맵이 3개인 경우를 예로 설명한다.
도 2a에 나타내는 바와 같이, k=1의 경우, 2번째와 3번째의 특징맵 각각에 대해 스케일업(업샘플링) 및 채널 조정(1×1 합성곱)을 행하여, 1번째의 특징맵의 스케일 및 채널수와 동일한 2개의 특징맵을 취득하고, 나아가 이 3개의 특징맵을 가산하여 융합 후의 특징맵을 취득하도록 해도 된다.
도 2b에 나타내는 바와 같이, k=2의 경우, 1번째의 특징맵을 스케일 다운하고(합성곱 커널 사이즈가 3×3, 스트라이드가 2인 합성곱), 3번째의 특징맵에 대해 스케일업(업샘플링) 및 채널 조정(1×1 합성)을 행하여, 2번째의 특징맵의 스케일 및 채널수와 동일한 2개의 특징맵을 취득하고, 나아가 이 3개의 특징맵을 가산하여 융합 후의 특징맵을 취득하도록 해도 된다.
도 2c에 나타내는 바와 같이, k=3의 경우, 1번째와 2번째의 특징맵을 스케일 다운하도록 해도 된다(합성곱 커널 사이즈가 3×3, 스트라이드가 2인 합성곱). 1번째의 특징맵과 3번째의 특징맵의 스케일 차이가 4배이기 때문에, 2회의 합성곱(합성곱 커널 사이즈가 3×3, 스트라이드가 2)을 행하도록 해도 된다. 스케일 다운 에 의해 3번째의 특징맵의 스케일 및 채널수와 동일한 2개의 특징맵을 취득하고, 나아가 이 3개의 특징맵을 가산하여 융합 후의 특징맵을 취득하도록 해도 된다.
이와 같은 방법에 의하면, 스케일이 상이한 복수의 특징맵간의 멀티스케일 융합을 실현하고, 각 스케일에 있어서 글로벌 정보와 로컬 정보를 융합시켜, 보다 유효한 멀티스케일 특징을 추출할 수 있다.
하나의 가능한 실시형태에서는 M단의 부호화 네트워크에 있어서의 마지막 1단의 부호화 네트워크(제M 단의 부호화 네트워크)에 대해, 상기 제M 단의 부호화 네트워크는 제m 단의 부호화 네트워크의 구조와 유사해도 된다. 제M 단의 부호화 네트워크에 의한 제M-1 단의 부호화 후의 M개의 특징맵으로의 처리 순서도 제m 단의 부호화 네트워크에 의한 제m-1 단의 부호화 후의 m개의 특징맵으로의 처리 순서와 유사하므로, 여기에서 상세한 설명을 생략한다. 제M 단의 부호화 네트워크에 의한 처리 후, 제M 단의 부호화 후의 M+1개의 특징맵이 취득된다. 예를 들면, M=3의 경우, 스케일이 4x, 8x, 16x 및 32x의 4개의 특징맵을 취득할 수 있다. 본 발명에서는 M의 구체적인 수치에 대해서는 한정하지 않는다.
이와 같은 방법에 의하면, M단의 부호화 네트워크의 처리 순서 전체를 실현하고, 스케일이 상이한 복수의 특징맵을 취득하며, 처리 대상이 되는 이미지의 글로벌 특징 정보와 로컬 특징 정보를 보다 유효하게 추출할 수 있다.
하나의 가능한 실시형태에서는 단계(S13)는 제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하고, 제1 단의 복호화 후의 M개의 특징맵을 취득하는 것과, 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것과, 제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것을 포함해도 되며, 여기에서 n은 정수로 1<n<N≤M이다.
예를 들면, M단의 부호화 네트워크에 의한 처리 후, 제M 단의 부호화 후의 M+1개의 특징맵이 취득된다. N단의 복호화 네트워크에 있어서의 각 단의 복호화 네트워크에 의해 순차적으로 직전의 1단의 복호화 후의 특징맵을 처리하고, 각 단의 복호화 네트워크는 융합층, 역합성곱층, 합성곱층, 잔차층, 업샘플링층 등을 포함해도 된다. 제1 단의 복호화 네트워크에 대해 제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제1 단의 복호화 후의 M개의 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 N단의 복호화 네트워크에 있어서의 임의의 1단의 복호화 네트워크(제n 단의 복호화 네트워크이며, n은 정수로 1<n<N≤M)에 대해, 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하도록 해도 된다.
하나의 가능한 실시형태에서는 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 단계는 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것과, 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것을 포함해도 된다.
하나의 가능한 실시형태에서는 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하는 단계는 제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하는 것과, 제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것을 포함해도 된다.
예를 들면, 우선 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 멀티스케일 정보를 융합시킴과 함께 특징맵의 수를 줄이도록 해도 된다. M-n+2개의 특징맵 중의 앞의 M-n+1개의 특징맵에 대응하는 M-n+1개의 제1 융합 서브 네트워크를 설치해도 된다. 예를 들면, 융합 대상이 되는 특징맵은 스케일이 4x, 8x, 16x 및 32x인 4개의 특징맵을 포함하는 경우, 융합에 의해 스케일이 4x, 8x 및 16x인 3개의 특징맵을 취득하도록, 3개의 제1 융합 서브 네트워크를 설치하도록 해도 된다.
하나의 가능한 실시형태에서는 제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크의 네트워크 구조는 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크의 네트워크 구조와 유사해도 된다. 예를 들면, q번째의 제1 융합 서브 네트워크(1≤q≤M-n+1)에 대해, q번째의 제1 융합 서브 네트워크는 우선, M-n+2개의 특징맵의 스케일을 제n-1 단의 복호화 후의 q번째의 특징맵의 스케일로 조정하고, 나아가 스케일 조정 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 q번째의 특징맵을 취득한다. 이에 의해, 융합 후의 M-n+1개의 특징맵을 취득할 수 있다. 스케일 조정 및 융합의 구체적인 과정에 대해는 여기에서 상세한 설명을 생략한다.
하나의 가능한 실시형태에서는 제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 예를 들면, 스케일이 4x, 8x 및 16x인 3개의 융합 후의 특징맵을 2x, 4x 및 8x의 3개의 특징맵으로 확대하도록 해도 된다. 확대에 의해 스케일업 후의 M-n+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 단계는 제n 단의 복호화 네트워크의 M-n+1개의 제2 융합 서브 네트워크에 의해 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하는 것과, 제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 상기 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것을 포함해도 된다.
예를 들면, 스케일업 후의 M-n+1개의 특징맵을 취득한 후, M-n+1개의 제2 융합 서브 네트워크에 의해 상기 M-n+1개의 특징맵에 대해 각각 스케일 조정 및 융합을 행하고, 융합 후의 M-n+1개의 특징맵을 취득하도록 해도 된다. 스케일 조정 및 융합의 구체적인 과정에 대해는 여기에서 상세한 설명을 생략한다.
하나의 가능한 실시형태에서는 제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 각 특징 최적화 서브 네트워크는 전부 하나 이상의 기본 블록을 포함해도 된다. 특징 최적화에 의해 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득할 수 있다. 특징 최적화의 구체적인 과정에 대해는 여기에서 상세한 설명을 생략한다.
하나의 가능한 실시형태에서는 스케일이 상이한 글로벌 특징과 로컬 특징을 추가로 융합시키도록, 제n 단의 복호화 네트워크의 멀티스케일 융합 및 특징 최적화 과정을 복수회 반복해도 된다. 본 발명에서는 멀티스케일 융합 및 특징 최적화의 횟수에 대해서는 한정하지 않는다.
이와 같은 방법에 의하면, 복수의 스케일의 특징맵을 확대하고, 또한 동일하게 복수의 스케일의 특징맵 정보를 융합시킴으로써, 특징맵의 멀티스케일 정보를 보류하고, 예측 결과의 품질을 향상시킬 수 있다.
하나의 가능한 실시형태에서는 제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 단계는 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하는 것과, 상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것을 포함해도 된다.
예를 들면, 제N-1 단의 복호화 네트워크에 의한 처리 후, M-N+2개의 특징맵이 취득되고, 상기 M-N+2개의 특징맵에 있어서, 최대 스케일의 특징맵의 스케일이 처리 대상이 되는 이미지의 스케일과 동일하다(스케일이 1x인 특징맵). N단의 복호화 네트워크의 마지막 1단의(제N 단의 복호화 네트워크)에 대해, 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하도록 해도 된다. N=M의 경우, 제N-1 단의 복호화 후의 특징맵이 2개 있고(예를 들면, 스케일이 1x와 2x인 특징맵), N<M의 경우, 제N-1 단의 복호화 후의 특징맵이 3개 이상 있다(예를 들면, 스케일이 1x, 2x 및 4x인 특징맵). 본 발명에서는 한정하지 않는다.
하나의 가능한 실시형태에서는 제N 단의 복호화 네트워크의 융합 서브 네트워크에 의해 M-N+2개의 특징맵에 대해 멀티스케일 융합(스케일 조정 및 융합)을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하도록 해도 된다. 상기 대상 특징맵의 스케일은 처리 대상이 되는 이미지의 스케일과 일치해도 된다. 스케일 조정 및 융합의 구체적인 과정에 대해는 여기에서 상세한 설명을 생략한다.
하나의 가능한 실시형태에서는 상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 단계는 상기 제N 단의 복호화 후의 대상 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 예측 밀도맵을 취득하는 것과, 상기 예측 밀도맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것을 포함해도 된다.
예를 들면, 제N 단의 복호화 후의 대상 특징맵을 취득한 후, 대상 특징맵의 최적화를 계속하고, 복수의 제2 합성곱층(합성곱 커널 사이즈가 3×3, 스트라이드가 1), 복수의 기본 블록(제2 합성곱층 및 잔차층을 포함함), 하나 이상의 제3 합성곱층(합성곱 커널 사이즈가 1×1) 중 하나 이상에 의해 대상 특징맵을 최적화하고, 처리 대상이 되는 이미지의 예측 밀도맵을 취득하도록 해도 된다. 본 발명에서는 최적화의 구체적인 방법에 대해서는 한정하지 않는다.
하나의 가능한 실시형태에서는 예측 밀도맵에 기초하여 처리 대상이 되는 이미지의 예측 결과를 결정하도록 해도 된다. 상기 예측 밀도맵을 그대로 처리 대상이 되는 이미지의 예측 결과로 해도 된다. 상기 예측 밀도맵을 추가로 처리하여(예를 들면, softmax층 등에 의한 처리), 처리 대상이 되는 이미지의 예측 결과를 취득해도 된다.
이와 같은 방법에 의하면, N단의 복호화 네트워크는 스케일업 과정에 있어서 글로벌 정보와 로컬 정보를 복수회 융합시켜, 예측 결과의 품질을 향상시킨다.
도 3은 본 발명의 실시예에 따른 이미지 처리 방법의 네트워크 구조의 모식도를 나타낸다. 도 3에 나타내는 바와 같이, 본 발명의 실시예에 따른 이미지 처리 방법을 실현하는 뉴럴 네트워크는 특징 추출 네트워크(31), 3단의 부호화 네트워크(32)(제1 단의 부호화 네트워크(321), 제2 단의 부호화 네트워크(322) 및 제3 단의 부호화 네트워크(323)를 포함함) 및 3단의 복호화 네트워크 33(제1 단의 복호화 네트워크(331), 제2 단의 복호화 네트워크(332) 및 제3 단의 복호화 네트워크(333)를 포함함)를 포함해도 된다.
하나의 가능한 실시형태에서는 도 3에 나타내는 바와 같이, 처리 대상이 되는 이미지(34)(스케일이 1x)를 특징 추출 네트워크(31)에 입력하여 처리를 행하여, 연속되는 2개의 제1 합성곱층(합성곱 커널 사이즈가 3×3, 스트라이드가 2)에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵(스케일이 4x이며, 즉, 상기 특징맵의 폭과 높이는 각각 처리 대상이 되는 이미지의 1/4임)을 취득하고, 추가로 3개의 제2 합성곱층(합성곱 커널 사이즈가 3×3, 스트라이드가 1)에 의해 합성곱 후의 특징맵(스케일이 4x)을 최적화하고, 제1 특징맵(스케일이 4x)을 취득한다.
하나의 가능한 실시형태에서는 제1 특징맵(스케일이 4x)을 제1 단의 부호화 네트워크(321)에 입력하고, 합성곱 서브 네트워크(제1 합성곱층을 포함함)에 의해 제1 특징맵에 대해 합성곱을 행하여(스케일 다운하여), 제2 특징맵(스케일이 8x이며, 즉, 상기 특징맵의 폭과 높이는 각각 처리 대상이 되는 이미지의 1/8임)을 취득하도록 해도 된다. 특징 최적화 서브 네트워크(하나 이상의 기본 블록이며, 제2 합성곱층 및 잔차층을 포함함)에 의해 제1 특징맵과 제2 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 제1 특징맵과 제2 특징맵을 취득한다. 특징 최적화 후의 제1 특징맵과 제2 특징맵에 대해 멀티스케일 융합을 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵을 취득한다.
하나의 가능한 실시형태에서는 제1 단의 부호화 후의 제1 특징맵(스케일이 4x) 및 제2 특징맵(스케일이 8x)을 제2 단의 부호화 네트워크(322)에 입력하고, 합성곱 서브 네트워크(하나 이상의 제1 합성곱층을 포함함)에 의해 제1 단의 부호화 후의 제1 특징맵과 제2 특징맵에 대해 각각 합성곱(스케일 다운) 및 융합을 행하여, 제3 특징맵(스케일이 16x이며, 즉, 상기 특징맵의 폭과 높이는 각각 처리 대상이 되는 이미지의 1/16임)을 취득한다. 특징 최적화 서브 네트워크(하나 이상의 기본 블록이며, 제2 합성곱층 및 잔차층을 포함함)에 의해 제1, 제2 및 제3 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 제1, 제2 및 제3 특징맵을 취득한다. 특징 최적화 후의 제1, 제2 및 제3 특징맵에 대해 멀티스케일 융합을 행하고, 융합 후의 제1, 제2 및 제3 특징맵을 취득한다. 그 후, 융합 후의 제1, 제2 및 제3 특징맵에 대해 최적화 및 융합을 재차 행하여, 제2 단의 부호화 후의 제1, 제2 및 제3 특징맵을 취득한다.
하나의 가능한 실시형태에서는 제2 단의 부호화 후의 제1, 제2 및 제3 특징맵(4x, 8x 및 16x)을 제3 단의 부호화 네트워크(323)에 입력하고, 합성곱 서브 네트워크(하나 이상의 제1 합성곱층을 포함함)에 의해 제2 단의 부호화 후의 제1, 제2 및 제3 특징맵에 대해 각각 합성(스케일 다운) 및 융합을 행하여, 제4 특징맵(스케일이 32x이며, 즉, 상기 특징맵의 폭과 높이는 각각 처리 대상이 되는 이미지의 1/32임)을 취득한다. 특징 최적화 서브 네트워크(하나 이상의 기본 블록이며, 제2 합성곱층 및 잔차층을 포함함)에 의해 제1, 제2, 제3 및 제4 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 제1, 제2, 제3 및 제4 특징맵을 취득한다. 특징 최적화 후의 제1, 제2, 제3 및 제4 특징맵에 대해 멀티스케일 융합을 행하여, 융합 후의 제1, 제2, 제3 및 제4 특징맵을 취득한다. 그 후 융합 후의 제1, 제2 및 제3 특징맵을 재차 최적화하여, 제3 단의 부호화 후의 제1, 제2, 제3 및 제4 특징맵을 취득한다.
하나의 가능한 실시형태에서는 제3 단의 부호화 후의 제1, 제2, 제3 및 제4 특징맵(스케일이 4x, 8x, 16x 및 32x)을 제1 단의 복호화 네트워크(331)에 입력하고, 3개의 제1 융합 서브 네트워크에 의해 제3 단의 부호화 후의 제1, 제2, 제3 및 제4 특징맵을 융합시키고, 융합 후의 3개의 특징맵(스케일이 4x, 8x 및 16x)을 취득한다. 추가로 융합 후의 3개의 특징맵에 대해 역합성곱을 행하여(스케일업하여), 스케일업 후의 3개의 특징맵(스케일이 2x, 4x 및 8x)을 취득한다. 스케일업 후의 3개의 특징맵에 대해 멀티스케일 융합, 특징 최적화, 재차 멀티스케일 융합 및 재차 특징 최적화를 행하여, 제1 단의 복호화 후의 3개의 특징맵(스케일이 2x, 4x 및 8x)을 취득한다.
하나의 가능한 실시형태에서는 제1 단의 복호화 후의 3개의 특징맵(스케일이 2x, 4x 및 8x)을 제2 단의 복호화 네트워크(332)에 입력하고, 2개의 제1 융합 서브 네트워크에 의해 제1 단의 복호화 후의 3개의 특징맵을 융합시키고, 융합 후의 2개의 특징맵(스케일이 2x 및 4x)을 취득한다. 추가로, 융합 후의 2개의 특징맵에 대해 역합성곱을 행하고(스케일업하고), 스케일업 후의 2개의 특징맵(스케일이 1x 및 2x)을 취득한다. 스케일업 후의 2개의 특징맵에 대해 멀티스케일 융합, 특징 최적화 및 재차 멀티스케일 융합을 행하여, 제2 단의 복호화 후의 2개의 특징맵(스케일이 1x 및 2x)을 취득한다.
하나의 가능한 실시형태에서는 제2 단의 복호화 후의 2개의 특징맵(스케일이 1x 및 2x)을 제3 단의 복호화 네트워크(333)에 입력하고, 제1 융합 서브 네트워크에 의해 제2 단의 복호화 후의 2개의 특징맵을 융합시키고, 융합 후의 특징맵(스케일이 1x)을 취득한다. 추가로, 융합 후의 특징맵을 제2 합성곱층 및 제3 합성곱층(합성곱 커널 사이즈가 1×1)에 의해 최적화하고, 처리 대상이 되는 이미지의 예측 밀도맵(스케일이 1x)을 취득한다.
하나의 가능한 실시형태에서는 각 합성곱층의 뒤에 정규화층을 추가하고, 각 단의 합성곱 결과에 대해 정규화 처리를 행하여, 정규화된 합성곱 결과를 취득함으로써, 합성곱 결과의 정밀도를 향상시키도록 해도 된다.
하나의 가능한 실시형태에서는 본 발명의 뉴럴 네트워크를 적용하기 전에, 상기 뉴럴 네트워크를 트레이닝하도록 해도 된다. 본 발명의 실시예에 따른 이미지 처리 방법은 복수의 라벨이 부착된 샘플 이미지를 포함하는 미리 설정된 트레이닝군에 기초하여 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하는 것을 추가로 포함한다.
예를 들면, 복수의 라벨이 부착된 샘플 이미지를 미리 설치해도 되고, 각 샘플 이미지는 예를 들면, 샘플 이미지에 있어서의 보행자의 위치, 수 등의 라벨 정보가 부착되었다. 복수의 라벨이 부착된 샘플 이미지를 트레이닝군으로 구성하여 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하도록 해도 된다.
하나의 가능한 실시형태에서는 샘플 이미지를 특징 추출 네트워크에 입력하고, 특징 추출 네트워크, M단의 부호화 네트워크 및 N단의 복호화 네트워크의 처리에 의해, 샘플 이미지의 예측 결과를 출력하도록 해도 된다. 샘플 이미지의 예측 결과와 라벨 정보에 기초하여 특징 추출 네트워크, M단의 부호화 네트워크 및 N단의 복호화 네트워크의 네트워크 손실을 결정한다. 네트워크 손실에 따라, 특징 추출 네트워크, M단의 부호화 네트워크 및 N단의 복호화 네트워크의 네트워크 파라미터를 조정한다. 미리 설정된 트레이닝 조건을 충족하고 있는 경우, 트레이닝된 특징 추출 네트워크, M단의 부호화 네트워크 및 N단의 복호화 네트워크를 얻도록 해도 된다. 본 발명에서는 구체적인 트레이닝 과정에 대해서는 한정하지 않는다.
이와 같은 방법에 의하면, 고정밀도의 특징 추출 네트워크, M단의 부호화 네트워크 및 N단의 복호화 네트워크를 얻을 수 있다.
본 발명의 실시예의 이미지 처리 방법에 의하면, 스트라이드를 갖는 합성 조작에 의해 스케일이 작은 특징맵을 취득하고, 네트워크 구조에 있어서 글로벌 정보와 로컬 정보의 융합을 계속적으로 행하여, 보다 유효한 멀티스케일 정보를 추출하고, 또한 다른 스케일의 정보에 의해 현재의 스케일 정보의 추출을 촉진하며, 네트워크의 멀티스케일의 대상물(예를 들면, 보행자)에 대한 식별의 로버스트성을 향상시킬 수 있다. 복호화 네트워크에 있어서 특징맵을 확대함과 함께 멀티스케일 정보의 융합을 행하여, 멀티스케일 정보를 보류하고, 생성된 밀도맵의 품질을 향상시키고, 모델 예측의 정확률을 향상시킬 수 있다.
본 발명의 실시예의 이미지 처리 방법에 의하면, 스마트 비디오 해석이나 방범 감시 등의 응용 장면에 적용할 수 있고, 장면 내의 대상물(예를 들면, 보행자, 차량 등)을 식별하며, 장면 내의 대상물의 수나 분포 상황 등을 예측하여 현재의 장면에 있어서의 인파의 동작을 해석할 수 있다.
본 발명에서 언급되는 상기 각 방법의 실시예는 원리와 논리에 위반되지 않는 한, 상호 조합하여 실시예를 형성할 수 있음을 이해해야 한다. 분량에 한계가 있으므로, 본 발명에서는 상세한 설명을 생략한다. 또한, 당업자라면 구체적인 실시형태에 따른 상기 방법에서는 각 단계의 구체적인 실행 순서는 그 기능과 내부의 가능한 논리에 의해 결정되는 것을 이해해야 한다.
또한, 본 발명은 또한, 이미지 처리 장치, 전자 기기, 컴퓨터 판독 가능 기억 매체, 프로그램을 제공한다. 이들은 전부 본 발명 중 어느 이미지 처리 방법의 실시에 사용될 수 있다. 이러한 발명 및 설명은 방법에 관한 설명에 따른 기재를 참조하면 되고, 상세한 설명을 생략한다.
도 4는 본 발명의 실시예에 따른 이미지 처리 장치의 블록도를 나타낸다. 도 4에 나타내는 바와 같이, 상기 이미지 처리 장치는 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하기 위한 특징 추출 모듈(41)과, M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하기 위한 부호화 모듈(42)과, N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하기 위한 복호화 모듈(43)을 포함하며, 여기에서 M, N은 1보다 큰 정수이다.
하나의 가능한 실시형태에서는 상기 부호화 모듈은 제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하기 위한 제1 부호화 서브 모듈과, 제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하기 위한 제2 부호화 서브 모듈과, 제M 단의 부호화 네트워크에 의해 제M-1 단의 부호화 후의 M개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제M 단의 부호화 후의 M+1개의 특징맵을 취득하기 위한 제3 부호화 서브 모듈을 포함하며, m은 정수로 1<m<M 이다.
하나의 가능한 실시형태에서는 상기 제1 부호화 서브 모듈은 상기 제1 특징맵을 스케일 다운하고, 제2 특징맵을 취득하기 위한 제1 축소 서브 모듈과, 상기 제1 특징맵과 상기 제2 특징맵을 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하기 위한 제1 융합 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제2 부호화 서브 모듈은 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, 스케일이 제m-1 단의 부호화 후의 m개 특징맵의 스케일보다도 작은 m+1번째의 특징맵을 취득하기 위한 제2 축소 서브 모듈과, 상기 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하기 위한 제2 융합 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제2 축소 서브 모듈은 제m 단의 부호화 네트워크의 합성곱 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일이 상기 m+1번째의 특징맵의 스케일과 동일한 스케일 다운 후의 m개의 특징맵을 취득하고, 상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, 상기 m+1번째의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 제2 융합 서브 모듈은 제m 단의 부호화 네트워크의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하고, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함하고, 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 특징 최적화 서브 네트워크는 적어도 2개의 제2 합성곱층 및 잔차층을 포함하고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이고, 상기 m+1개의 융합 서브 네트워크는 최적화 후의 m+1개의 특징맵에 대응한다.
하나의 가능한 실시형태에서는 m+1개의 융합 서브 네트워크 내의 k번째의 융합 서브 네트워크의 경우, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1개의 특징맵을 스케일 다운하고, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일 다운 후의 k-1개의 특징맵을 취득하는 것, 및/또는 업샘플링층 및 제3 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 작은 m+1-k개의 특징맵에 대해 스케일업 및 채널 조정을 행하여, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일업 후의 m+1-k개의 특징맵을 취득하는 것을 포함하며, 여기에서 k는 정수로 1≤k≤m+1이고, 상기 제3 합성곱층의 합성곱 커널 사이즈는 1×1이다.
하나의 가능한 실시형태에서는 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은 상기 스케일 다운 후의 k-1개의 특징맵, 상기 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵 중 적어도 2항을 융합시키고, 제m 단의 부호화 후의 k번째의 특징맵을 취득하는 것을 추가로 포함한다.
하나의 가능한 실시형태에서는 상기 복호화 모듈은 제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하고, 제1 단의 복호화 후의 M개의 특징맵을 취득하기 위한 제1 복호화 서브 모듈과, 제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하기 위한 제2 복호화 서브 모듈과, 제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하기 위한 제3 복호화 서브 모듈을 포함하며, 여기에서 n은 정수로 1<n<N≤M이다.
하나의 가능한 실시형태에서는 상기 제2 복호화 서브 모듈은 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하기 위한 확대 서브 모듈과, 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하기 위한 제3 융합 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제3 복호화 서브 모듈은 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하기 위한 제4 융합 서브 모듈과, 상기 제N 단의 복호화 후의 대상 특징맵에 기초하여, 상기 처리 대상이 되는 이미지의 예측 결과를 결정하기 위한 결과 결정 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 확대 서브 모듈은 제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하며, 제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 스케일업 후의 M-n+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 제3 융합 서브 모듈은 제n 단의 복호화 네트워크의 M-n+1개의 제2 융합 서브 네트워크에 의해 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하며, 제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 상기 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득한다.
하나의 가능한 실시형태에서는 상기 결과 결정 서브 모듈은 상기 제N 단의 복호화 후의 대상 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 예측 밀도맵을 취득하며, 상기 예측 밀도맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정한다.
하나의 가능한 실시형태에서는 상기 특징 추출 모듈은 상기 특징 추출 네트워크의 하나 이상의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵을 취득하기 위한 합성 서브 모듈과, 상기 특징 추출 네트워크의 하나 이상의 제2 합성곱층에 의해 합성곱 후의 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하기 위한 최적화 서브 모듈을 포함한다.
하나의 가능한 실시형태에서는 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이다.
하나의 가능한 실시형태에서는 상기 장치는 복수의 라벨이 부착된 샘플 이미지를 포함하는 미리 설정된 트레이닝군에 기초하여 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하기 위한 트레이닝 서브 모듈을 추가로 포함한다.
몇 가지의 실시예에 있어서, 본 발명의 실시예에 의한 장치의 기능 또는 수단은 상기 방법 실시예에 기재된 방법을 실행하기 위해 사용된다. 구체적인 실시는 상기 방법 실시예의 기재를 참조하면 분명해지고, 간략화를 위해 상세한 설명을 생략한다.
본 발명의 실시예는 또한, 컴퓨터 프로그램 명령을 기억하고 있는 컴퓨터 판독 가능 기억 매체로서, 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 제공한다. 컴퓨터 판독 가능 기억 매체는 컴퓨터 판독 가능한 비휘발성 기억 매체여도 되고, 또는 컴퓨터 판독 가능한 휘발성 기억 매체여도 된다.
본 발명의 실시예는 또한, 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서는 상기 메모리에 기억되어 있는 명령을 불러냄으로써 상기 방법을 실행하도록 구성되는 전자 기기를 제공한다.
본 발명의 실시예는 또한, 컴퓨터 판독 가능한 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드는 전자 기기에 있어서 실행되면 상기 전자 기기의 프로세서에 상기 방법을 실행시키는 컴퓨터 프로그램을 제공한다.
전자 기기는 단말, 서버 또는 그 밖의 형태의 기기로서 제공할 수 있다.
도 5는 본 발명의 실시예에 따른 전자 기기(800)의 블록도를 나타낸다. 전자 기기(800)는 휴대 전화, 컴퓨터, 디지털 방송 단말, 메시지 송수신 기기, 게임 콘솔, 태블릿형 기기, 의료 기기, 피트니스 기기, 퍼스널 디지털 어시스턴트 등의 단말이어도 된다.
도 5를 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 이상을 포함해도 된다.
처리 컴포넌트(802)는 통상, 전자 기기(800)의 전체적인 동작, 예를 들면, 표시, 전화의 호출, 데이터 통신, 카메라 동작 및 기록 동작에 관련되는 동작을 제어한다. 처리 컴포넌트(802)는 상기 방법의 전부 또는 일부의 단계를 실행하기 위해 명령을 실행하는 하나 이상의 프로세서(820)를 포함해도 된다. 또한, 처리 컴포넌트(802)는 다른 컴포넌트와의 상호 작용을 위한 하나 이상의 모듈을 포함해도 된다. 예를 들면, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808)와의 상호 작용을 위해 멀티미디어 모듈을 포함해도 된다.
메모리(804)는 전자 기기(800)에서의 동작을 서포트하기 위한 다양한 타입의 데이터를 기억하도록 구성된다. 이들 데이터는 예로서, 전자 기기(800)에서 조작하는 모든 애플리케이션 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 예를 들면, 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능 프로그래머블 판독 전용 메모리(EPROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM), 프로그래머블 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광디스크 등의 다양한 타입의 휘발성 또는 비휘발성 기억 장치 또는 이들의 조합에 의해 실현할 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 각 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 이상의 전원 및 전자 기기(800)를 위한 전력 생성, 관리 및 배분에 관련되는 다른 컴포넌트를 포함해도 된다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이에서 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서는 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함해도 된다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하는 터치 스크린으로서 실현해도 된다. 터치 패널은 터치, 슬라이드 및 터치 패널에서의 제스처를 검지하도록 하나 이상의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 검지할 뿐만 아니라 상기 터치 또는 슬라이드 조작에 관련되는 지속 시간 및 압력을 검출하도록 해도 된다. 일부 실시예에서는 멀티미디어 컴포넌트(808)는 전면 카메라 및/또는 후면 카메라를 포함한다. 전자 기기(800)가 동작 모드, 예를 들면, 촬영 모드 또는 촬상 모드가 되는 경우, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신하도록 해도 된다. 각 전면 카메라 및 후면 카메라는 고정된 광학 렌즈계 또는 초점 거리 및 광학 줌 능력을 갖는 것이어도 된다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들면, 오디오 컴포넌트(810)는 하나의 마이크(MIC)를 포함하고, 마이크(MIC)는 전자 기기(800)가 동작 모드, 예를 들면, 호출 모드, 기록 모드 및 음성 인식 모드가 되는 경우, 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 추가로 메모리(804)에 기억되거나, 또는 통신 컴포넌트(816)를 통해 송신되어도 된다. 일부 실시예에서는 오디오 컴포넌트(810)는, 추가로 오디오 신호를 출력하기 위한 스피커를 포함한다.
I/O 인터페이스(812)는 처리 컴포넌트(802)와 주변 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등이어도 된다. 이들 버튼은 홈 버튼, 음량 버튼, 시작 버튼 및 잠금 버튼을 포함해도 되지만 이들에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)의 각 측면의 상태 평가를 위해 하나 이상의 센서를 포함한다. 예를 들면, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 예를 들면, 전자 기기(800)의 표시 장치 및 키패드와 같은 컴포넌트의 상대적 위치 결정을 검출할 수 있고, 센서 컴포넌트(814)는 추가로 전자 기기(800) 또는 전자 기기(800)가 있는 컴포넌트의 위치 변화, 사용자와 전자 기기(800)의 접촉 유무, 전자 기기(800)의 방위 또는 가감속 및 전자 기기(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 어떠한 물리적 접촉도 없는 경우에 근방의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함해도 된다. 센서 컴포넌트(814)는 추가로 CMOS 또는 CCD 이미지 센서와 같은 이미징 애플리케이션에서 사용하기 위한 광센서를 포함해도 된다. 일부 실시예에서는 상기 센서 컴포넌트(814)는 추가로 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함해도 된다.
통신 컴포넌트(816)는 전자 기기(800)와 다른 기기의 유선 또는 무선 통신을 실현하도록 구성된다. 전자 기기(800)는 통신 규격에 기초하는 무선 네트워크, 예를 들면, WiFi, 2G 또는 3G, 또는 이들 조합에 액세스할 수 있다. 일 예시적 실시예에서는 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서는 상기 통신 컴포넌트(816)는 추가로 근거리 통신을 촉진시키기 위해 근거리 무선 통신(NFC) 모듈을 포함한다. 예를 들면, NFC모듈은 무선 주파수 식별(RFID) 기술, 적외선 데이터 협회(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 의해 실현할 수 있다.
예시적인 실시예에서는 전자 기기(800)는 하나 이상의 특정 용도용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 시그널 프로세서(DSPD), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 요소에 의해 실현되고, 상기 방법을 실행하기 위해 사용될 수 있다.
예시적인 실시예에서는, 또한, 비휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(804)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(800)의 프로세서(820)에 의해 실행되면, 상기 방법을 실행시킬 수 있다.
도 6은 본 발명 실시예에 따른 전자 기기(1900)의 블록도를 나타낸다. 예를 들면, 전자 기기(1900)는 서버로서 제공되어도 된다. 도 6을 참조하면, 전자 기기(1900)는 하나 이상의 프로세서를 포함하는 처리 컴포넌트(1922) 및 처리 컴포넌트(1922)에 의해 실행 가능한 명령, 예를 들면, 애플리케이션 프로그램을 기억하기 위한 메모리(1932)를 대표로 하는 메모리 자원을 포함한다. 메모리(1932)에 기억된 애플리케이션 프로그램은 각각이 하나의 명령군에 대응하는 하나 이상의 모듈을 포함해도 된다. 또한, 처리 컴포넌트(1922)는 명령을 실행함으로써 상기 방법을 실행하도록 구성된다.
전자 기기(1900)는 추가로 전자 기기(1900)의 전원 관리를 실행하도록 구성되는 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 접속하도록 구성되는 유선 또는 무선 네트워크 인터페이스(1950) 및 입출력(I/O) 인터페이스(1958)를 포함해도 된다. 전자 기기(1900)는 메모리(1932)에 기억된 오퍼레이팅 시스템, 예를 들면, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기초하여 작동할 수 있다.
예시적인 실시예에서는, 추가로 비휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행되면, 상기 방법을 실행시킬 수 있다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품이어도 된다. 컴퓨터 프로그램 제품은 프로세서에 본 발명의 각 측면을 실현시키기 위한 컴퓨터 판독 가능 프로그램 명령이 갖고 있는 컴퓨터 판독 가능 기억 매체를 포함해도 된다.
컴퓨터 판독 가능 기억 매체는 명령 실행 기기에 사용되는 명령을 저장 및 기억 가능한 유형 장치여도 된다. 컴퓨터 판독 가능 기억 매체는 예를 들면, 전기 기억 장치, 자기 기억 장치, 광 기억 장치, 전자 기억 장치, 반도체 기억 장치 또는 상기의 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능 기억 매체의 더욱 구체적인 예(비망라적 리스트)로는, 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 예를 들면, 명령이 기억되어 있는 천공 카드 또는 슬롯 내 돌기 구조와 같은 기계적 부호화 장치, 및 상기의 임의의 적당한 조합을 포함한다. 여기에서 사용되는 컴퓨터 판독 가능 기억 매체는 순시 신호 자체, 예를 들면, 무선 전파 또는 기타 자유롭게 전파되는 전자파, 도파로 또는 다른 전송 매체를 경유하여 전파되는 전자파(예를 들면, 광파이버 케이블을 통과하는 광펄스) 또는 전선을 경유하여 전송되는 전기 신호로 해석되는 것은 아니다.
여기에서 기술한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에서 각 계산/처리 기기에 다운로드되어도 되고, 또는 네트워크, 예를 들면, 인터넷, 로컬 에어리어 네트워크, 광역 네트워크 및/또는 무선 네트워크를 통해 외부의 컴퓨터 또는 외부 기억 장치에 다운로드되어도 된다. 네트워크는 구리 전송 케이블, 광파이버 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함해도 된다. 각 계산/처리 기기 내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고 상기 컴퓨터 판독 가능 프로그램 명령을 전송하고 각 계산/처리 기기 내의 컴퓨터 판독 가능 기억 매체에 기억시킨다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령은 어셈블리 명령, 명령 세트 아키텍처(ISA) 명령, 기계어 명령, 기계 의존 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터, 또는 Smalltalk, C++ 등의 오브젝트 지향 프로그래밍 언어 및 「C」언어 또는 유사한 프로그래밍 언어 등의 일반적인 절차형 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목표 코드여도 된다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 실행되어도 되고, 독립형 소프트웨어 패키지로서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 또한 부분적으로 리모트 컴퓨터에서 실행되어도 되고, 또는 완전히 리모트 컴퓨터 혹은 서버에서 실행되어도 된다. 리모트 컴퓨터의 경우, 리모트 컴퓨터는 로컬 에어리어 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되어도 되고, 또는 (예를 들면, 인터넷 서비스 프로바이더를 이용해 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 일부 실시예에서는 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여, 예를 들면, 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자 회로를 맞춤 제조하고, 상기 전자 회로에 의해 컴퓨터 판독 가능 프로그램 명령을 실행함으로써 본 발명의 각 측면을 실현하도록 해도 된다.
여기에서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하면서 본 발명의 각 양태를 설명했지만, 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 각 블록의 조합은 전부 컴퓨터 판독 가능 프로그램 명령에 의해 실현할 수 있는 것을 이해해야 한다.
이들 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 제공되어 이들 명령이 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 의해 실행되면, 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현하도록 기계를 제조해도 된다. 이들 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에 기억되고, 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 다른 기기를 특정의 방식으로 동작시키도록 해도 된다. 이것에 의해 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체는 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작의 각 측면을 실현하는 명령을 갖는 제품을 포함한다.
컴퓨터 판독 가능 프로그램 명령은 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 다른 기기에 로드되어 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 다른 기기에 일련의 동작 단계를 실행시킴으로써 컴퓨터에 의해 실현되는 프로세스를 생성하도록 해도 된다. 이렇게 하여 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 다른 기기에서 실행되는 명령에 의해 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작을 실현한다.
도면 중 흐름도 및 블록도는 본 발명의 복수 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서는, 흐름도 또는 블록도에 있어서의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 대표할 수 있고 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리 기능을 실현하기 위한 하나 이상의 실행 가능 명령을 포함한다. 일부 대체로서의 실현 형태에서는 블록에 표기되는 기능은 도면에 첨부한 순서와 달리 실현해도 된다. 예를 들면, 연속적인 두 개의 블록은 실질적으로 병렬로 실행해도 되며, 또한 관련된 기능에 따라 반대 순서로 실행해도 된다. 또한 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은 지정되는 기능 또는 동작을 실행하는 하드웨어에 기초하는 전용 시스템에 의해 실현해도 되며, 또는 전용 하드웨어와 컴퓨터 명령의 조합에 의해 실현해도 된다는 점에도 주의해야 한다.
논리에 반하지 않는 한, 본 발명의 상이한 실시예를 서로 조합할 수 있고, 상이한 실시예에는 중점을 두고 설명했지만, 중점을 두고 설명하지 않은 부분에 대해서는 기타 실시예의 기재를 참조하면 분명하다.
이상, 본 발명의 각 실시예를 기술했지만, 상기 설명은 예시적인 것에 불과하고, 망라적인 것이 아니며, 또한 개시된 각 실시예에 한정되는 것도 아니다. 당업자에게 있어서, 설명된 각 실시예의 범위 및 정신에서 벗어나지 않고, 다양한 수정 및 변경이 자명하다. 본 명세서에 선택된 용어는 각 실시예의 원리, 실제의 적용 또는 기존 기술에 대한 개선을 적합하게 해석하거나 또는 다른 당업자에게 본문에 개시된 각 실시예를 이해시키기 위한 것이다.

Claims (39)

  1. 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것과,
    M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하는 것과,
    N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것을 포함하며,
    여기에서 M, N은 1보다 큰 정수인, 이미지 처리 방법.
  2. 제 1 항에 있어서,
    M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 부호화 후의 복수의 특징맵을 취득하는 것은,
    제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하는 것과,
    제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것과,
    제M 단의 부호화 네트워크에 의해 제M-1 단의 부호화 후의 M개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제M 단의 부호화 후의 M+1개의 특징맵을 취득하는 것을 포함하며,
    여기에서 m은 정수로 1<m<M인, 이미지 처리 방법.
  3. 제 2 항에 있어서,
    제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제2 특징맵을 취득하는 것은,
    상기 제1 특징맵을 스케일 다운하고, 제2 특징맵을 취득하는 것과,
    상기 제1 특징맵과 상기 제2 특징맵을 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은,
    제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, 스케일이 제m-1 단의 부호화 후의 m개의 특징맵의 스케일보다도 작은 m+1번째의 특징맵을 취득하는 것과,
    상기 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  5. 제 4 항에 있어서,
    제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, m+1번째의 특징맵을 취득하는 것은,
    제m 단의 부호화 네트워크의 합성곱 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일이 상기 m+1번째의 특징맵의 스케일과 동일한 스케일 다운 후의 m개의 특징맵을 취득하는 것과,
    상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, 상기 m+1번째의 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  6. 제 4 항 또는 제 5 항에 있어서,
    제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은,
    제m 단의 부호화 네트워크의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하는 것과,
    제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함하고, 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고,
    상기 특징 최적화 서브 네트워크는 적어도 2개의 제2 합성곱층 및 잔차층을 포함하고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이고,
    상기 m+1개의 융합 서브 네트워크는 최적화 후의 m+1개의 특징맵에 대응하는, 이미지 처리 방법.
  8. 제 7 항에 있어서,
    m+1개의 융합 서브 네트워크 내의 k번째의 융합 서브 네트워크의 경우, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은,
    하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1개의 특징맵을 스케일 다운하고, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일 다운 후의 k-1개의 특징맵을 취득하는 것과, 및/또는
    업샘플링층 및 제3 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 작은 m+1-k개의 특징맵에 대해 스케일업 및 채널 조정을 행하여, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일업 후의 m+1-k개의 특징맵을 취득하는 것을 포함하며,
    여기에서 k는 정수로 1≤k≤m+1이고, 상기 제3 합성곱층의 합성곱 커널 사이즈는 1×1인, 이미지 처리 방법.
  9. 제 8 항에 있어서,
    제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은,
    상기 스케일 다운 후의 k-1개의 특징맵, 상기 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵 중 적어도 2항을 융합시키고, 제m 단의 부호화 후의 k번째의 특징맵을 취득하는 것을 추가로 포함하는, 이미지 처리 방법.
  10. 제 2 항 내지 제 9 항 중 어느 한 항에 있어서,
    N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것은,
    제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하고, 제1 단의 복호화 후의 M개의 특징맵을 취득하는 것과,
    제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것과,
    제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것을 포함하며,
    여기에서 n은 정수로 1<n<N≤M인, 이미지 처리 방법.
  11. 제 10 항에 있어서,
    제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것은,
    제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것과,
    상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  12. 제 10 항 또는 제 11 항에 있어서,
    제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하는 것은,
    제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하는 것과,
    상기 제N 단의 복호화 후의 대상 특징맵에 기초하여, 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것을 포함하는, 이미지 처리 방법.
  13. 제 11 항에 있어서,
    제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것은,
    제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하는 것과,
    제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 스케일업 후의 M-n+1개의 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  14. 제 11 항 또는 제 13 항에 있어서,
    상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것은,
    제n 단의 복호화 네트워크의 M-n+1개의 제2 융합 서브 네트워크에 의해 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하는 것과,
    제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 상기 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  15. 제 12 항에 있어서,
    상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것은,
    상기 제N 단의 복호화 후의 대상 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 예측 밀도맵을 취득하는 것과,
    상기 예측 밀도맵에 기초하여, 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는 것을 포함하는, 이미지 처리 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
    특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것은,
    상기 특징 추출 네트워크의 하나 이상의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵을 취득하는 것과,
    상기 특징 추출 네트워크의 하나 이상의 제2 합성곱층에 의해 합성곱 후의 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하는 것을 포함하는, 이미지 처리 방법.
  17. 제 16 항에 있어서,
    상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1인, 이미지 처리 방법.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
    복수의 라벨이 부착된 샘플 이미지를 포함하는 미리 설정된 트레이닝군에 기초하여, 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하는 것을 추가로 포함하는, 이미지 처리 방법.
  19. 특징 추출 네트워크에 의해 처리 대상이 되는 이미지에 대해 특징 추출을 행하여, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하기 위한 특징 추출 모듈과,
    M단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 각 특징맵의 스케일이 상이한 부호화 후의 복수의 특징맵을 취득하기 위한 부호화 모듈과,
    N단의 복호화 네트워크에 의해 부호화 후의 복수의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하기 위한 복호화 모듈을 포함하며,
    여기에서 M, N은 1보다 큰 정수인, 이미지 처리 장치.
  20. 제 19 항에 있어서,
    상기 부호화 모듈은,
    제1 단의 부호화 네트워크에 의해 상기 제1 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하기 위한 제1 부호화 서브 모듈과,
    제m 단의 부호화 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하기 위한 제2 부호화 서브 모듈과,
    제M 단의 부호화 네트워크에 의해 제M-1 단의 부호화 후의 M개의 특징맵에 대해 스케일 다운 및 멀티스케일 융합 처리를 행하여, 제M 단의 부호화 후의 M+1개의 특징맵을 취득하기 위한 제3 부호화 서브 모듈을 포함하며,
    여기에서 m은 정수로 1<m<M인, 이미지 처리 장치.
  21. 제 20 항에 있어서,
    상기 제1 부호화 서브 모듈은,
    상기 제1 특징맵을 스케일 다운하고, 제2 특징맵을 취득하기 위한 제1 축소 서브 모듈과,
    상기 제1 특징맵과 상기 제2 특징맵을 융합시키고, 제1 단의 부호화 후의 제1 특징맵 및 제1 단의 부호화 후의 제2 특징맵을 취득하기 위한 제1 융합 서브 모듈을 포함하는, 이미지 처리 장치.
  22. 제 20 항 또는 제 21 항에 있어서,
    상기 제2 부호화 서브 모듈은,
    제m-1 단의 부호화 후의 m개의 특징맵에 대해 스케일 다운 및 융합을 행하여, 스케일이 제m-1 단의 부호화 후의 m개의 특징맵의 스케일보다도 작은 m+1번째의 특징맵을 취득하기 위한 제2 축소 서브 모듈과,
    상기 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵을 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하기 위한 제2 융합 서브 모듈을 포함하는, 이미지 처리 장치.
  23. 제 22 항에 있어서,
    상기 제2 축소 서브 모듈은
    제m 단의 부호화 네트워크의 합성곱 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵을 각각 스케일 다운하고, 스케일이 상기 m+1번째의 특징맵의 스케일과 동일한 스케일 다운 후의 m개의 특징맵을 취득하고,
    상기 스케일 다운 후의 m개의 특징맵에 대해 특징 융합을 행하여, 상기 m+1번째의 특징맵을 취득하는, 이미지 처리 장치.
  24. 제 22 항 또는 제 23 항에 있어서,
    상기 제2 융합 서브 모듈은,
    제m 단의 부호화 네트워크의 특징 최적화 서브 네트워크에 의해 제m-1 단의 부호화 후의 m개의 특징맵 및 상기 m+1번째의 특징맵에 대해 각각 특징 최적화를 행하여, 특징 최적화 후의 m+1개의 특징맵을 취득하고,
    제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는, 이미지 처리 장치.
  25. 제 23 항 또는 제 24 항에 있어서,
    상기 합성곱 서브 네트워크는 하나 이상의 제1 합성곱층을 포함하고, 상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고,
    상기 특징 최적화 서브 네트워크는 적어도 2개의 제2 합성곱층 및 잔차층을 포함하고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1이고,
    상기 m+1개의 융합 서브 네트워크는 최적화 후의 m+1개의 특징맵에 대응하는, 이미지 처리 장치.
  26. 제 25 항에 있어서,
    m+1개의 융합 서브 네트워크 내의 k번째의 융합 서브 네트워크의 경우, 제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은,
    하나 이상의 제1 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 큰 k-1개의 특징맵을 스케일 다운하고, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일 다운 후의 k-1개의 특징맵을 취득하는 것과, 및/또는
    업샘플링층 및 제3 합성곱층에 의해 스케일이 특징 최적화 후의 k번째의 특징맵보다도 작은 m+1-k개의 특징맵에 대해 스케일업 및 채널 조정을 행하여, 스케일이 특징 최적화 후의 k번째의 특징맵의 스케일과 동일한 스케일업 후의 m+1-k개의 특징맵을 취득하는 것을 포함하며,
    여기에서 k는 정수로 1≤k≤m+1이고, 상기 제3 합성곱층의 합성곱 커널 사이즈는 1×1인, 이미지 처리 장치.
  27. 제 26 항에 있어서,
    제m 단의 부호화 네트워크의 m+1개의 융합 서브 네트워크에 의해 상기 특징 최적화 후의 m+1개의 특징맵을 각각 융합시키고, 제m 단의 부호화 후의 m+1개의 특징맵을 취득하는 것은,
    상기 스케일 다운 후의 k-1개의 특징맵, 상기 특징 최적화 후의 k번째의 특징맵 및 상기 스케일업 후의 m+1-k개의 특징맵 중 적어도 2항을 융합시키고, 제m 단의 부호화 후의 k번째의 특징맵을 취득하는 것을 추가로 포함하는, 이미지 처리 장치.
  28. 제 20 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 복호화 모듈은,
    제1 단의 복호화 네트워크에 의해 제M 단의 부호화 후의 M+1개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하고, 제1 단의 복호화 후의 M개의 특징맵을 취득하기 위한 제1 복호화 서브 모듈과,
    제n 단의 복호화 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 스케일업 및 멀티스케일 융합 처리를 행하여, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하기 위한 제2 복호화 서브 모듈과,
    제N 단의 복호화 네트워크에 의해 제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합 처리를 행하여, 상기 처리 대상이 되는 이미지의 예측 결과를 취득하기 위한 제3 복호화 서브 모듈을 포함하며,
    여기에서 n은 정수로 1<n<N≤M인, 이미지 처리 장치.
  29. 제 28 항에 있어서,
    상기 제2 복호화 서브 모듈은,
    제n-1 단의 복호화 후의 M-n+2개의 특징맵에 대해 융합 및 스케일업을 행하여, 스케일업 후의 M-n+1개의 특징맵을 취득하기 위한 확대 서브 모듈과,
    상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하기 위한 제3 융합 서브 모듈을 포함하는, 이미지 처리 장치.
  30. 제 28 항 또는 제 29 항에 있어서,
    상기 제3 복호화 서브 모듈은,
    제N-1 단의 복호화 후의 M-N+2개의 특징맵에 대해 멀티스케일 융합을 행하여, 제N 단의 복호화 후의 대상 특징맵을 취득하기 위한 제4 융합 서브 모듈과,
    상기 제N 단의 복호화 후의 대상 특징맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하기 위한 결과 결정 서브 모듈을 포함하는, 이미지 처리 장치.
  31. 제 29 항에 있어서,
    상기 확대 서브 모듈은,
    제n 단의 복호화 네트워크의 M-n+1개의 제1 융합 서브 네트워크에 의해 제n-1 단의 복호화 후의 M-n+2개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하고,
    제n 단의 복호화 네트워크의 역합성곱 서브 네트워크에 의해 융합 후의 M-n+1개의 특징맵을 각각 스케일업하고, 스케일업 후의 M-n+1개의 특징맵을 취득하는, 이미지 처리 장치.
  32. 제 29 항 또는 제 31 항에 있어서,
    상기 제3 융합 서브 모듈은,
    제n 단의 복호화 네트워크의 M-n+1개의 제2 융합 서브 네트워크에 의해 상기 스케일업 후의 M-n+1개의 특징맵을 융합시키고, 융합 후의 M-n+1개의 특징맵을 취득하고,
    제n 단의 복호화 네트워크의 특징 최적화 서브 네트워크에 의해 상기 융합 후의 M-n+1개의 특징맵을 각각 최적화하고, 제n 단의 복호화 후의 M-n+1개의 특징맵을 취득하는, 이미지 처리 장치.
  33. 제 30 항에 있어서,
    상기 결과 결정 서브 모듈은,
    상기 제N 단의 복호화 후의 대상 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 예측 밀도맵을 취득하고,
    상기 예측 밀도맵에 기초하여 상기 처리 대상이 되는 이미지의 예측 결과를 결정하는, 이미지 처리 장치.
  34. 제 19 항 내지 제 33 항 중 어느 한 항에 있어서,
    상기 특징 추출 모듈은,
    상기 특징 추출 네트워크의 하나 이상의 제1 합성곱층에 의해 처리 대상이 되는 이미지에 대해 합성곱을 행하여, 합성곱 후의 특징맵을 취득하기 위한 합성 서브 모듈과,
    상기 특징 추출 네트워크의 하나 이상의 제2 합성곱층에 의해 합성곱 후의 특징맵을 최적화하고, 상기 처리 대상이 되는 이미지의 제1 특징맵을 취득하기 위한 최적화 서브 모듈을 포함하는, 이미지 처리 장치.
  35. 제 34 항에 있어서,
    상기 제1 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 2이고, 상기 제2 합성곱층은 합성곱 커널 사이즈가 3×3이며, 스트라이드가 1인, 이미지 처리 장치.
  36. 제 19 항 내지 제 35 항 중 어느 한 항에 있어서,
    복수의 라벨이 부착된 샘플 이미지를 포함하는 미리 설정된 트레이닝군에 기초하여, 상기 특징 추출 네트워크, 상기 M단의 부호화 네트워크 및 상기 N단의 복호화 네트워크를 트레이닝하기 위한 트레이닝 서브 모듈을 추가로 포함하는, 이미지 처리 장치.
  37. 프로세서와,
    프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고,
    상기 프로세서는 상기 메모리에 기억되어 있는 명령을 불러냄으로써 제 1 항 내지 제 18 항 중 어느 한 항의 방법을 실행하도록 구성되는, 전자 기기.
  38. 컴퓨터 프로그램 명령을 기억하고 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 제 1 항 내지 제 18 항 중 어느 한 항의 방법을 실현시키는, 컴퓨터 판독 가능 기억 매체.
  39. 컴퓨터 판독 가능한 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드는 전자 기기에 있어서 실행되면, 상기 전자 기기의 프로세서에 제 1 항 내지 제 18 항 중 어느 한 항의 방법을 실현하기 위한 명령을 실행시키는, 컴퓨터 프로그램.
KR1020207036987A 2019-07-18 2019-11-08 이미지 처리 방법 및 장치, 전자 기기와 기억 매체 KR102436593B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910652028.6A CN110378976B (zh) 2019-07-18 2019-07-18 图像处理方法及装置、电子设备和存储介质
CN201910652028.6 2019-07-18
PCT/CN2019/116612 WO2021008022A1 (zh) 2019-07-18 2019-11-08 图像处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20210012004A true KR20210012004A (ko) 2021-02-02
KR102436593B1 KR102436593B1 (ko) 2022-08-25

Family

ID=68254016

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207036987A KR102436593B1 (ko) 2019-07-18 2019-11-08 이미지 처리 방법 및 장치, 전자 기기와 기억 매체

Country Status (7)

Country Link
US (1) US20210019562A1 (ko)
JP (1) JP7106679B2 (ko)
KR (1) KR102436593B1 (ko)
CN (1) CN110378976B (ko)
SG (1) SG11202008188QA (ko)
TW (2) TWI773481B (ko)
WO (1) WO2021008022A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022200887A1 (de) 2021-01-28 2022-07-28 Mando Corporation Lenksteuerungsvorrichtung, lenkunterstützungsvorrichtung und verfahren

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN112784629A (zh) * 2019-11-06 2021-05-11 株式会社理光 图像处理方法、装置和计算机可读存储介质
CN111027387B (zh) * 2019-11-11 2023-09-26 北京百度网讯科技有限公司 人数评估及评估模型获取方法、装置及存储介质
CN112884772B (zh) 2019-11-29 2024-03-19 北京四维图新科技股份有限公司 语义分割架构
CN111429466A (zh) * 2020-03-19 2020-07-17 北京航空航天大学 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN111507408B (zh) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111582353B (zh) * 2020-04-30 2022-01-21 恒睿(重庆)人工智能技术研究院有限公司 一种图像特征检测方法、系统、设备以及介质
CN112784897B (zh) 2021-01-20 2024-03-26 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
CN112990025A (zh) * 2021-03-19 2021-06-18 北京京东拓先科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN113436287B (zh) * 2021-07-05 2022-06-24 吉林大学 一种基于lstm网络与编解码网络的篡改图像盲取证方法
CN113486908B (zh) * 2021-07-13 2023-08-29 杭州海康威视数字技术股份有限公司 目标检测方法、装置、电子设备及可读存储介质
CN113706530A (zh) * 2021-10-28 2021-11-26 北京矩视智能科技有限公司 基于网络结构的表面缺陷区域分割模型生成方法及装置
CN114419449B (zh) * 2022-03-28 2022-06-24 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110113923A (ko) * 2010-04-12 2011-10-19 삼성전자주식회사 영상 변환 장치 및 이를 포함하는 입체 영상 표시 장치
KR20190039458A (ko) * 2017-10-04 2019-04-12 주식회사 스트라드비젼 Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치
CN109815964A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 提取图像的特征图的方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462940A (zh) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
EP3259914A1 (en) * 2015-02-19 2017-12-27 Magic Pony Technology Limited Interpolating visual data
JP6744838B2 (ja) * 2017-04-18 2020-08-19 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム
CN111226257B (zh) * 2017-09-22 2024-03-01 豪夫迈·罗氏有限公司 组织图像中的伪像移除
CN107578054A (zh) * 2017-09-27 2018-01-12 北京小米移动软件有限公司 图像处理方法及装置
CN109509192B (zh) * 2018-10-18 2023-05-30 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN113569796A (zh) * 2018-11-16 2021-10-29 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN110009598B (zh) * 2018-11-26 2023-09-05 腾讯科技(深圳)有限公司 用于图像分割的方法和图像分割设备
CN109598727B (zh) * 2018-11-28 2021-09-14 北京工业大学 一种基于深度神经网络的ct图像肺实质三维语义分割方法
CN109598298B (zh) * 2018-11-29 2021-06-04 上海皓桦科技股份有限公司 图像物体识别方法和系统
CN109598728B (zh) * 2018-11-30 2019-12-27 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN109635882B (zh) * 2019-01-23 2022-05-13 福州大学 一种基于多尺度卷积特征提取和融合的显著物体检测方法
CN109903301B (zh) * 2019-01-28 2021-04-13 杭州电子科技大学 一种基于多级特征信道优化编码的图像轮廓检测方法
CN109816659B (zh) * 2019-01-28 2021-03-23 北京旷视科技有限公司 图像分割方法、装置及系统
CN109816661B (zh) * 2019-03-22 2022-07-01 电子科技大学 一种基于深度学习的牙齿ct图像分割方法
CN109996071B (zh) * 2019-03-27 2020-03-27 上海交通大学 基于深度学习的可变码率图像编码、解码系统及方法
US10902571B2 (en) * 2019-05-20 2021-01-26 Disney Enterprises, Inc. Automated image synthesis using a comb neural network architecture
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110113923A (ko) * 2010-04-12 2011-10-19 삼성전자주식회사 영상 변환 장치 및 이를 포함하는 입체 영상 표시 장치
KR20190039458A (ko) * 2017-10-04 2019-04-12 주식회사 스트라드비젼 Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치
CN109815964A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 提取图像的特征图的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022200887A1 (de) 2021-01-28 2022-07-28 Mando Corporation Lenksteuerungsvorrichtung, lenkunterstützungsvorrichtung und verfahren

Also Published As

Publication number Publication date
KR102436593B1 (ko) 2022-08-25
US20210019562A1 (en) 2021-01-21
TW202105321A (zh) 2021-02-01
SG11202008188QA (en) 2021-02-25
JP7106679B2 (ja) 2022-07-26
CN110378976B (zh) 2020-11-13
TW202145143A (zh) 2021-12-01
WO2021008022A1 (zh) 2021-01-21
JP2021533430A (ja) 2021-12-02
TWI740309B (zh) 2021-09-21
CN110378976A (zh) 2019-10-25
TWI773481B (zh) 2022-08-01

Similar Documents

Publication Publication Date Title
KR102436593B1 (ko) 이미지 처리 방법 및 장치, 전자 기기와 기억 매체
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
JP7238141B2 (ja) 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
KR20210015951A (ko) 이미지 처리 방법 및 장치, 전자 기기, 및 기억 매체
CN110889469A (zh) 图像处理方法及装置、电子设备和存储介质
KR20210090238A (ko) 비디오 처리 방법 및 장치, 전자 기기, 및 기억 매체
JP2021512378A (ja) アンカー決定方法及び装置、電子機器並びに記憶媒体
CN111539410B (zh) 字符识别方法及装置、电子设备和存储介质
CN110858924B (zh) 视频背景音乐的生成方法、装置及存储介质
US20220392202A1 (en) Imaging processing method and apparatus, electronic device, and storage medium
JP2022515274A (ja) 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
KR20220047802A (ko) 이미지 재구성 방법 및 장치, 전자 기기 및 저장 매체
CN112749709A (zh) 图像处理方法及装置、电子设备和存储介质
CN113537350B (zh) 图像处理方法及装置、电子设备和存储介质
CN110119652B (zh) 视频的镜头分割方法及装置
CN113435390A (zh) 人群定位方法及装置、电子设备和存储介质
CN113297983A (zh) 人群定位方法及装置、电子设备和存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant