KR20190039458A - Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치 - Google Patents

Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20190039458A
KR20190039458A KR1020180117320A KR20180117320A KR20190039458A KR 20190039458 A KR20190039458 A KR 20190039458A KR 1020180117320 A KR1020180117320 A KR 1020180117320A KR 20180117320 A KR20180117320 A KR 20180117320A KR 20190039458 A KR20190039458 A KR 20190039458A
Authority
KR
South Korea
Prior art keywords
feature map
block
filter
upsampling
feature
Prior art date
Application number
KR1020180117320A
Other languages
English (en)
Other versions
KR102192850B1 (ko
Inventor
김용중
남운현
부석훈
성명철
여동훈
유우주
장태웅
정경중
제홍모
조호진
Original Assignee
주식회사 스트라드비젼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스트라드비젼 filed Critical 주식회사 스트라드비젼
Publication of KR20190039458A publication Critical patent/KR20190039458A/ko
Application granted granted Critical
Publication of KR102192850B1 publication Critical patent/KR102192850B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • G06K9/4676
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에서는 업-샘플링 네트워크(FUN)을 포함하는 CNN을 적용한 장치로 특징 맵을 생성하는 방법이 개시된다. 이 방법은, (a) 입력 이미지가 획득되면, 다운-샘플링 블록으로 하여금 입력 이미지에 소정의 연산을 적용하여 다운-샘플링 이미지를 획득하게 하고, (b) 다운-샘플링 이미지가 획득되면, 제1-1 내지 제1-K 필터 블록으로 하여금 다운-샘플링 이미지에 하나 이상의 컨벌루션 연산을 적용하여 제1-1, 1-2, …, 1-K 특징 맵을 각각 획득하게 하고, (c) 각각의 업-샘플링 블록으로 하여금, 대응하는 필터 블록으로부터 특징 맵을 수신하고, 이전 업-샘플링 블록으로부터 특징 맵을 수신하고, 하나의 특징 맵을 다른 특징 맵와 크기가 동일하게 리스케일링한 후, 양 특징 맵들에 소정의 연산을 적용하여 제2-K 내지 제2-1 특징 맵을 생성한다.

Description

FUN을 사용하여 특징 맵을 생성하기 위한 방법 및 장치{METHOD AND DEVICE FOR GENERATING FEATURE MAPS BY USING FEATURE UPSAMPLING NETWORKS}
본 발명은 피처 업샘플링 네트워크를 사용한 특징맵 생성 방법 및 장치에 관한 것이다. 보다 상세하게는 (i) 입력 이미지의 크기를 줄이는 다운샘플링 블록, (ii) 적어도 한 번의 컨벌루션 연산을 수행하여 각각의 제1-1내지 제1-K 특징 맵을 각각 획득하는 각각의 제1-1 내지 제1-K 필터 블록; 및 (iii) 상기 각각의 제1-1 내지 제1-K 필터 블록과 각각 연동하는 각각의 제2-K 내지 2-1 업샘플링 블록을 포함하는, 특징업샘플링 네트워크(FUN)를 포함하는 CNN 장치를 사용한 특징 맵 생성 방법에 있어서, (a) 상기 CNN 장치는, 상기 입력 이미지가 입력되면, 상기 다운샘플링 블록으로 하여금 상기 입력된 이미지에 소정의 연산을 수행하여 상기 입력된 이미지의 크기를 줄인 다운샘플링 이미지를 획득하도록 하는 단계; (b) 상기 CNN 장치는, 상기 다운샘플링 이미지가 획득되면, 상기 각각의 제1-1 내지 제1-K 필터 블록으로 하여금 상기 다운샘플링 이미지에 대해 상기 적어도 한 번의 컨벌루션 연산을 수행하여 상기 각각의 제1-1내지 1-K 특징 맵을 순차적으로 획득하는 단계; 및 (c) 상기 CNN 장치는, (I) 제2-1 업샘플링 블록으로 하여금 (i) 상기 다운샘플링 블록으로부터 상기 다운샘플링 이미지를 수신하고 (ii) 상기 제2-2 업샘플링 블록으로부터 상기 제2-2 특징 맵을 수신한 후 상기 2-2 특징 맵의 사이즈를 상기 다운샘플링 이미지와 동일하게 리스케일링하고, (iii) 다운샘플링 이미지와 제2-2리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 제2-1 특징 맵을 획득하고, (II) M이 1보다 크거나 같은 정수라면, 상기 제 (2-(M+1)) 업샘플링 블록으로 하여금, (i) 상기 제1-M 필터 블록으로부터 출력된 상기 제1-M 특징 맵을 수신하고, (ii) 상기 제2-(M+2) 업샘플링 블록으로부터 출력된 상기 제2-(M+2) 특징 맵을 수신한 후 상기 2-(M+2) 특징 맵의 사이즈를 상기 제1-M 특징 맵과 동일하게 리스케일링하고, (iii) 상기 제 (1-M) 특징 맵과 상기 (2-(M+2)) 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 (2-(M+1)) 특징맵을 생성함으로써, 상기 제2-K 내지 제2-2 특징 맵을 획득하는 단계;를 포함하는 특징 맵 생성 방법 및 장치에 관한 것이다.
딥 컨벌루션 뉴럴 네트워크(Deep Convolution Neural Networks, 딥 CNN)는 딥 러닝 분야에서 일어난 놀라운 발전의 핵심이다. CNN은 글자 인식 문제를 풀기 위해 90년대에 이미 사용되었지만, 현재처럼 널리 쓰이게 된 것은 최근의 연구 결과 덕분이다. 이러한 딥 CNN은 2012년 ImageNet 이미지 분류 시합에서 다른 경쟁자들을 이기고 우승을 차지했다. 그리고 나서 컨벌루션 뉴럴 네트워크는 Machine Learning 분야에서 매우 유용한 툴이 되었다.
도 1은 일반적인 CNN 모델의 학습 장치를 나타낸다.
도 1을 참조하면, CNN 모델 학습 장치(100)는 피처 컴퓨테이션 블록(101), 어플리케이션 블록(102) 및 어플리케이션 로스 블록(103)으로 구성된다.
피처 컴퓨테이션 블록(101)은 이미지가 입력되었을 때 컨벌루션 블록 및 그 외 다양한 블록, 예를 들어 CReLU 등의 액티베이션 레이어, FPN (Feature Pyramid Networks) 블록 등의 조합을 통해 입력 이미지로부터 다양한 특징 맵들을 생성하는 기능을 한다.
어플리케이션 블록(102)은 생성된 특징 맵들을 이용하여 해당 어플리케이션에 맞는 원하는 출력을 생성하는 기능을 한다. 예를 들어 어플리케이션이 이미지 세그멘테이션을 위한 것이라면 이미지의 각 화소마다 그 종류(가령, 사람, 자동차, 배경, 전경 등의 구분)를 출력하게 되고, 어플리케이션이 오브젝트 디텍션이라면 이미지 내에서의 물체의 종류와 위치, 크기 정보를 출력하는 기능을 한다. 그리고 어플리케이션 로스 블록(103)은 어플리케이션 블록(102)에서 출력된 결과 값과 GT(Ground Truth)를 비교하여 로스를 계산하는 기능을 한다. 그리고 학습 장치는 계산된 로스를 이용한 백프로퍼게이션 프로세스를 통해 최적의 파라미터들을 구한다.
그리고 학습 장치(100)는 최적의 파라미터들이 정해진 다음, 어플리케이션 로스 블록(103)을 제거하고 실제 이미지 테스트 장치로 사용된다.
도 2a 는 입력 이미지의 크기와 연산량의 관계를 나타낸 그래프이며, 도 2b는 입력 이미지의 크기와 검출 정확도의 관계를 나타낸 그래프이다.
도 2a 및 도 2b에 도시된 바와 같이, 학습 장치나 테스트 장치에 포함되는 CNN 모듈의 연산량은 입력 이미지 크기와 비례하고, 이미지 검출의 정확도도 입력 이미지 크기에 비례한다.
이때, CNN 연산 장치에서 CNN 연산을 빠르게 하는 방법은 입력 이미지를 줄이는 것인데, 입력 이미지를 줄이게 되면, 연산 량이 줄어들어 CNN 연산이 빨라지는 장점은 있으나 도 2b에 도시된 바와 같이 오브젝트 디텍션 정확도는 저하되는 문제점이 발생한다. 아울러 다른 어플리케이션 블록 이용 시에도 입력 이미지가 줄어들게 되면 어플리케이션 결과 값의 정확도가 떨어지는 문제점이 발생한다.
도 3는 종래 기술에 따른 FPN(Feature Pyramid Networks)의 구성을 구비한 종래의 CNN을 이용한 특징 맵 생성 과정을 나타낸 흐름도이다.
도 3을 참조하면, 종래의 CNN 모델의 피처 컴퓨테이션 블록(101)은 컨벌루션 연산을 위한 다수의 컨벌루션 블록, 즉, 제1-1 필터 블록, 제1-2 필터 블록, 제1-3 필터 블록, …, 제1-K 필터 블록을 포함한다. 그리고 도 3에 도시된 바와 같이 제1-1 내지 제1-K 필터 블록은 다수의 컨벌루션 레이어와 ReLU 레이어 등의 액티베이션 레이어들이 교대로 임의의 수만큼 반복되는 구조로 되어 있고, 컨벌루션 연산과 비선형 연산을 반복하여 수행한다.
그리고 제1-1 필터 블록은 입력 이미지로부터 제1-1 특징 맵을 생성하고, 제1-2 필터 블록은 제1-1 특징 맵으로부터 제1-2 특징 맵을 생성하며, 제1-3 필터 블록은 제1-2 특징 맵으로부터 제1-3 특징 맵을 생성하고, 제1-4 필터 블록은 제1-3 특징 맵으로부터 제1-4 특징 맵을 생성하는 식으로 다수의 필터 블록들이 순차적으로 특징 맵들을 생성한다.
각 제1-1 필터 블록 내지 제1-K 필터 블록은 입력된 이미지의 크기를 줄이고 채널을 증가시키기 때문에, 제1-1 필터 블록으로 사이즈가 W×H×3 (각각 가로 사이즈, 세로 사이즈, 채널 크기를 의미함) 인 이미지가 입력되면, 제1-1 특징 맵은 W/2×H/2×C 의 사이즈를 가지며, 제1-2 특징 맵은 W/4×H/4×2C, 제1-3 특징 맵은 W/8×H/8×4C, 제1-4 특징 맵은 W/16×H/16×8C, …, 의 크기를 갖는다. 이와 같은 컨벌루션 블록들(제1-1 필터 블록 내지 제1-K 필터 블록)은 다양한 크기의 특징 맵들을 만들어 낸다. 이때, 첫번째 인자, 예를 들어, W, W/2, W/4는 입력 이미지의 width(폭)를 나타내고, 두번째 인자, 예를 들어, H, H/2, H/4는 입력 이미지의 height(높이)를 나타내며, 세번째 인자, 예를 들어, 3, C, 2C 는 그 채널 수를 나타낸다.
다시 도 3을 참조하면, 그리고 다수의 FPN(Feature Pyramid Networks) 블록 (제1 FPN 내지 제(K-1) FPN)들이 컨벌루션 블록(제1-1 필터 블록 내지 제1-K 필터 블록)의 연산 방향과 반대 방향으로 연결된다. 각 FPN 블록은 그 대응하는 각 필터 블록에서 전달받은 특징 맵의 채널을 변경하기 위한 1×1 컨벌루션 필터, 이웃하는 이전 FPN 블록에서 전달받은 특징 맵의 크기를 2배 증가시키기 위한 업샘플링부, 그리고 1×1 컨벌루션 필터의 출력과 업샘플링부의 출력을 합산하여 출력하는 합산부를 포함한다. 상기 업샘플링부는 이전 FPN 블록에서 전달받은 특징 맵의 크기를 대응하는 필터 블록에서 전달받은 특징 맵의 크기에 맞추도록 크기를 증가시키는 기능을 한다.
도 3에서 제4 FPN은 W/16×H/16×8C 크기의 제1-4 특징 맵을 제1-4 필터 블록으로부터 전달받아 그 사이즈를 변화시키지는 않고 제1-4 특징 맵의 채널 수를 8C에서 D 로 변환한다. 또한, 제4 FPN은 W/32×H/32×D 크기의 제P-5 특징 맵을 제5 FPN 블록으로부터 전달받아 제P-5 특징 맵을 W/16×H/16×D 로 크기 변환한다. 그런 다음, 이들을 결합하여 W/16×H/16×D 의 제P-4 특징 맵을 생성하여 제3 FPN으로 출력한다. 제3 FPN은 W/8×H/8×4C 크기의 제1-3 특징 맵을 제1-3 필터 블록으로부터 전달받아 W/8×H/8×D 로 채널 변환하고, W/16×H/16×D 크기의 제P-4 특징 맵을 제4 FPN으로부터 전달받아 W/8×H/8×D 로 크기 변환한 후, 이들을 결합하여 W/8×H/8×D 의 제P-3 특징 맵을 생성하여 제2 FPN으로 출력한다. 제2 FPN은 W/4×H/4×2C 크기의 제1-2 특징 맵을 제1-2 필터 블록으로부터 전달받아 W/4×H/4×D 로 채널 변환하고, W/8×H/8×D 크기의 제P-3 특징 맵을 제3 FPN으로부터 전달받아 W/4×H/4×D 로 크기 변환한 후, 이들을 결합하여 W/4×H/4×D 의 제P-2 특징 맵을 생성하여 제1 FPN 으로 출력한다. 제1 FPN은 W/2×H/2×C 크기의 제1-1 특징 맵을 제1-1 필터 블록으로부터 전달받아 W/2×H/2×D 로 채널 변환하고, W/4×H/4×D 크기의 제P-2 특징 맵을 제2 FPN으로부터 전달받아 W/2×H/2×D 로 크기 변환한 후, 이들을 결합하여 W/2×H/2×D 의 제P-1 특징 맵을 생성하여 출력한다. 하지만, 이와 같은 FPN 방식은 연산량이 상당하므로, 다양한 어플리케이션 블록(102)에 적용하기 어려운 점이 있었다.
따라서 본 발명에서는 CNN 연산 속도도 증가시키면서 오브젝트 디텍션 정확도 등 어플리케이션 결과물의 정확도는 유지시킬 수 있는 새로운 특징 맵 생성 방법을 제공하고자 한다.
본 발명은 CNN 장치에서 연산 속도를 증가시킬 수 있는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 CNN 장치에서 연산 속도 증가와 함께 어플리케이션 결과물의 정확도가 저하되지 않는 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 태양에 따르면, (i) 입력 이미지의 크기를 줄이는 다운샘플링 블록, (ii) 적어도 한 번의 컨벌루션 연산을 수행하여 각각의 제1-1내지 제1-K 특징 맵을 각각 획득하는 각각의 제1-1 내지 제1-K 필터 블록; 및 (iii) 상기 각각의 제1-1 내지 제1-K 필터 블록과 각각 연동하는 각각의 제2-K 내지 2-1 업샘플링 블록을 포함하는, 특징업샘플링 네트워크(FUN)를 포함하는 CNN 장치를 사용한 특징 맵 생성 방법은, (a) 상기 CNN 장치는, 상기 입력 이미지가 입력되면, 상기 다운샘플링 블록으로 하여금 상기 입력된 이미지에 소정의 연산을 수행하여 상기 입력된 이미지의 크기를 줄인 다운샘플링 이미지를 획득하도록 하는 단계; (b) 상기 CNN 장치는, 상기 다운샘플링 이미지가 획득되면, 상기 각각의 제1-1 내지 제1-K 필터 블록으로 하여금 상기 다운샘플링 이미지에 대해 상기 적어도 한 번의 컨벌루션 연산을 수행하여 상기 각각의 제1-1내지 1-K 특징 맵을 순차적으로 획득하는 단계; 및 (c) 상기 CNN 장치는, (I) 제2-1 업샘플링 블록으로 하여금 (i) 상기 다운샘플링 블록으로부터 상기 다운샘플링 이미지를 수신하고 (ii) 상기 제2-2 업샘플링 블록으로부터 상기 제2-2 특징 맵을 수신한 후 상기 2-2 특징 맵의 사이즈를 상기 다운샘플링 이미지와 동일하게 리스케일링하고, (iii) 다운샘플링 이미지와 제2-2리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 제2-1 특징 맵을 획득하고, (II) M이 1보다 크거나 같은 정수라면, 상기 제 (2-(M+1)) 업샘플링 블록으로 하여금, (i) 상기 제1-M 필터 블록으로부터 출력된 상기 제1-M 특징 맵을 수신하고, (ii) 상기 제2-(M+2) 업샘플링 블록으로부터 출력된 상기 제2-(M+2) 특징 맵을 수신한 후 상기 2-(M+2) 특징 맵의 사이즈를 상기 제1-M 특징 맵과 동일하게 리스케일링하고, (iii) 상기 제 (1-M) 특징 맵과 상기 (2-(M+2)) 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 (2-(M+1)) 특징맵을 생성함으로써, 상기 제2-K 내지 제2-2 특징 맵을 획득하는 단계;를 포함하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (c) 단계에서, 상기 CNN 장치는, M이 1 이상 (K-2) 이하의 정수 인 경우, 상기 (2-(M+1)) 업샘플링 블록으로 하여금 (i) 상기 제1-M 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제1-M 조정 특징 맵을 구하는 프로세스, (ii) 상기 제 2-(M+2) 업샘플링 블록으로부터 전달받은 상기 제2-(M+2) 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제2-(M+2) 조정 특징 맵을 획득한 후, 상기 제2-(M+2) 조정 특징 맵에 대하여 업샘플링 연산을 수행하여 상기 제2-(M+2) 리스케일드 특징 맵을 획득하고, (iii) 상기 제1-M 조정 특징 맵과 상기 제2-(M+2) 리스케일드 특징 맵을 연산하여, 상기 제2-(M+1) 특징 맵을 생성하고 ,(iv) 제 2-(M+1) 업샘플링 블록으로부터 획득한 제2-(M+1) 특징 맵을 제2-M 업샘플링 블록으로 전달하는 프로세스를 수행함으로써, 상기 제2-(K-1) 내지 상기 제2-2 특징 맵을 획득하게 하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (c) 단계에서, 상기 CNN 장치는, (i) 상기 다운샘플링 이미지에 대하여 상기 제2-1 업샘플링 블록 내의 상기 제1 필터를 사용한 컨벌루션 연산을 수행하여 상기 다운샘플링 이미지의 채널 수가 변경된 조정 특징 맵을 구하고, (ii) 상기 제 (2-2) 특징 맵에 대하여 상기 제2-1 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제2-2 조정 특징 맵을 구한 후, 상기 제2-2 조정 특징 맵에 대하여 크기를 늘리는 업샘플링 연산을 수행하여 제2-2 리스케일드 특징 맵을 구하고, (iii) 상기 다운샘플링 이미지의 조정 특징 맵과 상기 제2-2 리스케일드 특징 맵을 연산하여, 상기 제 (2-1) 특징 맵을 생성함으로써, 상기 제2-1 특징 맵을 제 2-1 업샘플링 블록으로부터 획득하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (c) 단계에서, 상기 CNN 장치는, 상기 제 (2-K) 업샘플링 블록으로 하여금 (i) 상기 제1-(K-1) 특징 맵에 대하여 상기 제2-K 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제1-(K-1) 조정 특징 맵을 구하고, (ii) 상기 제1-K 특징 맵에 대하여 업샘플링 연산을 수행하여 제1-K 리스케일드 특징 맵을 구하고, (iii) 상기 제1-(K-1) 조정 특징 맵과 상기 제1-K 리스케일드 특징 맵을 연산하여 상기 (2-K) 특징 맵을 생성하고, (iv) 제 2-K 업샘플링 블록으로부터 획득한 상기 (2-K) 특징 맵을 제2-(K-1) 업샘플링 블록으로 전달하는 프로세스를 수행함으로써, 상기 2-K 특징 맵을 획득하게 하는 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 제1-M 특징 맵의 채널 수를 상기 제2-(M+2) 조정 특징 맵의 채널 수와 동일하게 조정하기 위한 연산이며, 상기 제2-1 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 다운샘플링 이미지의 채널 수를 상기 제2-2 조정 특징 맵의 채널 수와 동일하게 변경하기 위한 연산인 것을 특징으로 하는 방법이 제공된다.
일예로서, 상기 (b) 단계에서, 상기 CNN 장치는, 상기 다운샘플링 블록으로부터 획득한 상기 다운샘플링 이미지에 컨벌루션 연산을 수행하여 생성된 제1-1 특징 맵을 상기 제1-1 필터 블록으로부터 획득한 후, 제1-M 필터 블록으로부터 획득한 제1-M 특징 맵에 컨벌루션 연산을 수행하여 생성된 제1-(M+1) 특징 맵을 제1-(M+1) 필터 블록으로부터 획득하되, M 은 2부터 (K-1)까지의 정수인 것을 특징으로 하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, (i) 입력 이미지의 크기를 줄이는 다운샘플링 블록, (ii) 컨벌루션 연산을 적어도 한 번 수행하여 각각의 제1-1 내지 제1-K 특징 맵을 획득하는 각각의 제1-1 내지 제1-K 필터 블록; (iii) 상기 각각의 제1-1 내지 제1-K 필터 블록과 각각 연동하는 제2-K 내지 2-1 업샘플링 블록; 을 포함하는, 특징 맵을 생성하기 위한 특징업샘플링 네트워크(FUN)를 포함하는 CNN을 적용한 장치는, 입력 이미지를 수신하는 통신부; 및 (1) 입력 이미지를 획득하면 다운 샘플링 블록으로 하여금 입력 이미지에 소정의 연산을 가함으로써 상기 입력된 이미지의 크기를 줄인 다운샘플링 이미지를 획득하도록 하는 프로세스; (2) 상기 다운샘플링 이미지가 획득되면, 상기 제1-1 내지 상기 제1-K 필터 블록들 각각으로 하여금 상기 다운샘플링 이미지에 하나 이상의 컨벌루션 연산을 적용하여 각각 상기 제1-1 내지 상기 제1-K 특징 맵을 획득하게 하는 프로세스 및 (3) (I) 상기 제2-1 업 샘플링 블록으로 하여금 (i) 상기 다운 샘플링 블록으로부터 상기 다운샘플링 이미지를 수신하게 하고, (ii) 상기 제2-2 업 샘플링 블록으로부터 상기 제2-2 특징 맵을 수신하여, 상기 제2-2 특징 맵의 사이즈를 상기 다운샘플링 이미지의 사이즈와 동일하게 리스케일링하게 하고, (iii) 상기 다운샘플링 이미지와 제2-2 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 제2-1 특징 맵을 획득하고, (II) M이 1보다 크거나 같은 정수라면, 상기 제 (2-(M+1)) 업샘플링 블록으로 하여금, (i) 상기 제1-M 필터 블록으로부터 출력된 상기 제1-M 특징 맵을 수신하고, (ii) 상기 제2-(M+2) 업샘플링 블록으로부터 출력된 상기 제2-(M+2) 특징 맵을 수신한 후 상기 2-(M+2) 특징 맵의 사이즈를 상기 제1-M 특징 맵과 동일하게 리스케일링하고, (iii) 상기 제 (1-M) 특징 맵과 상기 (2-(M+2)) 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 (2-(M+1)) 특징맵을 생성함으로써, 상기 제2-K 내지 제2-2 특징 맵을 획득하는 프로세스;를 수행하는 프로세서를 포함하는 것을 특징으로 하는 장치가 제공된다.
일예로서, 상기 (3) 프로세스에 있어서, 상기 프로세서는, M이 1 이상 (K-2) 이하의 정수 인 경우, 상기 (2-(M+1)) 업샘플링 블록으로 하여금 (i) 상기 제1-M 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제1-M 조정 특징 맵을 구하는 프로세스, (ii) 상기 제 2-(M+2) 업샘플링 블록으로부터 전달받은 상기 제2-(M+2) 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제2-(M+2) 조정 특징 맵을 획득한 후, 상기 제2-(M+2) 조정 특징 맵에 대하여 업샘플링 연산을 수행하여 상기 제2-(M+2) 리스케일드 특징 맵을 획득하고, (iii) 상기 제1-M 조정 특징 맵과 상기 제2-(M+2) 리스케일드 특징 맵을 연산하여, 상기 제2-(M+1) 특징 맵을 생성하고 ,(iv) 제 2-(M+1) 업샘플링 블록으로부터 획득한 제2-(M+1) 특징 맵을 제2-M 업샘플링 블록으로 전달하는 프로세스를 수행함으로써, 상기 제2-(K-1) 내지 상기 제2-2 특징 맵을 획득하게 하는 것을 특징으로 하는 장치가 제공된다.
일예로서, 상기 (3) 프로세스에 있어서, 상기 프로세서는, (i) 상기 다운샘플링 이미지에 대하여 상기 제2-1 업샘플링 블록 내의 상기 제1 필터를 사용한 컨벌루션 연산을 수행하여 상기 다운샘플링 이미지의 채널 수가 변경된 조정 특징 맵을 구하고, (ii) 상기 제 (2-2) 특징 맵에 대하여 상기 제2-1 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제2-2 조정 특징 맵을 구한 후, 상기 제2-2 조정 특징 맵에 대하여 크기를 늘리는 업샘플링 연산을 수행하여 제2-2 리스케일드 특징 맵을 구하고, (iii) 상기 다운샘플링 이미지의 조정 특징 맵과 상기 제2-2 리스케일드 특징 맵을 연산하여, 상기 제 (2-1) 특징 맵을 생성함으로써, 상기 제2-1 특징 맵을 제 2-1 업샘플링 블록으로부터 획득하는 것을 특징으로 하는 장치가 제공된다.
일예로서, 상기 (3) 프로세스에서, 상기 프로세서는, 상기 제 (2-K) 업샘플링 블록으로 하여금 (i) 상기 제1-(K-1) 특징 맵에 대하여 상기 제2-K 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제1-(K-1) 조정 특징 맵을 구하고, (ii) 상기 제1-K 특징 맵에 대하여 업샘플링 연산을 수행하여 제1-K 리스케일드 특징 맵을 구하고, (iii) 상기 제1-(K-1) 조정 특징 맵과 상기 제1-K 리스케일드 특징 맵을 연산하여 상기 (2-K) 특징 맵을 생성하고, (iv) 제 2-K 업샘플링 블록으로부터 획득한 상기 (2-K) 특징 맵을 제2-(K-1) 업샘플링 블록으로 전달하게 하는 프로세스를 수행함으로써, 상기 2-K 특징 맵을 획득하게 하는 것을 특징으로 하는 장치가 제공된다.
일예로서, 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 제1-M 특징 맵의 채널 수를 상기 제2-(M+2) 조정 특징 맵의 채널 수와 동일하게 조정하기 위한 연산이며, 상기 제2-1 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 다운샘플링 이미지의 채널 수를 상기 제2-2 조정 특징 맵의 채널 수와 동일하게 변경하기 위한 연산인 것을 특징으로 하는 장치가 제공된다.
일예로서, 상기 (2) 프로세스에서, 상기 프로세서는, 상기 다운샘플링 블록으로부터 획득한 상기 다운샘플링 이미지에 컨벌루션 연산을 수행하여 생성된 제1-1 특징 맵을 상기 제1-1 필터 블록으로부터 획득한 후, 제1-M 필터 블록으로부터 획득한 제1-M 특징 맵에 컨벌루션 연산을 수행하여 생성된 제1-(M+1) 특징 맵을 제1-(M+1) 필터 블록으로부터 획득하되, M 은 2부터 (K-1)까지의 정수인 것을 특징으로 하는 장치가 제공된다.
본 발명에 따르면, 입력 이미지의 크기를 다운 샘플링 한 이후, 컨벌루션 연산 과정을 수행하여 이미지의 사이즈가 작아짐에 따라 CNN 연산량이 줄어드는 효과가 있다.
또한, 본 발명은 어플리케이션 블록의 결과물의 정확도의 하락 없이 CNN 연산 속도가 빨라지는 효과가 있다.
또한, 본 발명에 따르면 업샘플링 블록에서 연산되는 특징 맵들의 채널 수가 기존에 비해 현저히 줄어듦에 따라 CNN 연산량이 줄고 CNN 연산 속도가 증가한다.
또한, 본 발명에 따르면 어플리케이션 로스 블록에서 구한 로스와 리그레션 로스 블록에서 구한 추가적인 리그레션 로스를 통해 학습을 수행하기 때문에 더 효율적인 학습이 가능하다.
도 1은 일반적인 CNN 모델의 학습 장치를 나타낸다.
도 2a는 입력 이미지의 크기와 연산량의 관계를 나타낸 그래프이고, 도 2b는 입력 이미지의 크기와 검출 정확도의 관계를 나타낸 그래프이다.
도 3은 종래 기술에 따른 FPN(Feature Pyramid Networks)의 구성을 구비한 종래의 CNN을 이용한 특징 맵 생성 과정을 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 FUN을 포함하는 구성을 구비한 CNN을 이용하여 특징 맵을 생성하는 과정을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 업샘플링 블록과 이의 예시적인 연산 방법을 나타낸다.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 FUN을 포함하도록 구성된 CNN을 적용한 학습 장치의 구성도를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 물체를 검출하기 위한 장치의 구성도를 나타낸다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 FUN을 포함하는 구성을 구비한 CNN을 이용하여 특징 맵을 생성하는 과정을 나타낸 흐름도이다.
본 발명에 따른 FUN (Feature Upsampling Networks)를 이용한 CNN 장치의 피처 컴퓨테이션 블록(400)은 도 3에 도시된 FPN을 이용한 CNN 장치와 달리 입력 이미지를 다수 개의 필터 블록, 즉 컨벌루션 필터로 입력하기 전에 이미지의 크기를 줄이는 다운샘플링 블록(401)을 포함한다.
상기 다운샘플링 블록(401)은 입력 이미지의 크기를 줄인 다운샘플링 이미지를 생성하는 기능을 수행한다. 만일 입력 이미지가 W×H×3 의 사이즈를 갖는다면, 다운샘플링 블록(401)에서 출력된 다운샘플링 이미지(D_IMAGE)는 W/2×H/2×3 의 사이즈를 가질 수 있다. 도 4에서는 다운샘플링 블록(401)이 입력 이미지의 사이즈를 가로 세로 각각 1/2씩 줄이는 예를 나타냈지만, 다운샘플링 블록(401)에서 줄이는 비율은 다양할 수 있을 것이다.
한편, 본 발명에 따른 CNN 모델도 층층이 연결된 다수의 컨벌루션 블록, 즉, 제1-1 필터 블록(410_1), 제1-2 필터 블록(410_2), 제1-3 필터 블록(410_3), …, 제1-K 필터 블록(410_K)을 포함한다.
구체적으로 제1-1 내지 제1-K 필터 블록 각각은 다수의 컨벌루션 레이어와 ReLU 레이어 등의 액티베이션 레이어들이 교대로 임의의 수만큼 반복되는 구조로 되어 있고, 컨벌루션 연산과 비선형 연산을 반복하여 수행될 수 있다.
도 4를 참조하면, 제1-1 필터 블록(410_1)은 입력 이미지에서 제1-1 특징 맵(1-1 FEAT)을 형성하고, 제1-2 필터 블록(410_2)은 제1-1 특징 맵에서 제1-2 특징 맵(1-2 FEAT)을 형성하며, 제1-3 필터 블록(410_3)은 제1-2 특징 맵에서 제1-3 특징 맵(1-3 FEAT)을 형성한다. 이와 같은 과정은 마지막 필터 블록까지 계속되며, 도 4의 예에서는, 마지막 필터 블록 즉, 제1-4 필터 블록(410_4)이 제1-3 특징 맵에서 제1-4 특징 맵(1-4 FEAT)을 형성한다.
그러나 각 제1-1 필터 블록 내지 제1-K 필터 블록은 이미 1번 다운샘플링된 이미지를 입력받아 이를 순차적으로 컨벌루션 연산하여 입력된 이미지의 크기를 줄이고 채널을 증가시켜 특징 맵들을 생성하기 때문에, 제1-1 필터 블록(410_1)으로는 사이즈가 W×H×3 인 입력 이미지 대신 사이즈가 W/2×H/2×3 인 다운샘플링 이미지가 입력된다. 이에 따라 제1-1 필터 블록(410_1)은 사이즈가 W/2×H/2×3 다운샘플링 이미지를 입력받아 사이즈가 W/4×H/4×C 인 제1-1 특징 맵을 생성하여 출력하며, 제1-2 필터 블록(410_2)은 사이즈가 W/4×H/4×C 제1-1 특징 맵을 입력받아 사이즈가 W/8×H/8×2C 인 제1-2 특징 맵을 생성하여 출력한다. 이와 같은 과정은 나머지 각각의 필터 블록에서 계속 수행되어 특징 맵들 중에서 최소의 사이즈와 최대의 채널수를 갖는 최종 특징 맵이 생성될 때까지 이어진다. 즉, 제1-3 필터 블록(410_3)은 사이즈가 W/8×H/8×2C 제1-2 특징 맵을 입력받아 사이즈가 W/16×H/16×4C 인 제1-3 특징 맵을 생성하여 출력하며, 제1-4 필터 블록(410_4)은 사이즈가 W/16×H/16×4C 제1-3 특징 맵을 입력받아 사이즈가 W/32×H/32×8C 인 제1-4 특징 맵을 생성하여 출력하며, 이와 같은 방식으로 제1-5 필터 블록(410_5) 내지 제1-K 필터 블록(410_K)은 제1-5 특징 맵 내지 제1-K 특징 맵을 형성하여 출력한다.
도 3에 도시된 피처 컴퓨테이션 블록(101)과 비교하여 도 4에 도시된 본 발명에 따른 피처 컴퓨테이션 블록(400)은 동일한 이미지가 입력되었을 때, 크기가 줄어든 특징 맵에 대해 연산을 수행하기 때문에 연산량이 크게 줄어들 수 있다. 즉, 각각의 필터 블록들, 즉, 제1-1 내지 제1-k 필터 블록들이 도 3에 도시된 필터 블록들과 비교하여 크기가 절반인 특징 맵들에 컨벌루션 연산을 수행하기에, 전체 컨벌루션 블록에 필요한 연산 량이 줄어들고 이에 따라 전체 컨벌루션 블록들의 성능이 향상될 수 있다.
다시 도 4를 참조하면, 본 발명에 따른 피처 컴퓨테이션 블록(400)은 FUN (Feature Upsampling Networks)라는 블록(이하 업샘플링 블록이라 한다)을 이용하여 각각의 특징 맵들을 각각의 해당되는 원래의 크기로 되돌릴 수 있다.
구체적으로 도 4에서는 제1 FUN 블록(또는 제2-1 업샘플링 블록; 420_1) 내지 제K FUN 블록(또는 제2-K 업샘플링 블록; 420_K) 각각은 제1-1 필터 블록 내지 제1-K 필터 블록들 중 대응하는 필터 블록과 연동되어 상기 제1-1 필터 블록(410_1)으로부터 시작하여 제1-K 필터 블록(410_K)으로 진행되는 연산 방향과 반대 방향으로의 연산, 즉 제K FUN 블록(420_K)에서 제1 FUN 블록(420_1)로의 방향으로 연산을 수행한다.
각각의 업샘플링 블록, 즉, 제2-1 업샘플링 블록(420_1) 내지 제2-K 업샘플링 블록(420_K)는 각각 제1 입력 특징 맵의 채널을 변경하기 위한 제1 필터(420_1_A), 즉, 1×1 컨벌루션 필터를 포함하고, 제2 입력 특징 맵의 채널을 변경하기 위한 제2 필터(420_1_B), 즉, 1×1 컨벌루션 필터를 포함하며, 그리고 제2 필터(420_1_B)의 출력의 크기를 업샘플링하기 위한 스케일-업 블록(420_1_C), 그리고 제1 필터(420_1_A)의 출력과 스케일-업 블록(420_1_C)의 출력을 결합하여 출력하는 합산 블록(420_1_D)을 포함한다.
예를 들어, 제2-1 업샘플링 블록(420_1) 내의 제1 필터(420_1_A)는 다운샘플링 이미지(D_Image)에 대하여 컨벌루션 연산을 수행하여 다운샘플링 이미지의 채널 변경 특징 맵(또는 조정 특징 맵)(D_Image_A)을 구하는 프로세스를 수행하며, 제2-1 업샘플링 블록 내의 제2 필터(420_1_B)는 제 2-2 업샘플링 블록(420_2)으로부터 전달받은 제2-2 특징 맵(2-2 FEAT)에 대하여 컨벌루션 연산을 수행하여 제2-2 채널 변경 특징 맵(조정 특징 맵)(2-2 FEAT_A)을 구하는 프로세스를 수행하고, 제2-1 업샘플링 블록 내의 스케일-업 블록(420_1_C)은 상기 제2-2 채널 변경 특징 맵(2-2 FEAT_A)에 대하여 크기를 늘리는 업샘플링 연산을 수행하여 제2-2 리스케일드 특징 맵(2-2 FEAT_B)을 구하는 프로세스를 수행하며, 제2-1 업샘플링 블록 내의 합산 블록(420_1_D)은 상기 다운샘플링 이미지의 채널 변경 특징 맵(조정 특징 맵)(D_Image_A)과 상기 제2-2 리스케일드 특징 맵(2-2 FEAT_B)을 연산하여 제2-1 특징 맵(2-1 FEAT)을 생성하여 출력하는 프로세스를 수행한다.
이때 제2-1 업샘플링 블록 내의 스케일-업 블록(420_1_C)은 다운샘플링 블록(401)의 다운샘플링 비율을 참조로 하여 상기 제2-2 채널 변경 특징 맵(이하 '조정 특징 맵'으로 지칭한다)(2-2 FEAT_A)에 대한 업샘플링 비율을 정하고, 정해진 업샘플링 비율에 따라 제2-2 리스케일드 특징 맵(2-2 FEAT_B)을 생성할 수 있다.
그리고 M 이 1 이상 K-2 이하의 정수인 경우, 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 제1 필터(420_(M+1)_A)는 제1-M 필터 블록으로부터 전달받은 제1-M 특징 맵 (1-M FEAT)에 대하여 컨벌루션 연산을 수행하여 제1-M 특징 맵의 채널 변경 특징 맵(제1-M 조정 특징 맵; 1-M FEAT_A)을 구하는 프로세스를 수행하며, 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 제2 필터(420_(M+1)_B)는 제 2-(M+2) 업샘플링 블록(420_(M+2))으로부터 전달받은 제2-(M+2) 특징 맵(2-(M+2) FEAT)에 대하여 컨벌루션 연산을 수행하여 제2-(M+2) 조정 특징 맵(2-(M+2) FEAT_A)을 구하는 프로세스를 수행한다. 그런 다음, 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 스케일-업 블록(420_(M+1)_C)은 상기 제2-(M+2) 조정 특징 맵(2-(M+2) FEAT_A)에 대하여 크기를 상기 제1-M 조정 특징 맵(1-M FEAT_A)의 크기에 맞도록 늘리는 업샘플링 연산을 수행하여 제2-(M+2) 리스케일드 특징 맵(2-(M+2) FEAT_B)을 구하는 프로세스를 수행한다. 그리고, 제2-(M+1) 업샘플링 블록 내의 합산 블록(420_(M+1)_D)은 상기 제1-M 조정 특징 맵(1-M FEAT_A)과 상기 제2-(M+2) 리스케일드 특징 맵(2-(M+2) FEAT_B)에 소정의 연산, 즉 합산(summing-up) 연산을 수행하여 제2-(M+1) 특징 맵(2-(M+1) FEAT)을 생성하여 출력하는 프로세스를 수행한다. 이와 같은 방식으로 각각의 제2-K 내지 제2-2 특징 맵을 획득한다.
그리고, 상술한 경계 조건의 하나로, 제2-1 업샘플링 블록(420_1)은 상기 다운-샘플링 블록(401)로부터 다운-샘플링 이미지(D_IMAGE)를 전달받고, 제2-2 업샘플링 블록(420_2)로부터 제2-2 특징 맵(2-2 FEAT)를 전달받아, 제2-2 조정 특징 맵(2-2 FEAT_A)의 크기를 다운-샘플링 이미지(D_IMAGE_A)의 조정 특징 맵의 크기와 맞도록 리스케일링하고, 양 특징 맵, 즉 2-2 FEAT_A 및 D_IAMGE_A에 소정의 연산을 적용하여 제2-1 특징 맵(2-1 FEAT)를 생성한다.
다른 경계 조건으로, 제2-K 업샘플링 블록(420_K) 내의 제1 필터(420_K_A)는 제1-(K-1) 필터 블록으로부터 전달받은 제1-(K-1) 특징 맵 (1-(K-1) FEAT)에 대하여 컨벌루션 연산을 수행하여 제1-(K-1) 특징 맵의 채널 변경 특징 맵(제1-(K-1) 조정 특징 맵; 1-(K-1) FEAT_A)을 구하는 프로세스를 수행한다. 제2-K 업샘플링 블록(420_K) 내의 제2 필터(420_K_B)는 제 1-K 필터 블록(410_K) 으로부터 전달받은 제1-K 특징 맵(1-K FEAT)에 대하여 컨벌루션 연산을 수행하여 제1-K 조정 특징 맵(1-K FEAT_A)을 구하는 프로세스를 수행한다. 그런 다음, 제2-K 업샘플링 블록(420_K) 내의 스케일-업 블록(420_K_C)은 상기 제1-K 조정 특징 맵(1-K FEAT_A)에 대하여 크기를 늘리는 업샘플링 연산을 수행하여 제1-K 리스케일드 특징 맵(1-K FEAT_B)을 구하는 프로세스를 수행한다. 그리고 제2-K 업샘플링 블록 내의 합산 블록(420_K_D)은 상기 제1-(K-1) 조정 특징 맵(1-(K-1) FEAT_A)과 상기 제1-K 리스케일드 특징 맵(1-K FEAT_B)을 연산하여 제2-K 특징 맵(2-K FEAT)을 생성하여 출력하는 프로세스를 수행한다.
한편, 제1-(K-1) 특징 맵 (1-(K-1) FEAT)과 제1-K 특징 맵(1-K FEAT)의 채널 수가 2배 차이이면, 제2-K 업샘플링 블록(420_K) 내의 제2 필터(420_K_B)의 연산은 생략될 수 있다. 이 경우에는, 제2-K 업샘플링 블록(420_K) 은 제1-K 특징 맵(1-K FEAT)에 대한 채널 변경을 위한 제2 필터(420_K_B)를 포함하지 않으며, 제2-K 업샘플링 블록(420_K) 내의 스케일-업 블록(420_K_C)이 상기 제1-K 특징 맵(1-K FEAT)에 대하여 바로 크기를 늘리는 업샘플링 연산을 직접 수행하여 제1-K 리스케일드 특징 맵(1-K FEAT_B)을 구하는 프로세스를 수행한다. 그리고 제2-K 업샘플링 블록 내의 합산 블록(420_K_D)은 상기 제1-(K-1) 조정 특징 맵(1-(K-1) FEAT_A)과 상기 제1-K 리스케일드 특징 맵(1-K FEAT_B)에 소정의 연산, 즉, 합산(summing-up) 연산을 수행하여 제2-K 특징 맵(2-K FEAT)을 생성하여 출력하는 프로세스를 수행한다.
도 5는 본 발명의 일 실시예에 따른 업샘플링 블록과 이의 예시적인 연산 방법을 나타낸다.
도 5의 업샘플링 블록은 제2-(M+1) 업샘플링 블록의 예를 나타낸다. 도 5를 참조하면, 1-M 특징 맵(1-M FEAT)이 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 제1 필터(420_(M+1)_A)를 통과하면 1-M 특징 맵(1-M FEAT)의 채널은 2배 증가하여 1-M 특징 맵(1-M FEAT)과 사이즈는 동일하지만 채널은 2배인 제1-M 조정 특징 맵(1-M FEAT_A)이 생성된다.
그리고 제2-(M+2) 특징 맵(2-(M+2) FEAT)이 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 제2 필터(420_(M+1)_B)를 통과하면 채널은 1/2배 감소하여 제2-(M+2) 특징 맵(2-(M+2) FEAT)과 사이즈는 동일하지만 채널은 1/2배인 제2-(M+2) 조정 특징 맵(2-(M+2) FEAT_A)이 생성된다.
또한, 제2-(M+2) 조정 특징 맵(2-(M+2) FEAT_A)이 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 스케일-업 블록(420_(M+1)_C)을 통과하면 크기가 2배 증가하여 제2-(M+2) 조정 특징 맵(2-(M+2) FEAT_A)과 채널은 동일하지만 크기는 2배인 제2-(M+2) 리스케일드 특징 맵(2-(M+2) FEAT_B)이 형성된다.
그리고 제1-M 조정 특징 맵(1-M FEAT_A)과 제2-(M+2) 리스케일드 특징 맵(2-(M+2) FEAT_B)은 크기와 채널이 동일하기 때문에 제2-(M+1) 업샘플링 블록 내의 합산 블록(420_(M+1)_D)에서 소정의 연산, 즉 합산될 수 있다. 이렇게 소정의 연산(즉, 합산)된 결과는 제2-(M+1) 특징 맵(2-(M+1) FEAT)이 된다.
즉, 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터(420_(M+1)_A)를 사용한 컨벌루션 연산과 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 제2 필터(420_(M+1)_B)를 사용한 컨벌루션 연산은 제1-M 특징 맵(1-M FEAT)의 채널 수와 제2-(M+2) 특징 맵(2-(M+2) FEAT)의 채널 수를 동일하게 변경하기 위한 것이다. 일 예로 도 5에 도시된 제2-(M+1) 업샘플링 블록 내의 제1 필터(420_(M+1)_A)는 제1-M 특징 맵(1-M FEAT)의 채널 수는 2배 증가시키고 도 5에 도시된 제2-(M+1) 업샘플링 블록 내의 제2 필터(420_(M+1)_B)는 제2-(M+2) 특징 맵(2-(M+2) FEAT)의 채널 수는 1/2배 감소시켜 서로 동일한 채널 수로 만들어 서로의 채널 수를 동일하게 만든다.
그리고 제2-(M+1) 업샘플링 블록(420_(M+1)) 내의 스케일-업 블록(420_(M+1)_C)은 제1-M 특징 맵(1-M FEAT)의 사이즈와 제2-(M+2) 특징 맵(2-(M+2) FEAT)의 사이즈를 동일하게 변경하기 위한 것이다. 일 예로 상기 스케일-업 블록은 제2-(M+2) 조정 특징 맵(2-(M+2) FEAT_A)의 사이즈를 제1-M 특징 맵(1-M FEAT)의 사이즈와 동일하게 하기 위해 2배 증가시키는 역할을 수행한다. 그러나 증가 비율은 여기에 한정되지 않는다. 이것은 다운샘플링 이미지(D_Image)를 입력받는 제2-1 업샘플링 블록(420_1)과 1-K 특징 맵(1-K FEAT)을 입력받는 제2-K 업샘플링 블록(420_K)에도 동일하게 적용된다.
도 4에 도시된 일 실시예에서, 제2-4 업샘플링 블록(FUN4; 420_4)은 크기와 채널 수가 W/16×H/16×4C 인 제1-3 특징 맵을 전달받아 크기와 채널 수가 W/16×H/16×8C 로 변환하여 제1-3 특징 맵의 크기는 유지한 채 채널 수를 4C에서 8C로 변환한다. 또한, 제2-4 업샘플링 블록(FUN4; 420_4)은 크기와 채널 수가 W/32×H/32×16C 인 제2-5 특징 맵(2-5 FEAT)을 전달받아 W/16×H/16×8C 로 채널과 사이즈를 변환한 후, 제2-5 리스케일드 특징 맵과 제1-3 조정 특징 맵을 결합하여 W/16×H/16×8C 의 제2-4 특징 맵(2-4 FEAT)을 생성하여 출력한다. 마찬가지로 제2-3 업샘플링 블록(FUN3; 420_3) 및 제2-2 업샘플링블록(FUN2; 420_2)도 위에서 설명한 동일한 과정을 수행하여, 제2-2 특징 맵까지 생성하고 이를 제2-1 업샘플링 블록(FUN1; 420_1)로 전달한다. 제2-1 업샘플링 블록(FUN1; 420_1)은 크기와 채널 수가 W/2×H/2×3 인 다운샘플링 이미지(D_Image)를 전달받아 크기는 유지한 채 채널 수를 3에서 C로 변경한 W/2×H/2×C 로 변환한다.
그리고 제2-1 업샘플링 블록(FUN1; 420_1)은 크기와 채널 수가 W/4×H/4×2C 인 제2-2 특징 맵(2-2 FEAT)을 전달받아 W/2×H/2×C 로 채널과 사이즈를 변환한다. 그런 다음, 제2-1 업샘플링 블록(FUN1; 420_1)은 상기 제2-2 리스케일드 특징 맵과 상기 다운-샘플링 이미지의 조정 특징 맵에 소정의 연산 즉, 합산(summing-up) 연산을 하여 크기와 채널 수가 W/2×H/2×C 인 제2-1 특징 맵(2-1 FEAT)을 생성하여 출력한다.
한편, 도 3에 도시된 종래의 FPN 블록들을 포함하는 CNN 장치에서는 FPN 블록들이 각각의 FPN 블록들에 의해 생성된 특징 맵 각각의 채널 수를 유지하여 최종 특징 맵까지 채널 수가 동일하게 유지된다(미도시). 즉, 각각의 제1 FPN 내지 제(K-1) FPN에 입력되는 2개의 특징 맵 중 직전 FPN으로부터 입력되는 특징 맵의 채널 수는, 가장 채널 수가 많은 특징 맵(1-K 특징 맵)의 채널 수와 동일한 D 개이며, 각각의 제1 FPN 내지 제(K-1) FPN 에서 생성하여 출력하는 특징 맵의 채널 수도 D 개인 것을 확인할 수 있다.
이에 비해, 도 4에 도시된 FUN (업샘플링 블록)을 포함한 CNN 장치에서는 FUN 블록들이 각 FUN 블록들에 의해 생성된 특징 맵 각각의 채널 수를 이들에 대응하는 입력 특징 맵의 채널 수의 절반으로 줄인다. 크기에 대해서는, 각각의 FPN 블록들에 의해 생성된 각 특징 맵들은 각각의 FUN 블록들에 의해 생성된 특징맵과 동일한 크기를 갖는다. 예를 들어, 각 제2-K 업샘플링 블록 내지 제2-1 업샘플링 블록에 입력되는 각 특징 맵들의 채널 수들은, 가장 채널 수가 많은 특징 맵(1-K 특징 맵)의 채널 수인 D 보다 1/2배씩 점차 작아진다. 예를 들어 제2-2 업샘플링 블록(420_2)으로 입력되는 2개 특징 맵들의 채널 수는 각각 C, 4C이고 제2-2 업샘플링 블록(420_2)에서 생성되는 특징 맵의 채널 수는 2C이며, 제2-1 업샘플링 블록(420_1)으로 입력되는 2개 특징 맵들의 채널 수는 각각 3, 2C이고 제2-1 업샘플링 블록(420_1)에서 생성되는 특징 맵의 채널 수는 C가 되는 등, 도 3의 FPN에서 처리되는 특징 맵들의 채널 수에 비해 상당히 작은 차이점이 있다.
따라서 본 발명에 따른 CNN 장치는 연산되는 특징 맵들의 채널 수 감소로 CNN 연산 량이 줄어들게 되고 이에 따라 CNN 연산 속도가 증가할 수 있다. 또한, FUN 블록들을 포함하도록 구성된 CNN 을 이용한 장치가, CNN 에 의해 수행되는 연산량을 줄이더라도, FUN 블록들에 의해 생성된 각 특징 맵들의 크기(dimension)는 상기 FPN 블록들로부터 출력된 각 특징 맵의 크기와 동일하다. 따라서, FUN 블록들의 구성을 구비한 CNN과 FPN 블록들의 구성을 구비한 종래의 CNN 사이에서는 물체 검출 같은 어플리케이션이나 다른 어플리케이션에 의해 생성된 결과의 정확도에 대해서는 별 차이가 없게 된다. 구체적으로, 도 4의 본 발명에 따른 CNN 모델에서 각 업샘플링 블록(제2-1 업샘플링 블록 내지 제2-K 업샘플링 블록)에서 출력되는 특징 맵(2-1 특징 맵 내지 제2-K 특징 맵)의 사이즈는 도 3의 기존의 CNN 모델에서 각 FPN 에서 출력되는 특징 맵의 크기와 동일하다. 예를 들어, 도 3 및 도 4에서 입력되는 이미지의 사이즈가 W×H×3 이라면, 제1 FPN의 출력(P-1 FEAT)의 크기는 W/2×H/2×D이고, 제2-1 업샘플링 블록의 출력(2-1 FEAT)의 크기는 W/2×H/2×C 로 서로 크기가 동일하며, 제2 FPN의 출력(P-2 FEAT)의 크기는 W/4×H/4×D이고, 제2-2 업샘플링 블록의 출력(2-2 FEAT)의 크기는 W/4×H/4×2C 로 서로 크기가 동일하고, 이하 M 번째 FPN의 출력과 제2-M 업샘플링 블록의 출력도 서로 크기가 동일함을 알 수 있다. 즉, 본 발명에 따른 CNN 장치에서는 CNN 연산량을 줄이면서도 FUN에서 생성되는 특징 맵의 크기는 기존의 CNN 장치의 FPN에서 생성되는 특징 맵의 크기와 동일하기 때문에 오브젝트 디텍션 정확도 또는 다른 어플리케이션 결과물의 정확도는 기존의 CNN 모델과 거의 차이가 없다.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 FUN을 포함하도록 구성된 CNN을 적용한 학습 장치의 구성도를 나타낸다.
도 6a를 참조하면, 본 발명에 따른 CNN 학습 장치(600)는 스튜던트 피처 컴퓨테이션 블록(601), 어플리케이션 블록(602), 어플리케이션 로스 블록(603), 티쳐 피처 컴퓨테이션 블록(604) 및 리그레션 로스 블록(605)을 포함한다.
스튜던트 피처 컴퓨테이션 블록(601)은 다운샘플링 블록(401)과 FUN 블록들(제2-1 업샘플링 블록(420_1) 내지 제2-K 업샘플링 블록(420_K))이 포함되어 연산량을 줄인 가벼운 구조를 갖고 있다. 스튜던트 피처 컴퓨테이션 블록(601)은 입력 이미지가 입력되었을 때 다운샘플링 블록, 컨벌루션 블록 및 FUN (업샘플링 블록) 등의 조합으로 상기 입력 이미지로부터 특징 맵들을 획득하는 기능을 한다. 어플리케이션 블록(602)과 어플리케이션 로스 블록(603)은 도 1의 어플리케이션 블록(102)과 어플리케이션 로스 블록(103)과 동일하여 그 중복되는 내용의 설명은 생략한다.
티쳐 피처 컴퓨테이션 블록(또는 티쳐 인코딩 레이어로 지칭될 수 있다; 604)은 상기 입력 이미지(스튜던트 피처 컴퓨테이션 블록(601)에 인가된 입력 이미지와 동일함)에 대응되는 특징 맵에 대하여 다운샘플링 블록을 거치지 않고 컨벌루션 연산을 복수 회 수행하되, 상기 제2-1 특징 맵, 제2-2 특징 맵, …, 제2-K 특징 맵의 크기에 대응되는 크기를 갖는 T-1, T-2, …, T-K 특징 맵을 각각 형성하는 기능을 한다. 여기서, 스튜던트 피처 컴퓨테이션 블록(601)은 티쳐 컴퓨테이션 블록(604)과 동일한 입력 이미지를 입력 받는다.
리그레션 로스 블록(605)은 티쳐 피처 컴퓨테이션 블록(604)에서 생성되는 특징 맵들(T-1 특징 맵, T-2 특징 맵, …, T-K 특징 맵) 각각과 스튜던트 피처 컴퓨테이션 블록(601)에서 생성된 특징 맵들 (제2-1 특징 맵, 제2-2 특징 맵, …, 제2-K 특징 맵) 각각을 비교하여 리그레션 로스 값을 획득하고, 상기 리그레션 로스 값을 이용한 제2 백 프로퍼게이션 과정을 통해 상기 제1-1 내지 상기 제1-K 필터 블록 및 상기 2-1 내지 상기 2-K 업샘플링 블록의 파라미터를 조정하는 기능을 한다.
구체적으로, 장치(600)는 상기 제1 및 제2 백 프로퍼게이션 과정 동안 상기 리그레션 로스를 통해 어플리케이션-특정 로스를 줄이는 방향으로 학습 과정을 진행할 수 있다. 어플리케이션-특정 로스는 어플리케이션 로스 블록(603)을 통해 획득되고, 리그레션 로스는 리그레션 로스 블록(605)을 통해 획득된다. 학습 과정은 어플리케이션 로스 블록(603)에서 어플리케이션-특정 로스만을 줄이는 것이 아니라 스튜던트 피처 컴퓨테이션 블록(601)의 FUN 블록들이 만들어내는 특징 맵들이 티쳐 피처 컴퓨테이션 블록(604)이 만들어 내는 특징 맵들과 비슷해지도록 리그레션 로스도 함께 줄이는 방향으로 학습을 진행한다. 이에 따라, 리그레션 로스들도 같이 줄어들도록 학습된다.
다시 말하면, 어플리케이션 로스 블록(603)을 통한 제1 백프로퍼게이션 프로세스는 스튜던트 피처 컴퓨테이션 블록(601)과 어플리케이션 블록(602)의 파라미터들을 조절하는 기능을 하며, 리그레션 로스 블록(605)을 통한 제2 백프로퍼게이션 프로세스는 스튜던트 피처 컴퓨테이션 블록(601)의 파라미터를 조절하는 기능을 한다. 이에 따라 스튜던트 피처 컴퓨테이션 블록(601) 내의 각 필터 블록(제1-1 필터 블록 내지 제1-K 필터 블록)과 FUN 블록 (제2-1 업샘플링 블록 내지 2-K 업샘플링 블록)의 파라미터는 어플리케이션 로스 블록(603)에서 구한 어플리케이션-특정 로스와 리그레션 로스 블록(605)에서 구한 추가적인 리그레션 로스를 통해 조정된다. 이에 따라 장치(600)의 성능 학습은 더 효율적인 학습이 가능하다.
도 6b는 도 6a에서 스튜던트 피처 컴퓨테이션 블록(601)이 도 4의 특징 맵 생성 과정이 나타나도록 하고, 아울러 티쳐 피처 컴퓨테이션 블록(604) 및 리그레션 로스 블록(605)을 구체적으로 나타낸 도면이다.
도 6b를 참조하면, 티쳐 피처 컴퓨테이션 블록(604)은 다수개의 필터 블록(610_1, 610_2, 610_3, …, 610_K)을 포함한다. 이때 상술한 바와 같이, 티쳐 피처 컴퓨테이션 블록(604)은 스튜던트 피처 컴퓨테이션 블록(601)에 입력되는 이미지와 동일한 이미지를 입력받아 컨벌루션 연산을 복수 회 수행하되, 티쳐 피처 컴퓨테이션 블록(604)은 스튜던트 피처 컴퓨테이션 블록(601)과 달리 다운-샘플링 블록을 포함하지 않고 다운샘플링 블록을 거치지 않고 컨벌루션 연산을 복수 회 수행한다.
구체적으로, 제T-1 필터 블록(610_1)은 크기와 채널 수가 W×H×3 인 입력 이미지에 대해 컨벌루션 연산하여 크기와 채널 수가 W/2×H/2×C 인 제T-1 특징 맵(T-1 Feat)을 출력한다. 그리고 제T-2 필터 블록(610_2)은 크기와 채널 수가 W/2×H/2×C 인 제T-1 특징 맵(T-1 Feat)에 대해 컨벌루션 연산하여 크기와 채널 수가 W/4×H/4×2C 인 제T-2 특징 맵(T-2 Feat)을 출력한다. 마찬가지로 제T-3 필터 블록(610_3)은 크기와 채널 수가 W/4×H/4×2C 인 제T-2 특징 맵(T-2 Feat)에 대해 컨벌루션 연산하여 크기와 채널 수가 W/8×H/8×4C 인 제T-23 특징 맵(T-3 Feat)을 출력한다. 이에 따라 차례로 제T-1 특징 맵 내지 제T-K 특징 맵이 생성된다.
그러면 도 6b에 도시된 바와 같이 리그레션 로스 블록(605)은 크기와 채널 수가 W/2×H/2×C 로 동일한 제2-1 특징 맵(2-1 Feat)과 제T-1 특징 맵(T-1 Feat)을 비교하여 제1 리그레션 로스를 산출한다. 마찬가지로, 리그레션 로스 블록(605)은 크기와 채널 수가 W/4×H/4×2C 로 동일한 제2-2 특징 맵(2-2 Feat)과 제T-2 특징 맵(T-2 Feat)을 비교하여 제2 리그레션 로스를 산출하고, 크기와 채널 수가 W/8×H/8×4C 로 동일한 제2-3 특징 맵(2-3 Feat)과 제T-3 특징 맵(T-3 Feat)을 비교하여 제3 리그레션 로스를 산출하는 식으로 각 제2-1 특징 맵 내지 제2-K 특징 맵에 대한 리그레션 로스들을 산출한다. 그리고 장치(600)는 이렇게 산출된 리그레션 로스를 이용한 제2 백 프로퍼게이션 과정을 통해 제1-1 내지 제1-K 필터 블록 및 2-1 내지 2-K 업샘플링 블록의 파라미터를 조정한다. 이때, 티쳐 피처 컴퓨테이션 블록의 제T-1, 제T-2, …, T-K 필터 블록(610_1, 610_2, …, 610_K)은 사전 학습을 통해 얻은 고정된 파라미터를 이용하여 학습을 진행한다. 그리고, 도 6a의 장치(600)는 각 파라미터에 대한 학습이 완료되면 스튜던트 피처 컴퓨테이션 블록(601)과 어플리케이션 블록(602) 만을 이용하여 테스트 과정을 수행할 수 있다.
도 7은 본 발명의 일 실시예에 따른 물체를 검출하기 위한 장치의 구성도를 나타낸다. 도 7에 도시된 예에서는 어플리케이션 블록(602)이 오브젝트 디텍션 블록(물체 검출 블록, 700)인 경우를 나타낸다. 도 7를 참조하면 피처 컴퓨테이션 블록(400)에서 생성된 특징 맵들(2-1 FEAT, 2-2 FEAT, …, 2-K FEAT)이 오브젝트 디텍션 블록(700)으로 전달되고, 오브젝트 디텍션 블록(700)에서는 피처 컴퓨테이션 블록(400)로부터 특징 맵들 중 적어도 일부를 전달받을 수 있다. 구체적으로, 오브젝트 디텍션 블록(700) 내의 FC 레이어 들은 전달받은 특징 맵들에 특정 연산, 예를 들어, FC 연산, 리그레션 연산, 또는 클래시피케이션 연산을 수행하여 중간 산물을 획득하고, 이들을 머지 레이어에 전달하여 어플리케이션-특정 출력을 생성한다. 여기서 어플리케이션- 특정 출력은 물체를 검출한 결과이다.
도 7을 다시 참조하면, 본 발명에 따른 피처 컴퓨테이션 블록(400)은 연산량이 줄고 연산 속도가 증가하였지만 검출 정확도는 그대로 유지할 수 있다. 여기서, 어플리케이션 블록(602)의 예는 도 7에 도시된 시맨틱 세그멘테이션 블록 또는 오브젝트 디텍션 블록(700)일 수 있다.
본 발명 기술분야의 통상의 기술자에게 이해될 수 있는 바로서, 위에서 설명된 이미지, 예컨대 입력 이미지, 트레이닝 이미지, 테스트 이미지와 같은 이미지 데이터의 송수신이 학습 장치 및 테스트 장치의 통신부들에 의하여 이루어질 수 있으며, 특징 맵과 연산을 수행하기 위한 데이터가 학습 장치 및 테스트 장치의 프로세서(및/또는 메모리)에 의하여 보유/유지될 수 있고, 컨벌루션 연산, 디컨벌루션 연산, 에러 값 연산 과정이 주로 학습 장치 및 테스트 장치의 프로세서에 의하여 수행될 수 있으나, 본 발명이 이에 한정되지는 않을 것이다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (12)

  1. (i) 입력 이미지의 크기를 줄이는 다운샘플링 블록, (ii) 적어도 한 번의 컨벌루션 연산을 수행하여 각각의 제1-1내지 제1-K 특징 맵을 각각 획득하는 각각의 제1-1 내지 제1-K 필터 블록; 및 (iii) 상기 각각의 제1-1 내지 제1-K 필터 블록과 각각 연동하는 각각의 제2-K 내지 2-1 업샘플링 블록을 포함하는, 특징업샘플링 네트워크(FUN)를 포함하는 CNN 장치를 사용한 특징 맵 생성 방법에 있어서,
    (a) 상기 CNN 장치는, 상기 입력 이미지가 입력되면, 상기 다운샘플링 블록으로 하여금 상기 입력된 이미지에 소정의 연산을 수행하여 상기 입력된 이미지의 크기를 줄인 다운샘플링 이미지를 획득하도록 하는 단계;
    (b) 상기 CNN 장치는, 상기 다운샘플링 이미지가 획득되면, 상기 각각의 제1-1 내지 제1-K 필터 블록으로 하여금 상기 다운샘플링 이미지에 대해 상기 적어도 한 번의 컨벌루션 연산을 수행하여 상기 각각의 제1-1내지 1-K 특징 맵을 순차적으로 획득하는 단계; 및
    (c) 상기 CNN 장치는, (I) 제2-1 업샘플링 블록으로 하여금 (i) 상기 다운샘플링 블록으로부터 상기 다운샘플링 이미지를 수신하고 (ii) 상기 제2-2 업샘플링 블록으로부터 상기 제2-2 특징 맵을 수신한 후 상기 2-2 특징 맵의 사이즈를 상기 다운샘플링 이미지와 동일하게 리스케일링하고, (iii) 다운샘플링 이미지와 제2-2리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 제2-1 특징 맵을 획득하고, (II) M이 1보다 크거나 같은 정수라면, 상기 제 (2-(M+1)) 업샘플링 블록으로 하여금, (i) 상기 제1-M 필터 블록으로부터 출력된 상기 제1-M 특징 맵을 수신하고, (ii) 상기 제2-(M+2) 업샘플링 블록으로부터 출력된 상기 제2-(M+2) 특징 맵을 수신한 후 상기 2-(M+2) 특징 맵의 사이즈를 상기 제1-M 특징 맵과 동일하게 리스케일링하고, (iii) 상기 제 (1-M) 특징 맵과 상기 (2-(M+2)) 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 (2-(M+1)) 특징맵을 생성함으로써, 상기 제2-K 내지 제2-2 특징 맵을 획득하는 단계;
    를 포함하는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    상기 (c) 단계에서,
    상기 CNN 장치는, M이 1 이상 (K-2) 이하의 정수 인 경우, 상기 (2-(M+1)) 업샘플링 블록으로 하여금 (i) 상기 제1-M 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제1-M 조정 특징 맵을 구하는 프로세스, (ii) 상기 제 2-(M+2) 업샘플링 블록으로부터 전달받은 상기 제2-(M+2) 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제2-(M+2) 조정 특징 맵을 획득한 후, 상기 제2-(M+2) 조정 특징 맵에 대하여 업샘플링 연산을 수행하여 상기 제2-(M+2) 리스케일드 특징 맵을 획득하고, (iii) 상기 제1-M 조정 특징 맵과 상기 제2-(M+2) 리스케일드 특징 맵을 연산하여, 상기 제2-(M+1) 특징 맵을 생성하고 ,(iv) 제 2-(M+1) 업샘플링 블록으로부터 획득한 제2-(M+1) 특징 맵을 제2-M 업샘플링 블록으로 전달하는 프로세스를 수행함으로써, 상기 제2-(K-1) 내지 상기 제2-2 특징 맵을 획득하게 하는 것을 특징으로 하는 방법.
  3. 제 2 항에 있어서,
    상기 (c) 단계에서,
    상기 CNN 장치는, (i) 상기 다운샘플링 이미지에 대하여 상기 제2-1 업샘플링 블록 내의 상기 제1 필터를 사용한 컨벌루션 연산을 수행하여 상기 다운샘플링 이미지의 채널 수가 변경된 조정 특징 맵을 구하고, (ii) 상기 제 (2-2) 특징 맵에 대하여 상기 제2-1 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제2-2 조정 특징 맵을 구한 후, 상기 제2-2 조정 특징 맵에 대하여 크기를 늘리는 업샘플링 연산을 수행하여 제2-2 리스케일드 특징 맵을 구하고, (iii) 상기 다운샘플링 이미지의 조정 특징 맵과 상기 제2-2 리스케일드 특징 맵을 연산하여, 상기 제 (2-1) 특징 맵을 생성함으로써, 상기 제2-1 특징 맵을 제 2-1 업샘플링 블록으로부터 획득하는 것을 특징으로 하는 방법.
  4. 제 2 항에 있어서,
    상기 (c) 단계에서,
    상기 CNN 장치는, 상기 제 (2-K) 업샘플링 블록으로 하여금 (i) 상기 제1-(K-1) 특징 맵에 대하여 상기 제2-K 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제1-(K-1) 조정 특징 맵을 구하고, (ii) 상기 제1-K 특징 맵에 대하여 업샘플링 연산을 수행하여 제1-K 리스케일드 특징 맵을 구하고, (iii) 상기 제1-(K-1) 조정 특징 맵과 상기 제1-K 리스케일드 특징 맵을 연산하여 상기 (2-K) 특징 맵을 생성하고, (iv) 제 2-K 업샘플링 블록으로부터 획득한 상기 (2-K) 특징 맵을 제2-(K-1) 업샘플링 블록으로 전달하는 프로세스를 수행함으로써, 상기 2-K 특징 맵을 획득하게 하는 것을 특징으로 하는 방법.
  5. 제 2 항에 있어서,
    상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 제1-M 특징 맵의 채널 수를 상기 제2-(M+2) 조정 특징 맵의 채널 수와 동일하게 조정하기 위한 연산이며,
    상기 제2-1 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 다운샘플링 이미지의 채널 수를 상기 제2-2 조정 특징 맵의 채널 수와 동일하게 변경하기 위한 연산인 것을 특징으로 하는 방법.
  6. 제 1 항에 있어서,
    상기 (b) 단계에서,
    상기 CNN 장치는, 상기 다운샘플링 블록으로부터 획득한 상기 다운샘플링 이미지에 컨벌루션 연산을 수행하여 생성된 제1-1 특징 맵을 상기 제1-1 필터 블록으로부터 획득한 후, 제1-M 필터 블록으로부터 획득한 제1-M 특징 맵에 컨벌루션 연산을 수행하여 생성된 제1-(M+1) 특징 맵을 제1-(M+1) 필터 블록으로부터 획득하되, M 은 2부터 (K-1)까지의 정수인 것을 특징으로 하는 방법.
  7. (i) 입력 이미지의 크기를 줄이는 다운샘플링 블록, (ii) 컨벌루션 연산을 적어도 한 번 수행하여 각각의 제1-1 내지 제1-K 특징 맵을 획득하는 각각의 제1-1 내지 제1-K 필터 블록; (iii) 상기 각각의 제1-1 내지 제1-K 필터 블록과 각각 연동하는 제2-K 내지 2-1 업샘플링 블록; 을 포함하는, 특징 맵을 생성하기 위한 특징업샘플링 네트워크(FUN)를 포함하는 CNN을 적용한 장치에 있어서,
    입력 이미지를 수신하는 통신부; 및
    (1) 입력 이미지를 획득하면 다운 샘플링 블록으로 하여금 입력 이미지에 소정의 연산을 가함으로써 상기 입력된 이미지의 크기를 줄인 다운샘플링 이미지를 획득하도록 하는 프로세스; (2) 상기 다운샘플링 이미지가 획득되면, 상기 제1-1 내지 상기 제1-K 필터 블록들 각각으로 하여금 상기 다운샘플링 이미지에 하나 이상의 컨벌루션 연산을 적용하여 각각 상기 제1-1 내지 상기 제1-K 특징 맵을 획득하게 하는 프로세스 및 (3) (I) 상기 제2-1 업 샘플링 블록으로 하여금 (i) 상기 다운 샘플링 블록으로부터 상기 다운샘플링 이미지를 수신하게 하고, (ii) 상기 제2-2 업 샘플링 블록으로부터 상기 제2-2 특징 맵을 수신하여, 상기 제2-2 특징 맵의 사이즈를 상기 다운샘플링 이미지의 사이즈와 동일하게 리스케일링하게 하고, (iii) 상기 다운샘플링 이미지와 제2-2 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 제2-1 특징 맵을 획득하고, (II) M이 1보다 크거나 같은 정수라면, 상기 제 (2-(M+1)) 업샘플링 블록으로 하여금, (i) 상기 제1-M 필터 블록으로부터 출력된 상기 제1-M 특징 맵을 수신하고, (ii) 상기 제2-(M+2) 업샘플링 블록으로부터 출력된 상기 제2-(M+2) 특징 맵을 수신한 후 상기 2-(M+2) 특징 맵의 사이즈를 상기 제1-M 특징 맵과 동일하게 리스케일링하고, (iii) 상기 제 (1-M) 특징 맵과 상기 (2-(M+2)) 리스케일드 특징 맵에 소정의 연산을 수행하여, 상기 (2-(M+1)) 특징맵을 생성함으로써, 상기 제2-K 내지 제2-2 특징 맵을 획득하는 프로세스;를 수행하는 프로세서
    를 포함하는 것을 특징으로 하는 장치.
  8. 제 7 항에 있어서,
    상기 (3) 프로세스에 있어서,
    상기 프로세서는, M이 1 이상 (K-2) 이하의 정수 인 경우, 상기 (2-(M+1)) 업샘플링 블록으로 하여금 (i) 상기 제1-M 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제1-M 조정 특징 맵을 구하는 프로세스, (ii) 상기 제 2-(M+2) 업샘플링 블록으로부터 전달받은 상기 제2-(M+2) 특징 맵에 대하여 상기 제2-(M+1) 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널이 변경된 제2-(M+2) 조정 특징 맵을 획득한 후, 상기 제2-(M+2) 조정 특징 맵에 대하여 업샘플링 연산을 수행하여 상기 제2-(M+2) 리스케일드 특징 맵을 획득하고, (iii) 상기 제1-M 조정 특징 맵과 상기 제2-(M+2) 리스케일드 특징 맵을 연산하여, 상기 제2-(M+1) 특징 맵을 생성하고 ,(iv) 제 2-(M+1) 업샘플링 블록으로부터 획득한 제2-(M+1) 특징 맵을 제2-M 업샘플링 블록으로 전달하는 프로세스를 수행함으로써, 상기 제2-(K-1) 내지 상기 제2-2 특징 맵을 획득하게 하는 것을 특징으로 하는 장치.
  9. 제 8 항에 있어서,
    상기 (3) 프로세스에 있어서,
    상기 프로세서는, (i) 상기 다운샘플링 이미지에 대하여 상기 제2-1 업샘플링 블록 내의 상기 제1 필터를 사용한 컨벌루션 연산을 수행하여 상기 다운샘플링 이미지의 채널 수가 변경된 조정 특징 맵을 구하고, (ii) 상기 제 (2-2) 특징 맵에 대하여 상기 제2-1 업샘플링 블록 내의 제2 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제2-2 조정 특징 맵을 구한 후, 상기 제2-2 조정 특징 맵에 대하여 크기를 늘리는 업샘플링 연산을 수행하여 제2-2 리스케일드 특징 맵을 구하고, (iii) 상기 다운샘플링 이미지의 조정 특징 맵과 상기 제2-2 리스케일드 특징 맵을 연산하여, 상기 제 (2-1) 특징 맵을 생성함으로써, 상기 제2-1 특징 맵을 제 2-1 업샘플링 블록으로부터 획득하는 것을 특징으로 하는 장치.
  10. 제 8 항에 있어서,
    상기 (3) 프로세스에서,
    상기 프로세서는, 상기 제 (2-K) 업샘플링 블록으로 하여금 (i) 상기 제1-(K-1) 특징 맵에 대하여 상기 제2-K 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산을 수행하여 채널 수가 변경된 제1-(K-1) 조정 특징 맵을 구하고, (ii) 상기 제1-K 특징 맵에 대하여 업샘플링 연산을 수행하여 제1-K 리스케일드 특징 맵을 구하고, (iii) 상기 제1-(K-1) 조정 특징 맵과 상기 제1-K 리스케일드 특징 맵을 연산하여 상기 (2-K) 특징 맵을 생성하고, (iv) 제 2-K 업샘플링 블록으로부터 획득한 상기 (2-K) 특징 맵을 제2-(K-1) 업샘플링 블록으로 전달하게 하는 프로세스를 수행함으로써, 상기 2-K 특징 맵을 획득하게 하는 것을 특징으로 하는 장치.
  11. 제 8 항에 있어서,
    상기 제2-(M+1) 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 제1-M 특징 맵의 채널 수를 상기 제2-(M+2) 조정 특징 맵의 채널 수와 동일하게 조정하기 위한 연산이며,
    상기 제2-1 업샘플링 블록 내의 제1 필터를 사용한 컨벌루션 연산은 상기 다운샘플링 이미지의 채널 수를 상기 제2-2 조정 특징 맵의 채널 수와 동일하게 변경하기 위한 연산인 것을 특징으로 하는 장치.
  12. 제 7 항에 있어서,
    상기 (2) 프로세스에서,
    상기 프로세서는, 상기 다운샘플링 블록으로부터 획득한 상기 다운샘플링 이미지에 컨벌루션 연산을 수행하여 생성된 제1-1 특징 맵을 상기 제1-1 필터 블록으로부터 획득한 후, 제1-M 필터 블록으로부터 획득한 제1-M 특징 맵에 컨벌루션 연산을 수행하여 생성된 제1-(M+1) 특징 맵을 제1-(M+1) 필터 블록으로부터 획득하되, M 은 2부터 (K-1)까지의 정수인 것을 특징으로 하는 장치.
KR1020180117320A 2017-10-04 2018-10-02 Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치 KR102192850B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/724,588 US10043113B1 (en) 2017-10-04 2017-10-04 Method and device for generating feature maps by using feature upsampling networks
US15/724,588 2017-10-04

Publications (2)

Publication Number Publication Date
KR20190039458A true KR20190039458A (ko) 2019-04-12
KR102192850B1 KR102192850B1 (ko) 2020-12-18

Family

ID=63014093

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180117320A KR102192850B1 (ko) 2017-10-04 2018-10-02 Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US10043113B1 (ko)
EP (1) EP3467721B1 (ko)
JP (1) JP6679688B2 (ko)
KR (1) KR102192850B1 (ko)
CN (1) CN109635817B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210012004A (ko) * 2019-07-18 2021-02-02 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 이미지 처리 방법 및 장치, 전자 기기와 기억 매체
WO2023128421A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 컨볼루션 신경망을 이용한 이미지 처리 방법 및 장치

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3635953B1 (en) 2018-08-31 2023-10-04 Samsung Electronics Co., Ltd. Electronic device for high-speed compression processing of feature map of cnn utilizing system and controlling method thereof
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
CN109544553B (zh) * 2018-09-27 2023-06-02 天津大学 以空间水平和垂直方向为通道方向的神经网络上采样方法
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10467500B1 (en) 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
EP3721382B1 (en) 2018-12-31 2022-10-12 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system of annotation densification for semantic segmentation
CN109672885B (zh) * 2019-01-08 2020-08-04 中国矿业大学(北京) 一种用于矿井智能监控的视频图像编解码方法
US10509987B1 (en) * 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN113592004A (zh) * 2019-02-25 2021-11-02 深圳市商汤科技有限公司 分配方法及装置、电子设备和存储介质
WO2020261324A1 (ja) * 2019-06-24 2020-12-30 日本電信電話株式会社 物体検出認識装置、物体検出認識方法、及び物体検出認識プログラム
CN110568445A (zh) * 2019-08-30 2019-12-13 浙江大学 一种轻量化卷积神经网络的激光雷达与视觉融合感知方法
CN110910329B (zh) * 2019-11-27 2022-09-02 中国科学技术大学 一种以需求为导向的图像去噪方法
CN111210443B (zh) * 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111310805B (zh) * 2020-01-22 2023-05-30 中能国际高新科技研究院有限公司 一种对图像中的目标进行密度预测的方法、装置及介质
CN111369582B (zh) * 2020-03-06 2023-04-07 腾讯科技(深圳)有限公司 图像分割方法、背景替换方法、装置、设备及存储介质
US20240005649A1 (en) * 2020-09-07 2024-01-04 Intel Corporation Poly-scale kernel-wise convolution for high-performance visual recognition applications
CN112950703B (zh) * 2021-03-11 2024-01-19 无锡禹空间智能科技有限公司 小目标的检测方法、装置、存储介质及设备
US11475240B2 (en) * 2021-03-19 2022-10-18 Apple Inc. Configurable keypoint descriptor generation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100963006B1 (ko) * 2007-11-16 2010-06-09 경희대학교 산학협력단 변환 영역에서 영상 이미지의 크기를 변환하는 방법 및 그장치
KR20160081248A (ko) * 2014-12-31 2016-07-08 인천대학교 산학협력단 화질 개선 및 소형 적외선 이미지에 대한 확대 알고리즘
KR20160144660A (ko) * 2015-06-09 2016-12-19 김태경 컨볼루션 신경망을 위한 개선된 분류 층
KR101721062B1 (ko) * 2013-11-30 2017-03-29 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK177154B1 (da) * 2010-12-17 2012-03-05 Concurrent Vision Aps Method and device for parallel processing of images
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
WO2016132150A1 (en) * 2015-02-19 2016-08-25 Magic Pony Technology Limited Enhancing visual data using and augmenting model libraries
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US10417555B2 (en) * 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
CN105184779B (zh) * 2015-08-26 2018-04-06 电子科技大学 一种基于快速特征金字塔的车辆多尺度跟踪方法
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
CN108603922A (zh) * 2015-11-29 2018-09-28 阿特瑞斯公司 自动心脏体积分割
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
EP3391290A4 (en) * 2015-12-16 2019-08-07 Intel Corporation PYRAMIDAL NETWORKS FULLY CONVOLVED FOR PEDESTRIAN DETECTION
GB2545661A (en) * 2015-12-21 2017-06-28 Nokia Technologies Oy A method for analysing media content
JP6873600B2 (ja) * 2016-03-04 2021-05-19 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US10095957B2 (en) * 2016-03-15 2018-10-09 Tata Consultancy Services Limited Method and system for unsupervised word image clustering
US9779492B1 (en) * 2016-03-15 2017-10-03 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction
US9864912B2 (en) * 2016-03-30 2018-01-09 Nec Corporation Large margin high-order deep learning with auxiliary tasks for video-based anomaly detection
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
US10176425B2 (en) * 2016-07-14 2019-01-08 University Of Dayton Analog neuromorphic circuits for dot-product operation implementing resistive memories
CN106503729A (zh) * 2016-09-29 2017-03-15 天津大学 一种基于顶层权值的图像卷积特征的生成方法
US10401866B2 (en) * 2017-05-03 2019-09-03 GM Global Technology Operations LLC Methods and systems for lidar point cloud anomalies
CN107145908B (zh) * 2017-05-08 2019-09-03 江南大学 一种基于r-fcn的小目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100963006B1 (ko) * 2007-11-16 2010-06-09 경희대학교 산학협력단 변환 영역에서 영상 이미지의 크기를 변환하는 방법 및 그장치
KR101721062B1 (ko) * 2013-11-30 2017-03-29 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 얼굴 이미지들의 데이터로부터 얼굴 특징들을 추출하는 방법 및 시스템
KR20160081248A (ko) * 2014-12-31 2016-07-08 인천대학교 산학협력단 화질 개선 및 소형 적외선 이미지에 대한 확대 알고리즘
KR20160144660A (ko) * 2015-06-09 2016-12-19 김태경 컨볼루션 신경망을 위한 개선된 분류 층

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xiaoyong Shen 외 3명. 'Convolutional Neural Pyramid for Image Processing'. Published in ArXiv 2017, 2017.04.07, pp.1-10. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210012004A (ko) * 2019-07-18 2021-02-02 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 이미지 처리 방법 및 장치, 전자 기기와 기억 매체
WO2023128421A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 컨볼루션 신경망을 이용한 이미지 처리 방법 및 장치

Also Published As

Publication number Publication date
EP3467721B1 (en) 2023-08-23
JP2019067406A (ja) 2019-04-25
CN109635817A (zh) 2019-04-16
US10043113B1 (en) 2018-08-07
CN109635817B (zh) 2023-04-28
JP6679688B2 (ja) 2020-04-15
EP3467721A1 (en) 2019-04-10
KR102192850B1 (ko) 2020-12-18
EP3467721C0 (en) 2023-08-23

Similar Documents

Publication Publication Date Title
KR20190039458A (ko) Fun을 사용하여 특징 맵을 생성하기 위한 방법 및 장치
KR20190039459A (ko) Fun을 사용하여 cnn의 성능을 향상시키기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한, 테스트 방법 및 테스트 장치
KR102144381B1 (ko) 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
CN109905624B (zh) 一种视频帧插值方法、装置及设备
JP6720268B2 (ja) マルチスケール特徴マップを利用してcnnのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置
JP7350841B2 (ja) 畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム
JP6682595B2 (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
CN109891434B (zh) 使用神经网络生成音频
CN106991646B (zh) 一种基于密集连接网络的图像超分辨率方法
JP6676722B2 (ja) アクティベーション演算とコンボリューション演算を同時に遂行するための方法及び装置、そしてこのための学習方法及び学習装置
CN109670574B (zh) 用于同时执行激活和卷积运算的方法和装置及其学习方法和学习装置
CN111179167A (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
JP7133045B2 (ja) 特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体
JP2023548468A (ja) 深層学習ベースの音声強調
CN111178217A (zh) 人脸图像的检测方法及设备
CN114519667A (zh) 一种图像超分辨率重建方法及系统
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术
JP2022121382A (ja) 連写映像基盤の映像復元方法及び装置
CN116508099A (zh) 基于深度学习的语音增强
EP4036804A1 (en) Method and apparatus for training neural network model
CN113554047A (zh) 图像处理模型的训练方法、图像处理方法及对应的装置
CN114360490B (zh) 语音合成方法、装置、计算机设备和存储介质
KR102326206B1 (ko) 스케일 변동에 강건한 컨볼루셔널 뉴럴 네트워크를 위한 피처맵을 생성하는 방법 및 이를 이용한 컴퓨팅 장치
US20220398696A1 (en) Image processing method and device, and computer-readable storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant