KR102144381B1 - 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치 - Google Patents

이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치 Download PDF

Info

Publication number
KR102144381B1
KR102144381B1 KR1020180117308A KR20180117308A KR102144381B1 KR 102144381 B1 KR102144381 B1 KR 102144381B1 KR 1020180117308 A KR1020180117308 A KR 1020180117308A KR 20180117308 A KR20180117308 A KR 20180117308A KR 102144381 B1 KR102144381 B1 KR 102144381B1
Authority
KR
South Korea
Prior art keywords
filter
feature map
filters
learning
loss
Prior art date
Application number
KR1020180117308A
Other languages
English (en)
Other versions
KR20190039383A (ko
Inventor
김용중
남운현
부석훈
성명철
유우주
정경중
제홍모
조호진
Original Assignee
주식회사 스트라드비젼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스트라드비젼 filed Critical 주식회사 스트라드비젼
Publication of KR20190039383A publication Critical patent/KR20190039383A/ko
Application granted granted Critical
Publication of KR102144381B1 publication Critical patent/KR102144381B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명에서는 이미지 세그멘테이션을 위한 학습 방법 및 테스트 방법 그리고 이를 이용한 학습 장치와 테스트 장치가 개시되는 바, 이는 딥 러닝을 이용한 이미지 인식 기술 분야에 속한 것이다. 학습 장치는, 제 2-1 필터에서 제2-K 필터 방향으로 그리고 이어서 제1-K 필터에서 1-1 필터 방향으로 각 필터의 파라미터를 조정하기 위한 파라미터 조정용 특징 맵을 각 필터마다 생성하여 전달할 때, M 이 1 이상 K 이하의 정수인 경우, 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 파라미터 조정용 특징 맵에 대하여 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 파라미터 조정용 특징 맵을 구하는 프로세스 및 상기 제M1 파라미터 조정용 특징 맵과 제M 로스를 연산하여 획득된 제M2 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스를 수행하여 백프로포게이션을 수행한다.

Description

이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치{LEARNING METHOD AND DEVICE FOR IMAGE SEGMENTATION AND IMAGE SEGMENTATION METHOD AND DEVICE USING THE SAME}
본 발명은 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치에 관한 것이다. 보다 상세하게는, (i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여 이미지의 세그멘테이션의 성능 향상을 위한 학습 방법에 있어서, (a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스를 수행하는 단계; 및 (b) 상기 학습 장치는, 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 파라미터 임시 특징 맵을 구하는 프로세스, (2) 상기 제M1 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수임 - 를 수행하는 단계를 포함하되, 상기 (b) 단계의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12파라미터 조정용 특징 맵을 구한 후, 상기 제2-1 필터는 상기 제12파라미터 조정용 특징 맵을 제2-2 필터로 전달하는 것을 특징으로 하는 단계; 를 포함하는 학습 방법 및 이를 이용한 학습 장치, 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치에 관한 것이다.
딥 컨벌루션 뉴럴 네트워크(Deep Convolution Neural Networks; Deep CNNs)는 딥 러닝 분야에서 일어난 놀라운 발전의 핵심이다. CNNs은 글자 인식 문제를 풀기 위해 90년대에 이미 사용되었지만, 현재처럼 널리 쓰이게 된 것은 최근의 연구 결과 덕분이다. 이러한 딥 CNN은 2012년 ImageNet 이미지 분류 시합에서 다른 경쟁자들을 이기고 우승을 차지했다. 그리고 나서 컨벌루션 뉴럴 네트워크는 Machine Learning 분야에서 매우 유용한 툴이 되었다.
한편, 이미지 세그멘테이션은 입력으로 이미지(트레이닝 이미지 or 테스트 이미지)를 받아서 출력으로 라벨(label) 이미지를 만들어내는 방법이다. 최근 딥러닝(Deep learning) 기술이 각광을 받으면서 세그멘테이션도 딥러닝을 많이 사용하는 추세이다.
도 1은 종래 기술에 따른 CNN을 사용하여 이미지 세그멘테이션을 위한 학습 과정을 개략적으로 나타내는 도면이다.
도 1을 참조하면, 트레이닝 이미지 등의 입력 이미지가 입력되면 복수 개의 컨벌루션 필터에서 여러 번의 컨볼루션 연산을 수행하여 특징 맵을 획득한다. 그리고 나서 최종적으로 생성된 특징 맵을 다시 복수 개의 디컨벌루션 필터에서 여러 번의 디컨볼루션 연산을 수행하여 라벨 이미지를 획득한다. 이렇게 컨볼루션 연산으로 입력 이미지를 인코딩하여 특징 맵을 획득하고, 특징 맵을 디코딩하여 다시 라벨 이미지를 획득하는 구조를 인코딩-디코딩 네트워크, 또는 U-Net이라고 한다. 인코딩 과정에서 각 컨볼루션 연산을 수행할 때마다 입력 이미지의 크기가 1/2로 줄어지게 되는데, 이는 이미지 사이즈를 줄여서 연산량을 줄이고자 하기 위함이다. 또한 인코딩 과정에서 컨볼루션 필터를 통해 입력된 이미지의 채널 수는 증가하는 데 이는 줄여진 연산량의 이득을 활용하면서도 늘어난 채널을 통해 복잡한 패턴을 얻어내기 위함이다. 일반적으로 인코딩 과정에서 각각의 컨볼루션 필터를 거칠 때마다 이미지 사이즈는 1/2로 줄어들고 채널 수는 2배로 늘어난다. 이렇게 줄어든 특징 맵은 고주파 영역이 많이 제거되고 저주파 영역 위주의 정보를 가지게 되는데 이러한 저주파 영역은 이미지의 의미있는(meaningful) 부분, 즉, 하늘, 도로, 건물, 자동차 등 자세한 부분을 의미한다. 이러한 의미있는 파트를 디컨볼루션 연산 즉, 디코딩 연산을 통해 라벨 이미지로 유추하게 된다.
한편, Deep learning을 채택한 CNN의 학습하는 과정에서, 트레이닝 이미지에서 산출된 라벨 이미지와 Ground Truth 이미지 (또는 Ground Truth label image)와의 차이인 로스를 계산하고, 라벨 이미지를 구하는 과정과 반대 방향으로 넘기는 백프로포게이션 과정을 통해 상기 계산된 로스를 뒤로 넘겨줘 학습을 하게 된다. 그러나 이러한 연산은 로스가 뒤로 넘어갈수록 로스가 작아지고, U-Net에서 각 필터의 파라미터를 조정하기에는 너무 작다는 문제점이 있다.
따라서, 이러한 문제를 해결하기 위해 U-net의 맨 마지막 단계에서 구한 로스가 백프로포게이션 과정으로 뒤로 넘겨져도 정확한 로스를 반영할 수 있도록 하기 위한 새로운 기술을 필요로 하게 되었다.
본 발명은 이미지 세그멘테이션을 위한 학습 과정에서 로스가 백프로포게이션 과정에서 작아지지 않도록 하기 위한 학습 환경을 제공하는 것을 목적으로 한다.
또한 본 발명은 백프로포게이션 과정에서 정확한 로스를 반영하여 최적의 파라미터를 찾을 수 있는 학습 환경을 제공하는 것을 목적으로 한다.
또한 본 발명은 최적의 파라미터를 찾아 정확한 이미지 세그멘테이션을 수행할 수 있는 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따르면, (i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여 이미지의 세그멘테이션의 성능 향상을 위한 학습 방법은, (a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스를 수행하는 단계; 및 (b) 상기 학습 장치는, 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 파라미터 임시 특징 맵을 구하는 프로세스, (2) 상기 제M1 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수임 - 를 수행하는 단계를 포함하되, 상기 (b) 단계의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12파라미터 조정용 특징 맵을 구한 후, 상기 제2-1 필터는 상기 제12파라미터 조정용 특징 맵을 제2-2 필터로 전달하는 것을 특징으로 하는 학습 방법이 제공된다.
상기 일 실시예에 따르면, 상기 제1 내지 상기 제H 로스 레이어는 제3-1 내지 제3-H 필터가 컨벌루션 연산을 수행하여 획득된 제3-1, 제3-2, …, 제3-H 특징 맵과 제1, 제2, …, 제H 정답 라벨 이미지를 비교하여 상기 제1 내지 상기 제H 로스를 산출하는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 상기 3-1 내지 상기 3-H 필터는 상기 필터의 크기가 1x1 이며, 상기 H개의 특징 맵들 각각에 대해 컨벌루션 연산을 수행하여, 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵들의 각 채널의 수가 상기 제1, 제2, …, 상기 H의 정답 라벨 이미지의 채널의 수와 동일하게 되도록 하고, 상기 1 내지 H 정답 라벨 이미지는 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵에 대응되는 크기를 갖는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 원본 정답 라벨 이미지(Original Ground Truth label image)의 각 채널의 수를 조정하고 상기 원본 정답 라벨 이미지의 사이즈에 매치되도록 원본 정답 라벨 이미지의 사이즈를 변경함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 상기 원본 정답 라벨 이미지의 채널의 수를 늘리고, 상기 원본 정답 라벨 이미지의 사이즈 - (i) 상기 원본 정답 라벨 이미지의 사이즈 및 (ii) 상기 H개의 특징 맵의 이미지의 사이즈 각각의 비율 - 를 줄임으로써, 상기 원본 정답 라벨 이미지가 조정되는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 상기 원본 정답 라벨 이미지를 H개의 특징 맵의 크기와 일치시키기 위해 상기 각각의 원본 정답 라벨 이미지를 리사이즈(resize)함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, t가 1 이상 H 이하의 정수인 경우, 상기 학습 장치는, 상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 상기 제1 내지 t 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며, 상기 학습 장치는, 상기 각각의 원본 정답 라벨 이미지를 리사이즈함으로써, 상기 H개의 로스 레이어들 중 (t+1) 내지 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며, t가 H와 동일한 정수인 경우, 상기 학습 장치는, 상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 제1 내지 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 상기 원본 정답 라벨 이미지를 리사이즈하는 것은, 상기 원본 정답 라벨 이미지의 채널 수를 유지한 채 상기 원본 정답 라벨 이미지를 리사이즈 하는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 상기 학습 장치는, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각과 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며, 상기 학습 장치는, 적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 일 실시예에 따르면, 상기 제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우, 상기 학습 장치는, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 제4-1, 제4-2, …, 제4-K 필터를 사용한 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 상기 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 학습 방법이 제공된다.
본 발명의 다른 실시예에 따르면, 입력 이미지로서의 테스트 이미지에 대한 세그멘테이션 방법은, (a) (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여, (II) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 학습용 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (III) 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 학습용 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 학습용 파라미터 임시 특징 맵을 구하는 프로세스 및 (2) 상기 제M1 학습용 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 학습용 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-1 내지 상기 제2-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수이며, (III)의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 학습용 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12 학습용 파라미터 조정용 특징 맵을 제2-2 필터로 전달함 - 및 (IV) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 획득하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 획득하는 단계; 및 (b) 상기 테스트 장치는, 상기 획득된 테스트 이미지에 대하여, 상기 학습된 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 이용하여 테스트용 세그멘테이션을 수행하는 단계를 포함하는 세그멘테이션 방법이 제공된다.
상기 다른 실시예에 따르면, 상기 학습 장치는, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각에 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며, 상기 테스트 장치는, 적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 학습 방법이 제공된다.
또한, 상기 다른 실시예에 따르면, 상기 제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우, 상기 테스트 장치는, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 상기 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 학습 방법이 제공된다.
본 발명의 또 다른 실시예에 따르면, (i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하되, 이미지의 세그멘테이션의 성능 향상을 위한 학습 장치에 있어서, 상기 입력 이미지를 수신하는 통신부; 및 (I) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (II) 백프로포게이션 과정에서 (i) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제 M1 파라미터 임시 특징 맵을 구하는 프로세스, (ii) 상기 제M1 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스, (iii) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행하는 프로세서를 포함하되, 상기 M은 2 이상 K-1 이하의 정수이며, 상기 (II) 프로세스의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12파라미터 조정용 특징 맵을 구한 후, 상기 제 2-1 필터는 상기 제12 파라미터 조정용 특징 맵을 제2-2 필터로 전달하는 것을 수행하는 프로세서;를 포함하는 학습 장치가 제공된다.
상기 또 다른 실시예에 따르면, 상기 제1 내지 상기 제H 로스 레이어는, 제3-1 내지 상기 제3-H 필터가 컨벌루션 연산을 수행하여 획득된 제3-1, 제3-2, …, 제3-H 특징 맵과 제1, 제2, …, 제H 정답 라벨 이미지를 비교하여 상기 제1 내지 상기 제H 로스를 산출하는 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 3-1 내지 상기 3-H 필터는 상기 필터의 크기가 1x1 이며, 상기 H개의 특징 맵들 각각에 대해 컨벌루션 연산을 수행하여, 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵들의 각 채널의 수가 상기 제1, 제2, …, 상기 H의 정답 라벨 이미지의 채널의 수와 동일하게 되도록 하고, 상기 1 내지 H 정답 라벨 이미지는 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵에 대응되는 크기를 갖는 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 원본 정답 라벨 이미지(Original Ground Truth label image)의 각 채널의 수를 조정하고 상기 원본 정답 라벨 이미지의 사이즈에 매치되도록 원본 정답 라벨 이미지의 사이즈를 변경함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 원본 정답 라벨 이미지의 채널의 수를 늘리고, 상기 원본 정답 라벨 이미지의 사이즈 - (i) 상기 원본 정답 라벨 이미지의 사이즈 및 (ii) 상기 H개의 특징 맵의 이미지의 사이즈 각각의 비율 - 를 줄임으로써, 상기 원본 정답 라벨 이미지가 조정되는 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 원본 정답 라벨 이미지를 H개의 특징 맵의 크기와 일치시키기 위해 상기 각각의 원본 정답 라벨 이미지를 리사이즈(resize)함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, t가 1 이상 H 이하의 정수인 경우, 상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 상기 제1 내지 t 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며, 상기 각각의 원본 정답 라벨 이미지를 리사이즈함으로써, 상기 H개의 로스 레이어들 중 (t+1) 내지 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며, t가 H와 동일한 정수인 경우, 상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 제 1 내지 상기 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하는 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 원본 정답 라벨 이미지를 리사이즈하는 것은, 상기 원본 정답 라벨 이미지의 채널 수를 유지한 채 상기 원본 정답 라벨 이미지를 리사이즈 하는 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 프로세서는, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각과 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며, 적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 학습 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우, 상기 프로세서는, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 제4-1, 제4-2, …, 제4-K 필터를 사용한 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 상기 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 학습 장치가 제공된다.
본 발명의 또 다른 실시예에 따르면, 입력 이미지로서의 테스트 이미지에 대한 세그멘테이션을 수행하는 세그멘테이션 장치는, (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여, (II) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 학습용 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (III) 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 학습용 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 학습용 파라미터 임시 특징 맵을 구하는 프로세스 및 (2) 상기 제M1 학습용 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 학습용 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-1 내지 상기 제2-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수이며, (III)의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 학습용 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12 학습용 파라미터 조정용 특징 맵을 구한 후, 상기 제2-2 필터는 상기 제12 학습용 파라미터 조정용 특징 맵을 제2-2 필터로 전달함 - 및 (IV) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 획득하는 프로세스를 수행한 상태에서, 상기 테스트 이미지를 수신하는 통신부; 및 상기 획득된 테스트 이미지에 대하여, 상기 학습된 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 이용하여 테스트용 세그멘테이션을 수행하는 프로세서;를 포함하는 테스트 장치가 제공된다.
상기 또 다른 실시예에 따르면, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각과 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며, 적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 테스트 장치가 제공된다.
또한, 상기 또 다른 실시예에 따르면, 상기 제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 상기 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 테스트 장치가 제공된다.
본 발명에 의하면, 디코딩 레이어의 각 필터마다 로스를 계산하는 별도의 레이어를 연결하여 각 필터에서의 로스를 보정할 수 있는 효과가 있다.
또한 본 발명에 따르면, 로스가 백프로포게이션 과정에서 뒤로 전달되어도 로스의 크기가 작아지지 않아 정확한 로스를 반영할 수 있는 효과가 있다.
또한 본 발명에 따르면, 정확한 로스를 반영하여 최적의 파라미터를 찾을 수 있는 학습 환경을 제공할 수 있는 효과가 있다.
또한 본 발명에 따르면, 최적의 파라미터를 통해 정확한 이미지 세그멘테이션을 수행할 수 있는 이미지 테스트 환경을 제공할 수 있다.
도 1은 종래 기술에 따른 CNN을 사용하여 이미지 세그멘테이션을 수행하는 학습 과정을 개략적으로 나타내는 도면이다.
도 2A 및 도 2B는 본 발명의 일 실시예에 따른 다중 로스 레이어를 이용하여 이미지 세그멘테이션을 수행할 수 있는 CNN을 포함하는 학습장치의 학습 과정을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 제1 로스를 획득하는 과정을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 조정용 특징 맵을 획득하는 과정을 나타내는 도면이다.
도 5는 정답 라벨 이미지의 채널 수를 조정하여 정답 라벨 이미지의 사이즈를 변경하는 방법을 나타낸 참고도면이다.
도 6A 및 도 6B는 본 발명의 다른 실시예에 따른 다중 로스 레이어를 이용하여 이미지 세그멘테이션을 수행할 수 있는 CNN을 포함하는 학습장치의 학습 과정을 나타내는 도면이다.
도 7A 및 도 7B은 본 발명의 또 다른 실시예에 따른 다중 로스 레이어를 이용하여 이미지 세그멘테이션을 수행할 수 있는 CNN을 포함하는 학습장치의 학습 과정을 나타내는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 2A 및 도 2B는 본 발명의 일 실시예에 따른 다중 로스 레이어를 이용하여 이미지 세그멘테이션을 수행할 수 있는 CNN을 포함하는 학습장치의 학습 과정을 나타내는 도면이다.
본 발명에 따른 CNN 모델을 이용한 이미지 세그멘테이션을 위한 학습 장치(미도시)는 통신부(미도시)와 프로세서(미도시)를 포함할 수 있다. 구체적으로, 통신부는 입력 이미지로 트레이닝 이미지를 수신할 수 있고, 프로세서는 입력 이미지에서 특징 벡터를 추출하고 이를 다시 디코딩하여 라벨 이미지를 획득하는 이미지 세그멘테이션 프로세스 및 로스를 이용하여 백프로포게이션 과정을 수행함으로써 파라미터를 최적화하는 프로세스를 수행할 수 있다.
또한 본 발명에 따른 학습 장치는 K 개 필터 (제1-1 필터 내지 제1-K 필터)를 포함하는 인코딩 레이어와 이에 대응되는 K 개의 필터(제2-1 내지 제2-K 필터)를 포함하는 디코딩 레이어, 그리고 디코딩 레이어의 제2-1 필터 내지 제2-K 필터와 연동하는 제1 내지 제K 로스 레이어를 포함한다.
도 2A 및 도 2B를 참조하면, 본 발명에 따른 로스 레이어를 이용한 이미지 세그멘테이션 학습 방법은, 학습 장치의 통신부가 입력 이미지로서 트레이닝 이미지를 입력 받아 인코딩 레이어의 제1-1 필터로 입력하면서 시작된다. 상기 인코딩 레이어의 제1-1 내지 제1-K 필터는 입력된 이미지의 특징 맵(인코딩된 특징 맵)을 구하기 위해 컨벌루션 연산을 수행한다.
상기 제1-1 내지 제1-K 필터는 각 필터의 커널을 입력 이미지 또는 특징 맵 상에서 슬라이딩하여 지나가게 하면서 각 위치마다 커널의 원소와 오버랩되는 입력 원소를 곱하고 이러한 곱들을 합하여 현재 위치의 출력 값으로 생성하는 컨벌루션 연산을 수행하여, 다운사이즈된 특징 맵을 생성한다.
구체적으로, 도 2A 및 도 2B에서 제1-1 필터는 입력 이미지를 입력받아 컨벌루션 연산하여 제1-1 특징 맵을 생성하여 출력하고, 제1-2 필터는 상기 제1-1 특징 맵을 입력받아 컨벌루션 연산하여 제1-2 특징 맵을 생성하며, 제1-3 필터는 상기 제1-2 특징 맵을 입력받아 컨벌루션 연산하여 제1-3 특징 맵을 생성하며, …, 제1-(K-2) 필터는 제1-(K-3) 특징 맵을 입력받아 컨벌루션 연산하여 제1-(K-2) 특징 맵을 생성하며, 제1-(K-1) 필터는 상기 제1-(K-2) 특징 맵을 입력받아 컨벌루션 연산하여 제1-(K-1) 특징 맵을 생성하며, 제1-K 필터는 상기 제1-(K-1) 특징 맵을 입력받아 컨벌루션 연산하여 제1-K 특징맵을 생성한다.
이때, 제1-1 내지 1-K 필터에서 컨벌루션 연산을 수행할 때마다 입력 이미지의 크기는 1/2로 줄어든다. 이는 이미지 사이즈를 줄여 연산량을 줄이기 위한 것이다. 한편, 컨벌루션 연산을 통해 특징 맵의 채널 수는 증가되는 데, 예를 들어 제1-2 내지 1-K 필터에서는 입력되는 특징 맵의 채널을 2배 증가시켜 출력할 수 있다
예를 들어, 제1-1 특징 맵이 크기가 320x240이고, 채널 수가 8이라면, (i) 제1-2 특징 맵은 크기가 160x120, 채널 수는 16, (ii) 제1-3 특징 맵은 크기가 80x60, 채널 수는 32 일 수 있다.
이후, 다시 도 2A 및 도 2B를 참조하면, 제1-K 특징 맵(즉, 특징 벡터)은 디코딩 레이어로 입력되어 라벨 이미지를 생성하는 데 이용된다. 상기 디코딩 레이어의 제2-K 내지 제2-1 필터는 라벨 이미지를 구하기 위해 디컨벌루션 연산을 수행한다.
상기 제2-K 내지 제2-1 필터는 상기 제1-1 필터 내지 상기 제1-K 필터의 컨벌루션 연산 방향의 반대 방향으로 입력된 이미지에 대해 디컨벌루션을 수행하여 순차적으로 특징 맵의 사이즈를 키우면서 채널을 줄이도록 하여 특징 채널을 줄여가는 연산을 한다. 디코딩 레이어는 인코딩 레이어에서 구한 이미지의 엣지를 유지하면서 나머지는 뭉개는 기능을 수행하여 최종적으로 라벨 이미지를 생성한다.
도 2A 및 도 2B에서 제2-K 필터는 제1-K 특징 맵을 입력받아 디컨벌루션 연산하여 제2-K 특징 맵을 생성하여 출력하고, 제2-(K-1) 필터는 상기 제2-K 특징 맵을 입력받아 디컨벌루션 연산하여 제2-(K-1) 특징 맵을 생성하여 출력하며, 제2-(K-2) 필터는 상기 제2-(K-1) 특징 맵을 입력받아 디컨벌루션 연산하여 제2-(K-2) 특징 맵을 생성하여 출력하며, …, 제2-3 필터는 제2-4 특징 맵을 입력받아 디컨벌루션 연산하여 제2-3 특징 맵을 생성하여 출력하며, 제2-2 필터는 상기 제2-3 특징 맵을 입력받아 디컨벌루션 연산하여 제2-2 특징 맵을 생성하여 출력하며, 제2-1 필터는 상기 제2-2 특징 맵을 입력받아 디컨벌루션 연산하여 제2-1 특징맵을 생성하여 출력한다.
이때, 제2-1 내지 제2-K 필터에서 디컨벌루션 연산을 수행할 때마다 특징 맵의 크기는 2배 증가시키면서 채널은 1/2로 감소시켜 특징 맵을 생성한다.
예를 들어, 제2-K 특징 맵의 크기가 20x15, 그 채널 수가 128이라면, 제2-(K-1) 특징 맵은 크기가 40x30이고, 채널 수는 64이고, 제2-(K-2) 특징 맵은 크기가 80x60, 채널 수는 32, 제2-(K-3) 특징 맵은 크기가 160x120, 채널 수는 16 일 수 있다.
이에 따라, 제1-(K-1) 특징 맵과 제2-K 특징 맵의 크기와 채널 수는 동일하고, (제1-K 특징 맵은, 제1-(K-1) 특징 맵 및 제2-K 특징 맵과 비교하여 크기는 1/2, 채널은 2배임), 제1-(K-2) 특징 맵과 제2-(K-1) 특징 맵의 크기와 채널 수는 동일하고, 제1-(K-3) 특징 맵과 제2-(K-2) 특징 맵의 크기와 채널 수는 동일하고, …, 제1-2 특징 맵과 제2-3 특징 맵의 크기와 채널 수는 동일하고, 제1-1 특징 맵과 제2-2 특징 맵의 크기와 채널 수는 동일하고, 입력 이미지(즉 트레이닝 이미지)와 제2-1 특징 맵 (또는 라벨 이미지)의 크기는 동일하다.
그리고 다시 도 2A 및 도 2B를 참조하면, 디코딩 레이어의 제2-1 내지 2-K 필터는 대응되는 제1 내지 제K 로스 레이어와 연동한다. 상기 제1 내지 제K 로스 레이어는 정답 라벨 이미지와 디코딩 레이어에서 생성한 제2-1 내지 2-K 특징 맵과을 참조로 하여 로스(즉, 제1 로스 내지 제K 로스)를 계산하여 대응하는 제2-1 필터 내지 제2-K 필터로 전달한다. 한편, 상기 제1 내지 제K 로스 레이어와 상기 제2-1 필터 내지 제2-K 필터 사이에는 채널 변환을 위한 1x1 크기의 컨벌루션 필터인 제3-1 내지 제3-K 필터(미도시)를 포함할 수 있다.
제2-1 필터 내지 제2-K 필터는, 백프로포게이션 과정에서, 제1 내지 제K 로스 레이어에서 계산한 로스 값을 이용하여, 임시 특징 맵을 생성하고 로스 이미지로부터 조정용 특징 맵을 생성한다. 물론, 백프로포게이션 과정 중에 U-Net을 거슬러 올라가면서 복수의 임시 특징 맵과 복수의 조정용 특징 맵을 생성할 것이며, 이에 대해서는 뒤에서 자세히 설명한다.
상기 학습 장치는, 상기 백프로포게이션을 통해 제1-1 내지 제1-K 필터 및 제2-K 내지 제2-1 필터의 파라미터들 중 적어도 하나 이상의 파라미터를 조정하여 상기 제1 로스 값을 최소화하도록 한다. 즉, 이러한 백프로포게이션 과정을 통해 최적의 파라미터 값들을 산출할 수 있게 된다.
한편, 도 2A 및 도 2B에서 제1-K 필터를 통해 형성된 제1-K 특징 맵은 입력 이미지 내에서 의미있는 세그먼트 유닛을 나타내는 의미 정보를 포함하기 때문에 가장 중요한 특징 맵이다. 또한, 제1-K 특징 맵은 모든 특징 맵 중에서 가장 작은 사이즈의 특징 맵이다. 따라서 제1-K 특징 맵은 디코딩 레이어를 통해 획득될 라벨 이미지를 추정하는데 중요한 영향을 미친다. 만약, 제1-K 특징맵에 포함된 의미 정보가 정확하지 않고, 의미있는 기본 단위를 잘못 표시하면 디코딩을 거친 라벨 이미지 추정에 큰 영향을 주게 된다.
종래의 기술에 의하면, U-Net의 맨 마지막 필터인 제2-1 필터에만 연결하여 로스를 뒤로 넘기는 백프로포게이션 과정을 수행하면, 로스가 가장 작은 특징 벡터까지 왔을 때 상기 로스의 크기가 너무 작아져서 정확한 로스를 반영하기 힘들 수 있다.
따라서, 본 발명에서는 디코딩 레이어의 각 필터마다 로스 레이어를 연결하여 각각의 특징 맵에 대한 로스를 계산을 하여, 파라미터를 조정하는데 사용되는 임시 특징 맵 및 조정된 특징 맵을 생성한다. 이와 같은 방법을 사용하면 백프로포게이션 과정 시 가장 작은 특징 벡터까지 왔을 때 로스의 크기가 너무 작아지는 현상을 방지할 수 있다.
또한, 도 2A 및 도 2B에서 각 로스 레이어는 각각의 로스 값을 계산한다. 디코딩 레이어에 있는 각 필터는 전달받은 이전 필터로부터 얻은 각각의 조정용 특징 맵을 컨벌루션 연산 한 후, 각각의 임시 특징 맵을 생성할 수 있다. 그리고, 디코딩 레이어에 있는 각 필터는 각각의 로스 레이어 및 각각의 임시 특징 맵을 이용하여 각각의 조정된 특징 맵을 새롭게 출력하고, 이를 이에 대응하는 각각의 다음 필터로 전달할 수 있다.
도 3은 본 발명의 일 실시예에 따른 제1 로스를 획득하는 과정을 나타내는 도면이다.
참고로, 상기 제2-1 특징 맵은 추정 라벨 이미지일 수도 있으며, 상기 제2-1 특징 맵에 소정 연산(미도시)을 적용해 추정 라벨 이미지를 생성할 수도 있다. 다만, 도면에서는 상기 제2-1 특징 맵이 추정 라벨 이미지인 것으로 상정하여, 상기 제2-1 특징 맵이 제1 로스 레이어로 전달되는 것으로 도시하였으며, 상기 제1 로스 레이어는 상기 제2-1 특징 맵과 정답 라벨 이미지(정답 라벨 이미지)의 차이를 참조하여 제1 로스를 생성한다.
상기 정답 라벨 이미지와 추정 라벨 이미지의 차이에서 로스를 계산하는 함수는 다양하게 존재하지만, 일반적으로 아래의 수식과 같은 Euclidian loss layer를 통해 2개의 입력에서 입력의 차이의 제곱을 합산하여 계산한다.
Figure 112018097147641-pat00001
이렇게 계산된 제1 로스(E_1)는 상기 제2-1 필터로 전달되고, 제2-1 필터는 제1 로스(E_1)에 컨벌루션 연산을 수행하여 제12 파라미터 조정용 특징 맵(D_1)을 생성한다.
상기 제12 파라미터 조정용 특징 맵(D_1)을 구하는 수식은 아래와 같다.
Figure 112018097147641-pat00002
여기서 ⊙ 는 컨벌루션 연산이며, D_1은 제12 파라미터 조정용 특징 맵이며, E_1은 제1 로스, W(2-1)은 제2-1 필터의 필터 가중치이다.
만일 제12 파라미터 조정용 특징 맵(D_1)을 구할 때 제2-1 필터와 제1 로스 레이어 사이에 제1 로스 레이어 대응 컨벌루션 필터의 가중치까지 포함하여 연산하는 경우에는 아래의 수식으로 표현될 수 있다.
Figure 112018097147641-pat00003
여기서, W(3-1)은 제1 로스 레이어 대응 컨벌루션 필터의 필터 가중치이며, W(3-1)은 제3-1 필터의 필터 가중치이다. D_1을 생성하는데 어떤 수학식을 쓰는지에 상관없이, 상기 생성된 제12 파라미터 조정용 특징 맵(D_1)은 제2-2 필터로 전달된다.
여기서, 프로세스의 초기 상태로서, 제11 임시 특징 맵의 비존재(존재하지 않음)는, 이전의 어떠한 필터도 조정된 특징 맵을 제2-1 필터로 전달할 수 없다는 사실에 의해 설명될 수 있다. 따라서, 상기 제2-1 필터는 제1 로스 레이어에서 1차 로스만을 수신하여, 1차 로스에 컨볼루션 연산을 적용하여 제12 조정된 특징 맵을 획득할 수 있다.
도 4는 본 발명의 일 실시예에 따른 조정용 특징 맵을 획득하는 과정을 나타내는 도면이다.
도 4를 참조하면, 백프로포게이션 과정에서 제2-M 필터는 제2-(M-1) 필터로부터 제(M-1)2 파라미터 조정용 특징 맵을 전달받을 수 있다. 그리고 M 로스 레이어는 정답 라벨 이미지와 제 2-M 특징 맵의 차이를 식별함으로써, 제 M 로스를 계산한다. 상기 계산된 제 M 로스는 2-M 필터로 전달될 수 있다.
이러한 로스 계산은 상술한 바와 같이 Euclidian loss layer를 이용하여 2개의 입력에서 입력의 차이의 제곱을 합산하여 계산할 수도 있으며 다양한 공지된 계산 법을 이용할 수도 있다. 그리고 이렇게 구한 제 M 로스는 다시 제2-M 필터로 전달된다. 그리고 이 경우에 상기 로스 레이어에 대응되는 컨벌루션 필터의 필터 가중치로 상기 로스를 컨벌루션 연산하여 상기 2-M 필터로 전달할 수도 있다.
백프로포게이션 과정에서, 제2-M 필터는 제2-(M-1) 필터로부터 수신한 제(M-1)2 조정용 특징 맵(D_(M-1))에 제2-M 필터의 필터 가중치, 즉 파라미터를 이용하여 컨벌루션 연산을 수행하여, 제M 임시 특징 맵(D_(M-1)
Figure 112018097147641-pat00004
Figure 112018097147641-pat00005
WM)을 생성한다. 그리고 제2-M 필터는 상기 제M1 임시 특징 맵(D_(M-1)
Figure 112018097147641-pat00006
Figure 112018097147641-pat00007
WM)에 제M 로스를 더하여 제M2 조정용 특징 맵(D_M)을 생성한다. 그리고 상기 제M2 조정용 특징 맵(D_M)은 제2-(M+1) 필터로 백프로포게이션 된다.
이와 같이 제2-M 필터에서 제M2 조정용 특징 맵 (D_M)을 구하는 연산 과정은 아래의 수식으로 표현될 수 있다.
Figure 112018097147641-pat00008
이때 ⊙ 는 컨벌루션 연산이며, D_(M-1)⊙WM 은 제M1 임시 특징맵이며, D_(M-1), D_M은 각각 제(M-1)2 조정용 특징 맵 및 제M2 조정용 특징 맵이고, WM 은 제2-M 필터의 필터 가중치, 즉 파라미터이며, E_M은 제M 로스다.
한편, E_M 값이 제M 로스 레이어에 대응되는 컨벌루션 필터의 필터 가중치로 컨벌루션 연산 한 후 제2-M 필터로 전달되는 경우, 상기 제2-M 필터에서 제M2 조정용 특징 맵 (D_M)을 구하는 연산 과정은 아래의 수식으로 표현될 수 있다.
Figure 112018097147641-pat00009
이때 ⊙ 는 컨벌루션 연산이며, D_(M-1)⊙WM 은 제M1 임시 특징맵이며, D_(M-1), D_M은 각각 제(M-1)2 조정용 특징 맵 및 제M2 조정용 특징 맵이고, WM 은 제2-M 필터의 필터 가중치, 즉 파라미터이며, E_M은 제M 로스, W(3-M) 은 제M 로스 레이어에 대응하는 컨벌루션 필터의 필터 가중치, 즉 파라미터이다.
구체적으로, 제2-M 특징 맵으로부터 획득한 추정 라벨 이미지 및 원본 정답 라벨 이미지와의 사이의 로스를 제 M 로스 레이어에서 계산할 때, 원본 정답 라벨 이미지와 제2-M 특징 맵으로부터 획득한 추정 라벨 이미지 사이의 채널의 수 및 사이즈의 차이로 인해 로스가 직접적으로 계산되지 않을 수 있다.
따라서, 제1 내지 제K 로스 레이어는 제2-1 내지 제2-K 특징 맵에 컨벌루션 연산을 수행하여 정답 라벨 이미지의 채널 수와 동일한 수로 변경하기 위한 상기 제1 내지 상기 제K 로스 레이어에 대응하는 컨벌루션 필터인 제3-1 내지 제3-K 필터(미도시)를 포함할 수 있다. 또한, 제3-1 내지 제3-K 필터는 제2-1 내지 제2-K 특징 맵 각각의 채널의 수를 조정하여, 제2-1 내지 제2-K 특징 맵 각각에 대하여 컨볼루션 연산하여 원본 정답 라벨 이미지와 동일한 채널 수로 변환할 수 있다.
또한, 상기 제1 내지 제K 로스 레이어의 제3-1 내지 제3-K 필터는 원본 정답 라벨 이미지의 채널 수를 변경하여 제2-1 내지 제2-K 특징 맵 각각의 채널 수와 매치되도록 변경할 수도 있다. 이때 제3-1 내지 제3-K 필터는 필터의 크기가 1x1 이고, 제2-1 내지 제2-K 특징 맵의 채널 수 또는 원본 정답 라벨 이미지의 채널 수를 변경할 수 있으나, 이에 한정되는 것은 아니다.
참고로, 디코딩 레이어에 포함된 필터들 각각과 상호 작용하는 로스 레이어는 로스를 각각 계산하기 때문에, 원본 정답 라벨 이미지는 특징 맵 각각의 사이즈에 대응하도록 각각의 크기를 줄여주어야 한다. 즉, 각 디코딩 레이어의 필터에 로스 레이어가 붙어 있는 경우, 제2-M 특징 맵의 사이즈는 제2-(M-1) 특징 맵 사이즈에서 1/2로 줄어들기 때문에 제2-M 로스 레이어에서 연산되는 원본 정답 라벨 이미지의 사이즈는 제2-(M-1) 로스 레이어에서 연산되는 정답 라벨 이미지의 사이즈에서 1/2로 줄여서 연산해야 한다.
도 5는 정답 라벨 이미지의 채널 수를 조정하여 정답 라벨 이미지의 사이즈를 변경하는 방법을 나타낸 참고도면이다.
정답 라벨 이미지의 크기를 줄이는 방법은 채널 수를 그대로 두고 리사이즈를 통해 크기를 줄일 수 있는 방법이 있다. 그러나 정답 라벨 이미지의 경우 물체와 배경의 픽셀 값이 모두 정수 값으로 되어 있기 때문에, 정답 라벨 이미지를 리사이즈하는 경우에는 nearest 방법을 사용하게 된다.
그러나 이러한 nearest 방법을 사용하여 정답 라벨 이미지를 줄이는 과정에서는 오차가 발생하게 된다. 이러한 오차는 특징 맵의 사이즈가 큰 상위 필터로 갈수록 커지고 특징 맵의 사이즈가 작은 하위 필터로 갈수록 작아진다.
이러한 문제를 해결하기 위해 본 발명에서는 도 5에 도시된 예와 같이 제M 로스 레이어는 원본 정답 라벨 이미지의 채널 수를 변경함으로써 원본 정답 라벨 이미지의 크기를 제2-M 특징 맵의 사이즈로 맞추는 방법을 사용한다. 이러한 방법은 특징 맵의 사이즈가 큰 상위 필터와 연동되는 로스 레이어에 적용될 수 있으나, 이에 한정되는 것은 아니다.
도 5의 예에서, 제2-M 특징 맵의 크기가 320x240 이고, 원본 정답 라벨 이미지의 크기가 640x480 이라고 가정하면, 320x240 크기의 제2-M 특징 맵에서 640x480 크기의 원본 정답 라벨 이미지를 바로 뺄 수 없다. 따라서, 제M 로스 레이어는 1x1 크기의 컨벌루션 연산을 통해 원본 정답 라벨 이미지의 채널을 4배로 확장한다. 이에 따라 640x480 크기의 원본 정답 라벨 이미지는 채널이 4배가 된 320x240 사이즈의 라벨 이미지로 변경될 수 있다. 즉 사이즈가 640x480인 이미지의 픽셀들을 채널로 옮겨서 특징 맵의 사이즈를 줄이고, 그 결과 사이즈는 4ch x 320 x 240로 바뀌게 된다.
즉, 제M 로스 레이어는 640x480 사이즈 및 a개 채널을 갖는 원본 정답 라벨 이미지를 320x240 사이즈 및 4 x a 채널 수의 원본 정답 라벨 이미지로 변경한다. 그리고 1x1 크기의 제3-M 필터를 통해 320x240 사이즈 및 b개 채널을 갖는 제2-M 특징 맵을 320x240 사이즈 및 4 x a개 채널을 갖는 특징 맵으로 변경한다. 그리고, 제M 로스 레이어는 동일한 320x240 사이즈 및 4 x a개 채널을 갖는 원본 정답 라벨 이미지와 특징 맵 사이에서 로스를 계산한다. 이에 따라 원본 정답 라벨 이미지의 이미지를 줄일 때 발생하는 로스를 방지할 수 있게 된다.
도 6A 및 도 6B는 본 발명의 다른 실시예에 따른 다중 로스 레이어를 이용하여 이미지 세그멘테이션을 수행할 수 있는 CNN을 포함하는 학습장치의 학습 과정을 나타내는 도면이다.
각 특징 맵의 채널의 수는 각 특징 맵의 크기가 감소함에 따라 증가한다. 따라서, 디코딩 레이어의 하위 레이어에 있는 필터, 즉 특징 맵의 사이즈가 작은 하위 레이어(또는 하위 필터)로 갈수록 채널 수가 많이 늘어나게 된다. 만일 도 5에 도시된 1x1 크기 필터의 컨벌루션 연산을 통해 원본 정답 라벨 이미지의 채널을 늘리는 방법을 모든 레이어에 적용하게 되면, 1x1 크기 필터의 컨벌루션으로 많은 수의 채널을 생성해야 하기 때문에 컨벌루션 필터의 capacity를 넘겨 오히려 로스가 늘어날 수도 있는 문제가 있다. 즉, 많은 수의 3x3 크기의 필터 또는 많은 수의 5x5 크기의 필터를 사용하면 학습을 통해 처리할 수 있는 능력이 커질 수 있으나 1x1 크기의 컨벌루션 필터는 크기가 1이기 때문에 학습을 통해 처리할 수 있는 능력이 작다. 따라서 이 필터가 처리해야 할 연산량이 늘어나게 되면 오히려 성능이 저하되게 되는 현상이 발생될 수 있다. 이러한 현상을 방지하기 위해 도 6A 및 도 6B의 실시예에서와 같이 특징 맵의 사이즈가 작고 채널이 많은 하위 레이어에서는 1x1 컨벌루션 연산을 통해 채널을 변경하는 방법 대신, 원본 정답 라벨 이미지를 리사이즈 하는 방법을 사용할 수도 있다.
따라서, 제1 내지 제K 로스 레이어 중 특징 맵의 크기가 큰 상위 레이어인 T 개의 로스 레이어, 즉 제1 내지 제 T 로스 레이어에서는 원본 정답 라벨 이미지의 채널 수 변경을 통해 이미지의 크기를 줄이고, 특징 맵의 크기가 작은 하위 레이어인 나머지 K-T 개의 로스 레이어, 즉 제 T+1 내지 제K 로스 레이어에서는 원본 정답 라벨 이미지를 resize하여 이미지 크기를 줄인다. 즉 하위 레이어에서는 원본 정답 라벨 이미지의 채널 수를 유지하고 nearest neighborhood 방법(즉, nearest 방법) 등으로 원본 정답 라벨 이미지의 크기를 resize 하고, 제2-(T+1) 내지 제 2-K 특징 맵의 채널 수를 1x1 컨벌루션을 이용하여 원본 정답 라벨 이미지의 채널수와 동일하게 줄여, 특징 맵과 원본 정답 라벨 이미지의 사이즈와 채널수를 같게 하여 로스를 구한다. 그리고 상위 레이어에서는 원본 정답 라벨 이미지의 채널 수를 늘려 이미지 크기를 줄이는 방법을 사용하여, 특징 맵과 원본 정답 라벨 이미지의 사이즈를 같게 하고, 제2-1 내지 제 2-T 특징 맵의 채널 수를 1x1 컨벌루션을 이용하여 변경된 원본 정답 라벨 이미지의 채널 수와 동일하게 변경한 후, 로스를 구한다. 하지만, 반드시 하위 레이어와 상위 레이어에서의 로스 구하는 방법이 차별화될 필요는 없을 것이다.
이와 같이 상위 레이어 영역과 하위 레이어 영역에서의 원본 정답 라벨 이미지 변경 방법을 달리하면 모든 로스 레이어에서 동일한 변경 방법을 사용하는 것에 비해 로스를 크게 줄일 수 있다.
다시 도 6A 및 도 6B을 참조하면, 본 발명에 따른 학습 장치는, 제4-1 내지 제4-K 필터, 즉 중간 필터를 가지는 중간 레이어를 더 포함할 수 있다. 상기 중간 필터는 제1-1 내지 제1-K 특징 맵 정보를 이용하여, 제4-1 내지 제4-K 특징 맵을 생성할 수 있다. 각각의 제4-1 내지 제4-K 필터는 상기 제1-1 내지 제1-K 특징 맵 각각에 다이레이션 컨볼루션을 적용하여 상기 제4-1 내지 제4-K 특징 맵을 생성하고, 생성된 상기 제4-1 내지 제4-K 특징 맵을 각각 상기 제2-1 내지 제2-K 필터로 전달한다. 그러면 상기 제2-1 내지 제2-K 필터는 전달받은 상기 제4-1 내지 제4-K 특징 맵을 참조하여 상기 제2-1 내지 제2-K 특징 맵을 생성한다.
중간 필터, 즉 상기 제4-1 내지 제4-K 필터는 receptive field 를 증가시킨 다이레이션 컨볼루션 연산을 통해 상기 제1-1 내지 제1-K 특징 맵 각각에서 에지 정보를 강조하여 추출하는 기능을 한다. 이에 따라 상기 제2-1 내지 제2-K 필터는 인코더 레이어 특징 맵에 포함된 에지 정보를 강화시킨 정보를 사용할 수 있고, 특징 맵을 디코딩할 때 더 많은 정보를 넘겨줄 수 있게 된다.
또한, 본 발명에 따른 학습 장치는, 제4-1 내지 제4-K 특징 맵의 적어도 일부를 사용하여, 제2-1 내지 제2-K 필터로 하여금 특징 맵을 생성하도록 할 수 있다. 즉, 상기 제4-1 내지 제4-K 특징 맵에 대응하는 제1-1 내지 1-K 특징 맵에 다이레이션 컨볼루션을 선택적으로 적용할 수 있다.
여기서, 중간 필터들은 다이레이션 컨볼루션 연산을 수행하지만 이에 한정되는 것은 아니다. 예를 들어, 중간 필터의 적어도 일부는 경우에 따라서 컨볼루션 연산을 수행할 수 있다. 한편, 중간 필터에 의해 생성된 특징 맵은 디코딩 레이어에 포함된 필터에 의해 직접적으로 또는 간접적으로 참조될 수 있다.
도 7A 및 도 7B은 본 발명의 또 다른 실시예에 따른 다중 로스 레이어를 이용하여 이미지 세그멘테이션을 수행할 수 있는 CNN을 포함하는 학습장치의 학습 과정을 나타내는 도면이다.
도 7A 및 도 7B에 도시된 학습 과정에서는 도 2A 및 도 2B에 도시된 학습 과정과 동일한 과정을 거치나, 로스 레이어가 모든 디코딩 레이어의 필터와 연동되지 않고 그 일부의 필터와만 연동되는 실시예에 따른 학습 과정을 나타낸다. 즉, 로스 레이어는 디코딩 레이어에 포함된 필터의 일부와 관련될 수 있다.
도 7A 및 도 7B을 참조하면, 디코딩 레이어의 제2-1 내지 2-K 필터 중 일부인 H개의 필터 (이하, 제2-1 내지 2-H 필터라 한다)와 연동하는 제1 내지 제H 로스 레이어를 포함한다. 이때 제2-1 내지 2-H 필터는 디코딩 레이어의 상위 레이어의 필터부터 하위 레이어까지 차례로 지칭한 것으로, 전체 K 개의 필터를 상위 레이어의 필터부터 차례로 지칭한 상기 제2-1 내지 상기 제2-K 필터와 비교하여, 동일한 참조 부호는 동일한 부분을 지칭하지 않을 수도 있다. 예를 들어, H 개의 필터 중 제2-2 필터는 K 개의 필터 중 제2-2 필터와 다를 수 있다. 참고로, H는 0 보다 크고 K 보다 작은 자연수이다. 상기 H개의 필터는 도 7A 및 도 7B에서 괄호 안에 표시하였다.
도 7A 및 도 7B 에서는 학습 장치가 디코딩 레이어에 포함된 제2-1 내지 제2-H 필터와 각각 연동하는 제1 내지 제H 로스 레이어를 포함할 수 있다. 또한, 학습장치는, 디코딩 레이어의 H 개 필터로부터 획득된 H 개의 특징 맵들 각각에 대응되는 제H개의 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스를 수행한다.
모든 디코딩 레이어의 필터에 로스 레이어가 연결되지 않고 일부에만 로스 레이어가 연결되는 경우에는, 로스 레이어의 수가 줄어들어 로스 값을 구하는 연산량이 줄어들면서도 백프로포게이션 과정 중간의 특징 맵들에 대한 로스를 참조하여 파라미터 조정용 특징 맵을 형성할 수 있어 학습 효율을 유지할 수 있는 효과가 있다.
특히, (i) 제2-K 필터는 가장 중요한 정보를 포함하는 제1-K 특징맵과 연동되고, (ii) 라벨 이미지를 생성할 수 있는 제2-1 필터는 로스 레이어가 연동되는 것이 바람직하다.
따라서, 본 발명에 따른 멀티 로스 레이어를 이용하면, 특징 벡터에 세로 줄무늬나 노이즈가 많이 감소하고, 맨 마지막 단계의 디코딩 레이어 필터에만 로스 레이어를 붙인 것에 비해 이미지 세그멘테이션 성능이 향상되게 된다.
도 2A 및 도 2B 내지 도 7A 및 7B는 본 발명에 따른 학습 장치 및 이를 이용한 학습 과정을 설명하였다. 참고로, 학습 장치는 백프로포게이션 과정을 수행함으로써, 최적의 파라미터 값을 구할 수 있지만, 이미지 세그멘테이션을 수행하는 테스트 장치는 이러한 프로세스를 실행하지 않음은 당연하다.
여기서, 이미지 세그멘테이션을 수행하기 위한 테스트 장치(미도시)의 구성 및 기능에 대하여 간략하게 설명한다. 상기 테스트 장치는 위에서 언급한 학습 프로세스를 통해 발견된 매개 변수를 사용하고, 테스트 이미지에서 이미지 세그멘테이션을 수행한다. 상기 테스트 장치는 앞서 언급한 학습 장치와 동일한 장치일 수도 있고, 다른 장치일 수도 있다.
입력 이미지로서의 테스트 이미지에 대한 이미지 세그멘테이션을 수행하기 위한 상기 테스트 장치는, 통신부(미도시) 및 프로세서(미도시)를 포함하고 있으며, 상기 통신부는 외부 장치와 통신하도록 구성될 수 있다.
특히, (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여, (II) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 학습용 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (III) 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 학습용 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 학습용 파라미터 임시 특징 맵을 구하는 프로세스 및 (2) 상기 제M1 학습용 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 학습용 파라미터 조정용 특징 맵을 상기 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-1 내지 상기 제2-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수이며, (III)의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 학습용 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12 학습용 파라미터 조정용 특징 맵을 구한 후, 상기 제2-2 필터는 상기 제12 학습용 파라미터 조정용 특징 맵을 제2-2 필터로 전달함 - 및 (IV) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 획득하는 프로세스를 수행한 상태에서, 테스트 장치의 통신부는 상기 테스트 이미지를 획득할 수 있다.
또한, 프로세서는 디코딩 레이어 및 인코딩 레이어의 필터의 적어도 일부의 조정된 파라미터 즉, 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 이용하여 획득된 테스트 이미지에 대한 이미지 세그멘테이션을 수행하도록 구성될 수 있다.
본 발명 기술분야의 통상의 기술자에게 이해될 수 있는 바로서, 위에서 설명된 이미지, 예컨대 트레이닝 이미지, 테스트 이미지와 같은 이미지 데이터의 송수신이 학습 장치 및 테스트 장치의 통신부들에 의하여 이루어질 수 있으며, 특징 맵과 연산을 수행하기 위한 데이터가 학습 장치 및 테스트 장치의 프로세서(및/또는 메모리)에 의하여 보유/유지될 수 있고, 컨벌루션 연산, 디컨벌루션 연산, 로스 값 연산 과정이 주로 학습 장치 및 테스트 장치의 프로세서에 의하여 수행될 수 있으나, 본 발명이 이에 한정되지는 않을 것이다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (26)

  1. (i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여 이미지의 세그멘테이션의 성능 향상을 위한 학습 방법에 있어서,
    (a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵 중 상기 H 개의 필터로부터 획득된 H개의 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스를 수행하는 단계; 및
    (b) 상기 학습 장치는, 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 파라미터 임시 특징 맵을 구하는 프로세스, (2) 상기 제M1 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 파라미터 조정용 특징 맵을 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수임 - 를 수행하는 단계를 포함하되,
    상기 (b) 단계의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12파라미터 조정용 특징 맵을 구한 후, 상기 제2-1 필터는 상기 제12파라미터 조정용 특징 맵을 제2-2 필터로 전달하는 것을 특징으로 하는 학습 방법.
  2. 제1항에 있어서,
    상기 제1 내지 상기 제H 로스 레이어는
    제3-1 내지 제3-H 필터가 컨벌루션 연산을 수행하여 획득된 제3-1, 제3-2, …, 제3-H 특징 맵과 제1, 제2, …, 제H 정답 라벨 이미지를 비교하여 상기 제1 내지 상기 제H 로스를 산출하는 것을 특징으로 하는 학습 방법.
  3. 제2항에 있어서,
    상기 3-1 내지 상기 3-H 필터는 상기 필터의 크기가 1x1 이며, 상기 H개의 특징 맵들 각각에 대해 컨벌루션 연산을 수행하여, 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵들의 각 채널의 수가 상기 제1, 제2, …, 상기 H의 정답 라벨 이미지의 채널의 수와 동일하게 되도록 하고, 상기 1 내지 H 정답 라벨 이미지는 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵에 대응되는 크기를 갖는 것을 특징으로 하는 학습 방법.
  4. 제3항에 있어서,
    원본 정답 라벨 이미지(Original Ground Truth label image)의 각 채널의 수를 조정하고 상기 원본 정답 라벨 이미지의 사이즈에 매치되도록 원본 정답 라벨 이미지의 사이즈를 변경함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 방법.
  5. 제4항에 있어서,
    상기 원본 정답 라벨 이미지의 채널의 수를 늘리고, 상기 원본 정답 라벨 이미지의 사이즈 - (i) 상기 원본 정답 라벨 이미지의 사이즈 및 (ii) 상기 H개의 특징 맵의 이미지의 사이즈 각각의 비율 - 를 줄임으로써, 상기 원본 정답 라벨 이미지가 조정되는 것을 특징으로 하는 학습 방법.
  6. 제4항에 있어서,
    상기 원본 정답 라벨 이미지를 H개의 특징 맵의 크기와 일치시키기 위해 상기 각각의 원본 정답 라벨 이미지를 리사이즈(resize)함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 방법.
  7. 제4항에 있어서,
    t가 1 이상 H 이하의 정수인 경우,
    상기 학습 장치는, 상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 상기 제1 내지 t 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며,
    상기 학습 장치는, 상기 각각의 원본 정답 라벨 이미지를 리사이즈함으로써, 상기 H개의 로스 레이어들 중 (t+1) 내지 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며,
    t가 H와 동일한 정수인 경우,
    상기 학습 장치는, 상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 제1 내지 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하는 것을 특징으로 하는 학습 방법.
  8. 제7항에 있어서,
    상기 원본 정답 라벨 이미지를 리사이즈하는 것은, 상기 원본 정답 라벨 이미지의 채널 수를 유지한 채 상기 원본 정답 라벨 이미지를 리사이즈 하는 것을 특징으로 하는 학습 방법.
  9. 제1항에 있어서,
    상기 학습 장치는, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각과 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며,
    상기 학습 장치는, 적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 학습 방법.
  10. 제9항에 있어서,
    제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우,
    상기 학습 장치는, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 상기 제4-1, 제4-2, …, 상기 제4-K 필터를 사용한 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 학습 방법.
  11. 입력 이미지로서의 테스트 이미지 에 대한 세그멘테이션 방법에 있어서,
    (a) (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여, (II) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 학습용 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (III) 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 학습용 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 학습용 파라미터 임시 특징 맵을 구하는 프로세스 및 (2) 상기 제M1 학습용 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 학습용 파라미터 조정용 특징 맵을 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-1 내지 상기 제2-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수이며, 상기 (III)의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 학습용 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12 학습용 파라미터 조정용 특징 맵을 구한 후, 상기 제2-1 필터는 상기 제12 학습용 파라미터 조정용 특징 맵을 제2-2 필터로 전달함 - 및 (IV) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 획득하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 획득하는 단계; 및
    (b) 상기 테스트 장치는, 상기 획득된 테스트 이미지에 대하여, 상기 학습된 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 이용하여 테스트용 세그멘테이션을 수행하는 단계
    를 포함하는 세그멘테이션 방법.
  12. 제11항에 있어서,
    상기 학습 장치는, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각에 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며,
    상기 테스트 장치는, 적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 세그멘테이션 방법.
  13. 제12항에 있어서,
    제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우,
    상기 테스트 장치는, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 세그멘테이션 방법.
  14. (i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하되, 이미지의 세그멘테이션의 성능 향상을 위한 학습 장치에 있어서,
    상기 입력 이미지를 수신하는 통신부; 및
    (I) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (II) 백프로포게이션 과정에서 (i) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 파라미터 임시 특징 맵을 구하는 프로세스, (ii) 상기 제M1 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 파라미터 조정용 특징 맵을 제2-(M+1) 필터로 전달하는 프로세스, (iii) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행하는 프로세서를 포함하되,
    상기 M은 2이상 K-1 이하의 정수이며, 상기 (II) 프로세스의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12파라미터 조정용 특징 맵을 구한 후, 상기 제2-1 필터는 상기 제12 파라미터 조정용 특징 맵을 제2-2 필터로 전달하는 것을 수행하는 프로세서;
    를 포함하는 학습 장치.
  15. 제14항에 있어서,
    상기 제1 내지 상기 제H 로스 레이어는,
    제3-1 내지 상기 제3-H 필터가 컨벌루션 연산을 수행하여 획득된 제3-1, 제3-2, …, 제3-H 특징 맵과 제1, 제2, …, 제H 정답 라벨 이미지를 비교하여 상기 제1 내지 상기 제H 로스를 산출하는 것을 특징으로 하는 학습 장치.
  16. 제15항에 있어서,
    상기 3-1 내지 상기 3-H 필터는 상기 필터의 크기가 1x1 이며, 상기 H개의 특징 맵들 각각에 대해 컨벌루션 연산을 수행하여, 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵들의 각 채널의 수가 상기 제1, 제2, …, 상기 H 정답 라벨 이미지의 채널의 수와 동일하게 되도록 하고,
    상기 1 내지 H 정답 라벨 이미지는 상기 제3-1, 상기 제3-2, …, 상기 제3-H 특징 맵에 대응되는 크기를 갖는 것을 특징으로 하는 학습 장치.
  17. 제16항에 있어서,
    원본 정답 라벨 이미지(Original Ground Truth label image)의 각 채널의 수를 조정하고 상기 원본 정답 라벨 이미지의 사이즈에 매치되도록 원본 정답 라벨 이미지의 사이즈를 변경함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 장치.
  18. 제17항에 있어서,
    상기 원본 정답 라벨 이미지의 채널의 수를 늘리고, 상기 원본 정답 라벨 이미지의 사이즈 - (i) 상기 원본 정답 라벨 이미지의 사이즈 및 (ii) 상기 H개의 특징 맵의 이미지의 사이즈 각각의 비율 - 를 줄임으로써, 상기 원본 정답 라벨 이미지가 조정되는 것을 특징으로 하는 학습 장치.
  19. 제17항에 있어서,
    상기 원본 정답 라벨 이미지를 H개의 특징 맵의 크기와 일치시키기 위해 상기 각각의 원본 정답 라벨 이미지를 리사이즈(resize)함으로써, 상기 제 1 내지 제 H 정답 라벨 이미지 중 적어도 일부가 획득된 것을 특징으로 하는 학습 장치.
  20. 제17항에 있어서,
    t가 1 이상 H 이하의 정수인 경우,
    상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 상기 제1 내지 t 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며,
    상기 각각의 원본 정답 라벨 이미지를 리사이즈함으로써, 상기 H개의 로스 레이어들 중 (t+1) 내지 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하며,
    t가 H와 동일한 정수인 경우,
    상기 원본 정답 라벨 이미지의 채널 수를 각각 조정함으로써, 상기 H개의 로스 레이어들 중 제 1 내지 상기 H 로스 레이어들로 하여금 상기 원본 정답 라벨 이미지의 크기를 각각 변경하도록 하는 것을 특징으로 하는 학습 장치.
  21. 제20항에 있어서,
    상기 원본 정답 라벨 이미지를 리사이즈하는 것은, 상기 원본 정답 라벨 이미지의 채널 수를 유지한 채 상기 원본 정답 라벨 이미지를 리사이즈 하는 것을 특징으로 하는 학습 장치.
  22. 제14항에 있어서,
    상기 프로세서는, 중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각과 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며,
    적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 학습 장치.
  23. 제22항에 있어서,
    제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우,
    상기 프로세서는, 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 상기 제4-1, 제4-2, …, 상기 제4-K 필터를 사용한 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 학습 장치.
  24. 입력 이미지로서의 테스트 이미지에 대한 세그멘테이션을 수행하는 세그멘테이션 장치에 있어서,
    (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 각각 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨벌루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 각각 제2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 디코딩 레이어에 포함된 K 필터 중 H 개의 필터와 연동하는 제1 내지 제H 로스 레이어를 포함하는 학습 장치를 이용하여, (II) 상기 인코딩 레이어 및 상기 디코딩 레이어를 거쳐 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 획득하는 프로세스 및 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵 중 상기 H 개의 필터로부터 획득된 H 개의 학습용 특징 맵들 각각에 대응되는 제1 내지 제H 로스를 각각 상기 제1 내지 제H 로스 레이어로부터 획득하는 프로세스; 및 (III) 백프로포게이션 과정에서 (1) 제2-M 필터로 하여금 제2-(M-1) 필터로부터 전달받은 제(M-1)2 학습용 파라미터 조정용 특징 맵에 대하여 상기 제2-M 필터를 사용한 컨벌루션 연산을 수행하여 제M1 학습용 파라미터 임시 특징 맵을 구하는 프로세스 및 (2) 상기 제M1 학습용 파라미터 임시 특징 맵과 제M 로스를 연산하여 획득된 제M2 학습용 파라미터 조정용 특징 맵을 제2-(M+1) 필터로 전달하는 프로세스, (3) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-1 내지 상기 제2-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스 - M은 2이상 K-1 이하의 정수이며, 상기 (III)의 초기 상태로서, 상기 제1 로스 레이어는 상기 제 2-1 학습용 특징 맵에 대응되는 제1 로스를 연산하며, 상기 제1 로스에 상기 제2-1 필터를 사용한 컨벌루션 연산을 수행하여 제12 학습용 파라미터 조정용 특징 맵을 구한 후, 상기 제2-1 필터는 상기 제12 학습용 파라미터 조정용 특징 맵을 제2-2 필터로 전달함 - 및 (IV) 상기 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 획득하는 프로세스를 수행한 상태에서, 상기 테스트 이미지를 수신하는 통신부; 및
    상기 획득된 테스트 이미지에 대하여, 상기 학습된 제1-1 내지 상기 제1-K 필터 및 상기 제2-K 내지 상기 제2-1 필터의 파라미터를 이용하여 테스트용 세그멘테이션을 수행하는 프로세서;
    를 포함하는 세그멘테이션 장치.
  25. 제24항에 있어서,
    중간 레이어 - 상기 중간 레이어는 인코딩 레이어와 디코딩 레이어 사이에 위치함 - 에 포함되는 중간 필터 각각에 대응되는 상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵 중 적어도 일부가 입력되도록 하며,
    적어도 하나의 중간 필터로부터 획득된 특정 특징 맵들을 추가로 사용함으로써, 각각의 상기 제2-1, 제2-2, …, 상기 제2-K 필터 중 적어도 일부로 하여금 상기 제2-1, 제2-2, …, 상기 제2-K 특징 맵의 적어도 일부를 획득하도록 하는 것을 특징으로 하는 세그멘테이션 장치.
  26. 제25항에 있어서,
    제4-1, 제4-2, …, 제4-K 필터를 포함하는 중간 필터가 적어도 한번의 다이레이션 컨볼루션을 수행하는 경우,
    상기 제1-1, 제1-2, …, 상기 제1-K 특징 맵들 각각에 다이레이션 컨볼루션을 수행하여 제4-1, 제4-2, …, 제4-K 특징 맵들을 획득하는 프로세스, 및 상기 제4-1, 제4-2, …, 상기 제4-K 특징 맵들 각각을 상기 제2-1, 제2-2, …, 상기 제2-K 필터에 전달하는 프로세스를 수행하는 것을 특징으로 하는 세그멘테이션 장치.
KR1020180117308A 2017-10-03 2018-10-02 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치 KR102144381B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/723,597 US9947103B1 (en) 2017-10-03 2017-10-03 Learning method and learning device for improving image segmentation and testing method and testing device using the same
US15/723,597 2017-10-03

Publications (2)

Publication Number Publication Date
KR20190039383A KR20190039383A (ko) 2019-04-11
KR102144381B1 true KR102144381B1 (ko) 2020-08-13

Family

ID=61872655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180117308A KR102144381B1 (ko) 2017-10-03 2018-10-02 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치

Country Status (5)

Country Link
US (1) US9947103B1 (ko)
EP (1) EP3467713B1 (ko)
JP (1) JP6720264B2 (ko)
KR (1) KR102144381B1 (ko)
CN (1) CN109598725B (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110235146A (zh) * 2017-02-03 2019-09-13 西门子股份公司 用于检测图像中的感兴趣对象的方法和装置
CN108108738B (zh) * 2017-11-28 2018-11-16 北京达佳互联信息技术有限公司 图像处理方法、装置及终端
US10565476B1 (en) * 2018-09-04 2020-02-18 StradVision, Inc. Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same
US10303980B1 (en) * 2018-09-05 2019-05-28 StradVision, Inc. Learning method, learning device for detecting obstacles and testing method, testing device using the same
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10872297B2 (en) * 2019-01-30 2020-12-22 StradVision, Inc. Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US10762393B2 (en) * 2019-01-31 2020-09-01 StradVision, Inc. Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same
US10373004B1 (en) * 2019-01-31 2019-08-06 StradVision, Inc. Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
US10776673B2 (en) * 2019-01-31 2020-09-15 StradVision, Inc. Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
KR102361444B1 (ko) 2020-03-06 2022-02-11 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
KR102345799B1 (ko) * 2021-02-23 2021-12-31 인그래디언트 주식회사 Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템
CN114399440B (zh) * 2022-01-13 2022-12-13 马上消费金融股份有限公司 图像处理方法、图像处理网络训练方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017079529A1 (en) 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Universal correspondence network
WO2017091833A1 (en) 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
JP2017516198A (ja) 2014-04-03 2017-06-15 フェイスブック,インク. オンライン・ソーシャル・ネットワーク上の検索結果をブレンドすること

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700099B (zh) * 2015-03-31 2017-08-11 百度在线网络技术(北京)有限公司 识别交通标志的方法和装置
US9940539B2 (en) * 2015-05-08 2018-04-10 Samsung Electronics Co., Ltd. Object recognition apparatus and method
US10373073B2 (en) * 2016-01-11 2019-08-06 International Business Machines Corporation Creating deep learning models using feature augmentation
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
US10726326B2 (en) * 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN107122809B (zh) * 2017-04-24 2020-04-28 北京工业大学 基于图像自编码的神经网络特征学习方法
CN107169535B (zh) * 2017-07-06 2023-11-03 谈宜勇 生物多光谱图像的深度学习分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017516198A (ja) 2014-04-03 2017-06-15 フェイスブック,インク. オンライン・ソーシャル・ネットワーク上の検索結果をブレンドすること
WO2017079529A1 (en) 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Universal correspondence network
WO2017091833A1 (en) 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deeply-supervised CNN for prostate segmentation
Laplacian pyramid reconstruction and refinement for semantic segmentation, 2016.

Also Published As

Publication number Publication date
EP3467713A8 (en) 2019-06-05
US9947103B1 (en) 2018-04-17
EP3467713A1 (en) 2019-04-10
JP6720264B2 (ja) 2020-07-08
JP2019067403A (ja) 2019-04-25
EP3467713B1 (en) 2022-08-17
CN109598725B (zh) 2023-05-05
KR20190039383A (ko) 2019-04-11
CN109598725A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
KR102144381B1 (ko) 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
KR102144358B1 (ko) 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
EP3467721B1 (en) Method and device for generating feature maps by using feature upsampling networks
US9984325B1 (en) Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US10311337B1 (en) Method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network
CN109636803B (zh) 用于分割图像的方法和使用该方法的装置
KR102286755B1 (ko) 자율 주행 상황에서 장애물 검출을 위한 학습용 이미지 데이터 세트의 생성 방법 및 이를 이용한 컴퓨팅 장치, 학습 방법 및 학습 장치
EP3624016A1 (en) Method and device for encoding image and testing method and testing device using the same
US10325352B1 (en) Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
JP7252120B2 (ja) 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置
KR20190041921A (ko) 액티베이션 연산과 컨벌루션 연산을 동시에 수행하기 위한 방법 및 장치 그리고 이를 위한 학습 방법 및 학습 장치
KR20200027887A (ko) 복수의 비디오 프레임을 이용하여 cnn의 파라미터를 최적화하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR101869266B1 (ko) 극한 심층학습 기반 차선 검출 시스템 및 그 방법
EP3686809A1 (en) Method and device for transforming cnn layers to optimize cnn parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
CN116012602A (zh) 一种在线定位的轻量化显著性检测方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right