KR102144358B1

KR102144358B1 - 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치

Info

Publication number: KR102144358B1
Application number: KR1020180117330A
Authority: KR
Inventors: 김용중; 남운현; 부석훈; 성명철; 유우주; 정경중; 제홍모; 조호진
Original assignee: 주식회사 스트라드비젼
Priority date: 2017-10-04
Filing date: 2018-10-02
Publication date: 2020-08-13
Also published as: CN109658417B; EP3467711A1; KR20190039460A; JP6682595B2; CN109658417A; US10095977B1; EP3467711A8; JP2019067408A

Abstract

본 발명에서는 이미지 세그멘테이션을 위한 학습 방법 및 테스트 방법 그리고 이를 이용한 학습 장치와 테스트 장치가 개시되는 바, 이는 딥 러닝을 이용한 이미지 인식 기술 분야에 속한 것이다. 학습 장치는, 디코딩 레이어를 거쳐 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 순차적으로 획득하는 프로세스를 수행하되, 제3-1 내지 제3-H 필터에 대응하는 H 개의 상기 디코딩 레이어의 필터로부터 특징 맵을 획득할 때에는 디코딩 레이어의 이전 필터로부터의 특징 맵 및 제3-1, 제3-1, .., 제3-H 특징 맵을 이용하여 획득하고, 제3-1 내지 제3-H 필터에 대응되지 않는 (K-H) 개의 상기 디코딩 레이어의 필터로부터 특징 맵을 획득할 때에는, 디코딩 레이어의 이전 필터로부터의 특징 맵을 이용하여 획득하는 프로세스를 수행한다.

Description

이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치{LEARNING METHOD AND DEVICE FOR IMAGE SEGMENTATION AND IMAGE SEGMENTATION METHOD AND DEVICE USING THE SAME}

본 발명은 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치에 관한 것이다. 보다 상세하게는, (i) 트레이닝 이미지로서의 입력 이미지에 대응하는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어;를 포함하는 학습 장치를 이용하여 이미지 세그멘테이션의 성능 향상을 위한 학습 방법에 있어서, (a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스를 수행하는 단계; (b) 상기 학습 장치는, H개의 인코딩 필터들의 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 상기 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스를 수행하는 단계; (c) 상기 학습 장치는, (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 획득하는 프로세스를 수행하는 단계; 및 (d) 상기 학습 장치는, 상기 제 2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 단계; 를 포함하는 것을 특징으로 하는 학습 방법에 관한 것이다.

딥 컨벌루션 뉴럴 네트워크(Deep Convolution Neural Networks; DeepCNNs)는 딥 러닝 분야에서 일어난 놀라운 발전의 핵심이다. CNNs은 글자 인식 문제를 풀기 위해 90년대에 이미 사용되었지만, 현재처럼 널리 쓰이게 된 것은 최근의 연구 결과 덕분이다. 이러한 딥 CNN은 2012년 ImageNet 이미지 분류 시합에서 다른 경쟁자들을 이기고 우승을 차지했다. 그리고 나서 컨벌루션 뉴럴 네트워크는 Machine Learning 분야에서 매우 유용한 툴이 되었다.

한편, 이미지 세그멘테이션은 입력으로 이미지(트레이닝 이미지 or 테스트 이미지)를 받아서 출력으로 라벨(label) 이미지를 만들어내는 방법이다. 최근 딥러닝(Deep learning) 기술이 각광을 받으면서 세그멘테이션도 딥러닝을 많이 사용하는 추세이다.

도 1은 종래 기술에 따른 이미지 세그멘테이션을 수행할 수 있는 CNN의 학습 과정을 나타내는 도면이다.

도 1을 참조하면, 트레이닝 이미지 또는 테스트 이미지 등의 입력 이미지가 입력되면 복수 개의 필터 (즉, 컨벌루션 필터)에서 여러 번의 컨볼루션 연산을 수행하여 특징 맵을 획득한다. 그리고 나서 최종적으로 생성된 특징 맵을 복수 개의 디컨벌루션 필터에서 여러 번의 디컨볼루션 연산을 수행하여 라벨 이미지를 획득한다. 이렇게 컨볼루션 연산으로 이미지를 인코딩하여 특징 맵을 획득하고, 특징 맵을 디코딩하여 다시 라벨 이미지를 획득하는 구조를 인코딩-디코딩 네트워크, 또는 U-Net이라고 한다. 인코딩 과정에서 각 컨볼루션 연산을 수행할 때마다 입력 이미지의 크기가 1/2로 줄어지게 되는데, 이는 이미지 사이즈를 줄여서 연산량을 줄이고자 하기 위함이다. 또한 인코딩 과정에서 컨볼루션 필터를 통해 입력된 이미지의 채널 수는 증가하는 데 이는 줄여진 연산량의 이득을 활용하면서도 늘어난 채널을 통해 복잡한 패턴을 얻어내기 위함이다. 일반적으로 인코딩 과정에서 각각의 컨볼루션 필터를 거칠 때마다 이미지 사이즈는 1/2로 줄어들고 채널 수는 2배로 늘어난다. 이렇게 줄어든 특징 맵은 고주파 영역이 많이 제거되고 저주파 영역 위주의 정보를 가지게 되는데 이러한 저주파 영역은 이미지의 의미있는(meaningful) 부분, 즉, 하늘, 도로, 건물, 자동차 등 자세한 부분을 의미한다. 이러한 의미있는 파트를 디컨볼루션 연산 즉, 디코딩 연산을 통해 라벨 이미지로 유추하게 된다.

최근 위와 같은 U-Net 구조의 네트워크를 이용한 이미지 세그멘테이션 과정에서 성능을 증가시키기 위한 노력이 있어왔다. 이에 따라 본 출원인은 이미지 세그멘테이션의 성능을 증가시킬 수 있도록 디코딩 과정에서 인코더에서 나온 특징 맵의 정보를 효율적으로 이용하는 새로운 기술을 제공하고자 한다.

본 발명은 이미지 세그멘테이션 시 더 나은 엣지 정보를 표현할 수 있는 방법을 제공하는 것을 목적으로 한다.

본 발명은 학습 과정에서 인코더에서 출력된 각 특징 맵을 이용하여 우수한 엣지 정보를 디코더에 제공함으로써 최적의 파라미터를 찾을 수 있는 학습 환경을 제공하는 것을 목적으로 한다.

또한 본 발명은 최적의 파라미터를 찾아 정확한 이미지 세그멘테이션을 제공할 수 있는 장치와 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 실시예에 따르면, (i) 트레이닝 이미지로서의 입력 이미지에 대응하는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하여 이미지 세그멘테이션의 성능 향상을 위한 학습 방법이, (a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스를 수행하는 단계; (b) 상기 학습 장치는, H개의 인코딩 필터들의 각각의 출력을 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 상기 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스를 수행하는 단계; (c) 상기 학습 장치는, (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 단계; 및 (d) 상기 학습 장치는, 상기 제 2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 단계; 를 포함하는 것을 특징으로 하는 학습 방법이 제공된다.

상기 일 실시예에 따르면, 상기 (a) 단계에서, 상기 학습 장치는, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 상기 제1-K 특징 맵을 생성하며, 상기 (b) 단계에서, 상기 학습 장치는, 상기 제3-1 내지 상기 제3-H 필터의 출력으로부터 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 특징 맵을 생성하고, 상기 (c) 단계에서, 상기 학습 장치는, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 상기 제2-1 특징 맵을 생성하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 (b) 단계에서, 상기 학습 장치는, H개의 인코딩 필터의 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 특징 맵들을 획득하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 H 가 K 값인 경우, 상기 학습 장치는, (i) 상기 제1-1 내지 제1-K 특징 맵 각각을 제3-1 내지 제3-K 필터로 입력함으로써, 제3-1 내지 제3-K 특징 맵들을 생성한 후, (ii) 상기 제3-1 내지 제3-K 특징 맵 각각을 상기 제2-1 내지 상기 2-K 필터로 전달하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터 중 상기 다이레이션 컨볼루션을 수행하는 상기 중간 레이어의 각 필터의 Receptive field는 일부 영역의 필터 weight을 제외한 나머지 영역의 필터 weight 들은 0으로 채워진 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 (c) 단계에서, 상기 학습 장치는, 상기 제3-1, 상기 제3-2, .., 상기 제3-H 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵의 정보를 이용하여 디컨볼루션 연산을 수행하고, 상기 제2-1 내지 제2-K 특징 맵들 중 H개의 디코딩 필터로부터 특징 맵을 획득하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우, 상기 (c) 단계에서, 상기 학습 장치는, 상기 제2-K 필터로 하여금 상기 제 3-H 필터에서 출력된 제 3-H 특징 맵을 디컨벌루션 연산을 수행하도록 함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 방법이 제공된다.

또한, 상기 일 실시예에 따르면, 상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우, 상기 (c) 단계에서, 상기 학습 장치는, 상기 제2-K 필터로 하여금 상기 제1-K 특징 맵과 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 디컨벌루션 연산을 수행하도록 함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 방법이 제공된다.

본 발명의 다른 실시예에 따르면, 테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션을 수행하는 테스트 방법에 있어서, (a) (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하되, (II) 상기 학습장치는, (i) 상기 인코딩 레이어를 거쳐 상기 제1-1, 내지 제1-K 학습용 특징 맵을 획득하는 프로세스; (ii) 상기 H개의 인코딩 필터들의 각각의 학습용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-1, .., 제3-H 학습용 특징 맵을 획득하는 프로세스; (iii) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 학습용 특징 맵 및 상기 각각의 H 개의 디코딩의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하여 각각의 H 개의 디코딩 필터를 사용하도록 하거나, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 (K-H)개의 상기 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 순차적으로 획득하는 프로세스; (iv) 상기 제 2-1 학습용 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 획득하는 단계; (b) 상기 테스트 장치가, 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스를 수행하는 단계; (c) 상기 테스트 장치는, 상기 H개의 인코딩 필터의 각각의 테스트용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스를 수행하는 단계; (d) 상기 테스트 장치는, (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 (K-H)개의 상기 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 단계;를 포함하는 세그멘테이션 방법이 제공된다.

상기 다른 실시예에 따르면, 상기 (b) 단계에서, 상기 테스트 장치는, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 제1-K 테스트용 특징 맵을 생성하며, 상기 (c) 단계에서, 상기 테스트 장치는, 상기 제3-1 내지 상기 제3-H 필터의 테스트용 출력으로부터 테스트용 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 테스트용 특징 맵을 생성하고, 상기 (d) 단계에서, 상기 테스트 장치는, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 제2-1 테스트용 특징 맵을 생성하는 것을 특징으로 하는 세그멘테이션 방법이 제공된다.

또한, 상기 다른 실시예에 따르면, 상기 (c) 단계에서, 상기 테스트 장치는, H개의 인코딩 필터의 테스트용 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 테스트용 특징 맵들을 획득하는 것을 특징으로 하는 세그멘테이션 방법이 제공된다.

또한, 상기 다른 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터들 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 세그멘테이션 방법이 제공된다.

또한, 상기 다른 실시예에 따르면, 상기 (d) 단계에서, 상기 테스트 장치는, 상기 제3-1 내지 제3-H 테스트용 특징 맵의 정보와 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵의 정보를 이용하여 디컨벌루션 연산을 수행하고, 상기 제2-1 내지 2-K 테스트용 특징 맵들 중 상기 H 개의 디코딩 필터로부터 테스트용 특징 맵을 획득하는 것을 특징으로 하는 세그멘테이션 방법이 제공된다.

본 발명의 또 다른 실시예에 따르면, (i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 이미지 세그멘테이션의 성능 향상을 위한 학습 장치에 있어서, 상기 입력 이미지를 수신하는 통신부; 및 (I) 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터들의 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 상기 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스; 및 (IV) 상기 제 2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행하는 프로세서; 를 포함하는 것을 특징으로 하는 학습 장치가 제공된다.

상기 또 다른 실시예에 따르면, 상기 (I) 프로세스에서, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 상기 제1-K 특징 맵을 생성하며, 상기 (II) 프로세스에서, 상기 제3-1 내지 상기 제3-H 필터의 출력으로부터 엣지 정보를 추출함으로써 상기 제3-1 내지 상기 제3-H 특징 맵을 생성하고, 상기 (III) 프로세스에서, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 상기 제2-1 특징 맵을 생성하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 (II) 프로세스에서, 상기H개의 인코딩 필터의 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 특징 맵들을 획득하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 H 가 K 값인 경우, (i) 상기 제1-1 내지 제1-K 특징 맵 각각을 제3-1 내지 제3-K 필터로 입력함으로써, 제3-1 내지 제3-K 특징 맵들을 생성한 후, (ii) 상기 제3-1 내지 제3-K 특징 맵 각각을 상기 제2-1 내지 상기 2-K 필터로 전달하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터 중 상기 다이레이션 컨볼루션을 수행하는 상기 중간 레이어의 각 필터의 Receptive field는 일부 영역의 필터 weight을 제외한 나머지 영역의 필터 weight 들은 0으로 채워진 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 (III) 프로세스에서, 상기 제3-1, 상기 제3-2, .., 상기 제3-H 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵의 정보를 이용하여 디컨볼루션 연산을 수행하고, 상기 제2-1 내지 제2-K 특징 맵들 중 H개의 디코딩 필터로부터 특징 맵을 획득하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우, 상기 (III) 프로세스에서, 상기 제2-K 필터로 하여금 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 디컨벌루션 연산을 수행함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우, 상 상기 (III) 프로세스에서, 상기 제2-K 필터로 하여금 상기 제1-K 특징 맵과 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 이용하여 디컨벌루션 연산을 수행하도록 함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 장치가 제공된다.

본 발명의 또 다른 실시예에 따르면, 테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션 장치에 있어서, (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하되, (II) 상기 학습장치는 (i) 상기 인코딩 레이어를 거쳐 상기 제1-1, 내지 제1-K 학습용 특징 맵을 획득하는 프로세스; (ii) 상기 H개의 인코딩 필터들의 각각의 학습용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 학습용 특징 맵을 획득하는 프로세스; (iii) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 학습용 특징 맵 및 상기 각각의 H 개의 상기 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 사용하도록 하거나, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H) 개의 디코딩 필터로 하여금 상기 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 순차적으로 획득하는 프로세스; (iv) 상기 제 2-1 학습용 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 수신하는 통신부; 및 (I) 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터들 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스;를 수행하는 프로세서;를 포함하는 세그멘테이션 장치가 제공된다.

상기 또 다른 실시예에 따르면, 상기 (I) 프로세스에서, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 제1-K 테스트용 특징 맵을 생성하며, 상기 (II) 프로세스에서, 상기 제3-1 내지 상기 제3-H 필터의 테스트용 출력으로부터 테스트용 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 테스트용 특징 맵을 생성하고, 상기 (III) 프로세스에서, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 제2-1 테스트용 특징 맵을 생성하는 것을 특징으로 하는 세그멘테이션 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 (II) 프로세스에서, 상기 H개의 인코딩 필터의 테스트용 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 테스트용 특징 맵들을 획득하는 것을 특징으로 하는 세그멘테이션 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 제3-1 내지 상기 제3-H 필터들 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 세그멘테이션 장치가 제공된다.

또한, 상기 또 다른 실시예에 따르면, 상기 (III) 프로세스에서, 상기 제3-1 내지 제3-H 테스트용 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵의 정보를 이용하여 디컨벌루션 연산을 수행하고, 상기 제2-1 내지 제2-K 테스트용 특징 맵들 중 상기 H 개의 디코딩 필터로부터 테스트용 특징 맵을 획득하는 것을 특징으로 하는 세그멘테이션 장치가 제공된다.

본 발명에 따르면, 다이레이션 컨볼루션 연산을 인코더의 필터들과 디코더 필터들 사이에 삽입하여 이미지 세그멘테이션의 전체 네트워크 학습 과정 및 테스트 과정이 좀 더 효과적으로 수행될 수 있다.

본 발명에 따르면, CNN 모델의 학습 장치가 이미지 내의 물체의 엣지와 context 정보 등을 보완하여 학습하도록 할 수 있다.

본 발명에 따르면, 이미지 세그멘테이션 시 더 나은 엣지 정보를 표현하도록 세그멘테이션을 수행할 수 있다.

도 1은 종래 기술에 따른 이미지 세그멘테이션을 수행할 수 있는 CNN의 학습 과정을 나타내는 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 다이레이션 컨볼루션을 이용한 이미지 세그멘테이션을 수행하는 학습 방법을 나타내는 도면이다.
도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 다양한 FOV를 가지는 다이레이션 컨볼루션 필터를 나타내는 도면이고, 도 3d는 컨볼루션 연산과 다이레이션 컨볼루션 연산의 차이를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 제2-K 특징 맵을 생성하는 과정을 나타내는 도면이다.
도 5는 본 발명의 다른 실시예에 따른 제2-K 특징 맵을 생성하는 과정을 나타내는 도면이다.
도 6a 및 도 6b는 본 발명의 또 다른 실시예에 따른 다이레이션 컨볼루션 을 이용하여 이미지 세그멘테이션을 수행하는 학습 방법을 나타내는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 2a 및 도 2b는 본 발명의 일 실시예에 따른 다이레이션 컨볼루션을 이용한 이미지 세그멘테이션을 수행하는 학습 방법을 나타내는 도면이다. 도 2a 및 도 2b에 도시된 CNN 모델을 이용한 이미지 세그멘테이션을 위한 학습 장치는 통신부(미도시)와 프로세서(미도시)를 포함할 수 있다.

구체적으로, 통신부는 입력 이미지로 트레이닝 이미지를 수신할 수 있고, 프로세서는 인코딩 레이어에 있는 복수 개의 필터, 즉 컨볼루션 필터를 통해 입력 이미지에 대하여 컨볼루션 연산을 복수 회 적용하여 특징 맵을 획득하는 프로세스를 수행할 수 있다. 그런 다음, 프로세서는 복수의 필터를 통해 특정 특징 맵(즉, 인코딩 레이어로부터의 최종 출력)에 대하여 디코딩 레이어에서 복수 개의 필터(즉, 디컨볼루션 필터)를 통해 디컨볼루션 연산을 복수 회 적용함으로써, 입력 이미지에 대응하는 라벨 이미지를 획득하는 프로세스를 수행할 수 있다. 또한, 프로세서는 CNN의 각 필터에 대해 원본 정답 라벨 이미지와 추정된 라벨 이미지 사이의 로스를 이용하여 백프로포게이션 과정을 수행함으로써 CNN 모델 내의 각 필터 또는 레이어들의 파라미터를 최적화하는 프로세스를 수행할 수 있다.

도 2a 및 도 2b를 참조하면, 본 발명에 따른 학습 장치는 K 개 필터 (제1-1 필터 내지 제1-K 필터)를 포함하는 인코딩 레이어와 이에 대응되는 K 개의 필터(제2-K 내지 제2-1 필터)를 포함하는 디코딩 레이어를 포함한다. 또한, 학습장치는, 상기 인코딩 레이어의 상기 제1-1 필터 내지 제1-K 필터 각각과 상기 디코딩 레이어의 상기 제2-1 내지 제2-K 필터 중 대응하는 필터 사이에 배치된 제3-1 필터 내지 제3-K 필터를 포함하는 중간 레이어를 포함한다. 또한, 학습장치는, 추가로 생성된 최종 출력 결과물, 예를 들어 라벨 이미지와 원본 정답 라벨 이미지 사이의 차이를 계산하여 로스를 생성하는 적어도 하나의 로스 레이어를 포함한다.

또한, 도 2a 및 도 2b를 참조하면, 본 발명에 따른 학습 방법은, 학습 장치의 통신부가 입력 이미지로서 트레이닝 이미지를 입력 받아 인코딩 레이어의 제1-1 필터로 입력하면서 시작된다. 또한, 상기 인코딩 레이어의 제1-1 내지 제1-K 필터는 입력된 이미지에 대응하는 특징 맵을 구하기 위해 컨벌루션 연산을 수행한다.

구체적으로, 도 2a 및 도 2b에서 제1-1 필터는 입력 이미지를 입력받아 컨벌루션 연산하여 제1-1 특징 맵을 생성하여 출력하고, 제1-2 필터는 상기 제1-1 특징 맵을 입력받아 컨벌루션 연산하여 제1-2 특징 맵을 생성하여 출력하며, 제1-3 필터는 상기 제1-2 특징 맵을 입력받아 컨벌루션 연산하여 제1-3 특징 맵을 생성하여 출력하며, …, 제1-(K-2) 필터는 제1-(K-3) 특징 맵을 입력받아 컨벌루션 연산하여 제1-(K-2) 특징 맵을 생성하여 출력하며, 제1-(K-1) 필터는 상기 제1-(K-2) 특징 맵을 입력받아 컨벌루션 연산하여 제1-(K-1) 특징 맵을 생성하여 출력하며, 제1-K 필터는 상기 제1-(K-1) 특징 맵을 입력받아 컨벌루션 연산하여 제1-K 특징 맵을 생성하여 출력한다.

이때, 제1-1 내지 제1-K 필터에서 컨벌루션 연산을 수행할 때마다 입력 이미지의 크기는 1/2로 줄어든다. 또한, 컨벌루션 연산이 적용될 때 마다 제1-1 내지 제1-K 필터의 출력의 채널 수는 입력의 2배로 증가하지만, 사이즈의 증가비율 또는 감소 비율, 채널의 수는 제한되지 않는다.

예를 들어, 트레이닝 이미지의 크기가 640x480, 그 채널 수가 3이라면, 제1-1 특징 맵은 크기가 320x240이고, 채널 수는 8이고, 제1-2 특징 맵은 크기가 160x120, 채널 수는 16, 제1-3 특징 맵은 크기가 80x60, 채널 수는 32 일 수 있다.

이후, 제1-K 특징 맵은 디코딩 레이어로 입력되어 라벨 이미지를 생성하는 데 이용된다. 상기 디코딩 레이어의 제2-K 내지 제2-1 필터는 라벨 이미지를 구하기 위해 즉, 이미지를 세그멘테이션 하기 위해 디컨벌루션 연산을 수행한다.

한편, 도 2a 및 도 2b를 참조하면, 본 발명에서는 인코딩 레이어와 디코딩 레이어 사이에 중간 레이어를 더 포함하고, 상기 중간 레이어는 제3-1 내지 제3-K 필터를 포함한다. 상기 제3-1 내지 제3-K 필터 중 상기 제3-1 필터는 상기 제1-1 필터와 제2-1 필터 사이에, 제3-2 필터는 상기 제1-2 필터와 상기 제2-2필터 사이에, …, 상기 제3-K 필터는 상기 제1-K 필터와 상기 제2-K 필터 사이에 위치한다. 즉, 중간 레이어의 각 필터는 인코딩 레이어의 필터와 대응하는 디코딩 레이어의 필터 사이에 배치될 수 있다.

일례로서, 상기 제3-1 필터 내지 상기 제3-K 필터 중 적어도 하나의 필터는 다이레이션 컨볼루션 필터일 수 있다. 그리고 상기 제3-1 필터 내지 상기 제3-K 필터 중 다이레이션 컨볼루션 필터가 아닌 다른 필터들 중 적어도 하나의 필터는 컨볼루션 필터일 수 있다. 또한 상기 제3-1 필터 내지 상기 제3-K 필터 모두 다이레이션 컨볼루션 필터일 수도 있다.

또한, 상기 제3-1 필터 내지 상기 제3-K 필터는 각각 상기 제1-1 특징 맵 내지 상기 제1-K 특징 맵에서 엣지 정보를 추출함으로써 상기 제3-1 내지 상기 제3-K 특징 맵을 생성할 수 있다. 여기서, 상기 제3-1 필터 내지 상기 제3-K 필터는 각각 상기 제1-1 특징 맵 내지 상기 제1-K 특징 맵에서 주파수 변화가 소정의 임계치 이상인 부분을 추출하여 제3-1 내지 제3-H 특징 맵들을 획득할 수도 있을 것이다. 예를 들어, 특정 부분은 입력 이미지의 엣지일 수 있다.

각각의 대응하는 이전 필터로부터 제공된 특징 맵에 디컨볼루션 연산이 적용될 때, 디코딩 레이어의 필터는 제3-1 특징 맵 내지 제3-K 특징 맵 중에서 대응하는 특징 맵에 포함된 에지에 대한 정보를 활용할 수 있다.

일반적으로, 디코딩된 특징 맵의 사이즈를 증가시키는 디코딩 프로세스 중에 에지에 대한 정보가 복구되지 않을 수도 있다는 문제점이 있다. 따라서, 본 발명에 따르면, 프로세서는 에지 정보를 복구하는데에 도움을 주기 위해 중간 레이어의 필터로부터 디코딩 레이어의 필터로 에지 정보를 제공할 수 있다.

구체적으로, 중간 레이어는 인코딩 레이어의 필터 각각으로부터 얻은 각각의 인코딩된 특징 맵으로부터 에지 정보를 추출하고, 제3-1 특징 맵 내지 제3-K 특징 맵의 에지 정보를 각각 디코딩 레이어의 각각 대응하는 필터로 전달할 수 있다. 따라서, 디컨볼루션 연산을 수행할 때, 추출된 에지 정보가 사용될 수 있다.

이하에서는, 제3-1 필터 내지 제3-K 필터의 전부가 다이레이션 컨볼루션 필터인 경우, 본 발명의 일 실시예에 따라 이미지 세그멘테이션을 수행할 수 있는 CNN의 학습 과정을 설명한다.

상기 제3-1 필터는 상기 제1-1 필터로부터 제1-1 특징 맵을 수신한 후, 다이레이션 컨볼루션 연산을 수행하여 제3-1 특징 맵을 생성하고, 제2-1 필터로 제공할 수 있다. 이어서, 상기 제3-2 필터는 상기 제1-2 필터로부터 제1-2 특징 맵을 수신한 후, 다이레이션 컨볼루션 연산을 수행하여 제3-2 특징 맵을 생성하고, 제2-2 필터로 제공할 수 있다. 즉, 중간 레이어의 나머지 필터들은 동일한 절차에 따라 동일한 프로세스가 수행될 수 있습니다.

도 3a는 컨볼루션 필터의 일례를 나타태는 도면이다. 그리고 도 3b 내지 도 3c는 FOV를 가지는 다이레이션 컨볼루션의 다양한 예를 나타내는 도면이다.

도 3b 내지 도 3c와 같이, 다이레이션 컨볼루션 연산은 도 3a에서 나타낸 컨볼루션 필터를 도 3b 내지 도 3c와 같은 필터 구조로 변경하여 컨볼루션 연산하는 것을 말한다. 따라서, 다이레이션 컨볼루션 필터의 사이즈는 컨볼루션 필터의 사이즈보다 클 수 있다. 필터의 사이즈를 확장시키기 위해, 다이레이션 컨볼루션 필터의 가중치(즉, 파라미터)의 일부는 컨볼루션 필터로부터 얻어진 가중치를 제외하고는 0으로 채워질 수 있다. 만약 필터의 사이즈가 확장되더라도 전체 계산 시간은 가중치가 없기 때문에 동일하게 유지될 수 있다. 따라서, 제로 가중치의 계산 시간이 매우 짧기 때문에 전체 계산 시간을 증가시키지 않으면서 FOV를 증가시킬 수 있다. 또한, 만약 필터의 사이즈가 확장되더라도 FOV는 해상도의 손실없이 사이즈를 확장할 수 있다.

도 3b 및 도 3c에 도시된 바와 같이, 컨볼루션 필터로부터 얻은 가중치의 값은 점으로 표시되고, 나머지 FOV 부분은 0으로 채워진다. 여기서, FOV는 출력된 특징 맵의 한 픽셀 생성에 영향을 미친 입력 특징 맵의 픽셀 영역을 의미한다.

도 3a 내지 도 3c는 다양한 FOV를 나타낸 것이며, 도 3a는 FOV가 3x3인 3x3 컨벌루션 필터이고, 도 3b는 FOV의 크기가 7x7인 2-dilated 컨볼루션 필터를 나타내고, 도 3c는 FOV의 크기는 15x15인 4-dilated 컨볼루션 필터를 나타낸다.

또한, 도 3d는 컨볼루션과 다이레이션 컨볼루션의 연산의 예를 나타내는데, 도 3d의 좌측 도면은 연산 대상이 되는 트레이닝 이미지 또는 특징 맵의 픽셀 값을 나타내고, 가운데 상부 도면은 컨볼루션 필터 그리고 가운데 하부 도면은 2-dilated 컨볼루션 필터를 나타낸다. 상기 컨볼루션 필터와 다이레이션 컨볼루션 필터는 연산량은 동일하지만, 2-다이레이션 컨볼루션의 FOV가 컨볼루션 필터의 FOV보다 더 크다. 도 3d의 오른쪽 도면과 같은 3x3결과를 얻기 위해서 일반적인 컨볼루션을 사용하면 도 3d 좌측 이미지 중 음영 표시된 영역의 FOV만 참조(즉, 출력되는 특징 맵의 1픽셀 생성시 음영 표시된 영역에 대응되는 크기의 픽셀들만 연산)하고 2-다이레이션 컨볼루션 필터는 도 3d 좌측 이미지의 음영 표시 영역뿐 아니라 전체 영역을 참조할 수 있다. 즉, 같은 결과를 얻기 위해서 참조하는 영역이 2-다이레이션 컨볼루션이 더 크다는 의미이다. 이와 같이, 다이레이션 컨볼루션 필터는 컨볼루션 필터와 비교하여 연산은 동일한 반면 더 큰 영역을 참조하게 할 수 있다는 특성이 있다.

도 4는 본 발명의 일 실시예에 따른 제2-K 특징 맵을 생성하는 과정을 나타내는 도면이다.

도 4를 참조하면, 제2-K 필터는 제1-K 특징 맵과 제3-K 특징 맵에 디컨벌루션 연산을 수행할 수 있다. 예를 들어, 제2-K 특징 맵은 제3-K 특징 맵에 제1-K 특징 맵을 추가한 다음 디컨벌루션 연산을 수행하여 제2-K 특징 맵을 획득할 수 있다. 즉, 제2-K 필터는, 제1-K 특징 맵 및 제3-K 특징 맵의 특징을 결합하여 디컨벌루션 연산을 수행한 후, 제2-K 특징 맵을 생성할 수 있다. 여기서, 제1-K 특징 맵과 제3-K 특징 맵의 특징을 결합하는 동작은 제1-K 특징 맵 및 제3-K 특징 맵의 각각의 픽셀 값을 합산하는 동작일 수 있으나, 이에 한정하는 것은 아니다. 한편, 경우에 따라서 제2-K 필터는 제1-K 특징 맵에 대하여 디컨볼루션 연산을 수행하여 중간 특징 맵을 생성한 다음, 제3-K 특징 맵과 중간 특징 맵을 합산하여 제2-K 특징 맵을 생성할 수도 있다.

도 5는 본 발명의 다른 실시예에 따른 제2-K 특징 맵을 생성하는 과정을 나타내는 도면이다.

도 5를 참조하면, 제3-K 필터가 제1-K 특징 맵에 다이레이션 컨볼루션 연산을 수행하여 제3-K 특징 맵을 생성하고, 제2-K 필터가 제3-K 필터에서 출력된 제3-K 특징 맵에 디컨벌루션 연산을 수행하여 상기 제2-K 특징 맵을 생성한다.

그 후, 제2-(K-1) 필터는 제2-K 필터로부터 제2-K 특징 맵을 획득하고, 제3-(K-1) 필터로부터 제3-(K-1) 특징 맵을 획득할 수 있다. 그리고, 소정의 연산을 수행하여 제2-(K-1) 특징 맵을 획득할 수 있다. 참고로, 디코딩 레이어에 있는 모든 필터는 상기 절차에 따라 제2-K 필터가 제2-K 특징 맵을 생성할 수 있다.

여기서, 제2-K 필터 내지 제2-1 필터 각각의 출력 사이즈는 제2-K 필터 내지 제2-1 필터 각각의 입력 사이즈의 2배로 증가된다. 또한, 제2-K 필터 내지 제2-1 필터 각각의 출력의 채널 수는 디컨벌루션 연산이 적용될 때 마다 입력의 1/2로 감소된다.

예를 들어, 제2-K 특징 맵의 사이즈가 20x15이고 채널 수가 128인 경우, 제2-(K-1) 특징 맵의 사이즈는 40x30이며 그 채널 수는 64이다. 마찬가지로, 제2-(K-2) 특징 맵의 사이즈는 80x60이고 그 채널 수는 32, 제2-(K-3) 특징 맵의 사이즈는 160x120, 채널 수는 16 일 수 있다.

그리고 다시 도 2a 및 도 2b를 참조하면, 상기 학습 장치는 제2-1 특징 맵(즉, 추정된 라벨 이미지)과 원본 정답 라벨 이미지 값을 비교하여 로스를 산출하는 로스 레이어를 더 포함한다. 상기 추정된 라벨 이미지는 상기 제2-1 특징 맵을 추가로 처리함으로써 획득될 수 있다. 상기 로스 레이어는 로스를 산출하고, 산출된 로스는 백프로포게이션 과정을 통해 전달되어 제2-1 필터 내지 제2-K 필터, 제3-1 필터 내지 제3-K 필터 및 제1-K 필터 내지 제1-1 필터들 중 적어도 하나 이상의 파라미터를 조정할 수 있다.

도 6a 및 도 6b는 본 발명의 또 다른 실시예에 따른 다이레이션 컨볼루션 을 이용하여 이미지 세그멘테이션을 수행하는 학습 방법을 나타내는 도면이다.

도 6a 및 도 6b에 도시된 학습 방법에서는 도 2a 및 도 2b에 도시된 학습 과정과 동일한 과정을 거치나, 중간 레이어의 필터가 모든 인코딩 레이어 및 디코딩 레이어의 각 필터들 사이에 배치되어 상기 필터들과 연동되지는 않고, 상기 인코딩 레이어 필터들과 디코딩 레이어의 필터들 중 일부의 필터들과만 연동되는 실시예에 따른 학습 방법을 나타낸다. 즉, 인코딩 레이어 및 디코딩 레이어에 있는 필터들과 관련된 중간 레이어의 필터들의 수는 K 보다 작을 수 있다.

도 6a 및 도 6b을 참조하면, 중간 레이어는 H 개의 필터 - H는 1 보다 크거나 같고 K 보다 작은 자연수 - 를 포함하며, 상기 제3-1 내지 제3-H 필터 중 상기 H 개의 필터는 상기 인코딩 레이어의 상기 제1-1 내지 1-K 필터 중 일부인 H 개의 필터 및 상기 디코딩 레이어의 상기 제2-1 내지 2-K 필터 중 일부인 H 개의 필터와 연동한다. 여기서, 인코딩 레이어의 제1-1 필터 내지 제1-K 필터 중에서 선택된 H개의 필터는 제1-1 필터 내지 제1-H 필터로 간주되고, 디코딩 레이어의 제2-1 필터 내지 제2-K 필터 중에서 선택된 H개의 필터는 제2-1 필터 내지 제2-H 필터로 간주될 수 있다.

구체적으로, 상기 제1-1 필터 내지 상기 제1-H 필터는 인코딩 레이어의 좌측에서 우측으로 순차적으로 넘버링된다. 또한, 제2-1 필터 내지 제2-H 필터는 디코딩 레이어의 좌측에서 우측으로 순차적으로 넘버링된다. 다만, K 개의 필터들 각각의 세트와 비교하여 동일한 넘버링이 동일한 필터를 지칭하지 않을 수 있다. 예를 들어, H 개의 필터 중 제2-2 필터는 K 개의 필터 중 제2-2 필터와 다를 수도 있다.

도 6a 및 도 6b에서는 학습 장치가, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 경우, 상기 학습 장치는, 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵에 디컨볼루션 연산을 적용하도록 할 수 있다. 또한, 상기 학습 장치는, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵 각각에 디컨볼루션 연산을 적용하도록 할 수 있다.

즉, 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵들 중 상기 제3-1 내지 상기 제3-H 필터들 각각과 연동하는 특징 맵들에 대해 상기 제3-1 내지 상기 제3-H 필터를 각각 이용하여 엣지 정보를 추출함으로써 상기 제3-1 내지 상기 제3-H 특징 맵을 생성할 수 있다.

중간 레이어가 모든 인코딩 레이어 필터와 디코딩 레이어 필터 사이에 연결되지 않고 일부에만 연결되는 경우에는 중간 레이어에서의 연산 량이 줄어들면서도 인코딩 레이어의 특징 맵들의 엣지 정보를 디코딩 과정의 중간에 활용할 수 있기에 학습 효율이나 이미지 테스트 성능이 유지될 수 있는 효과가 있다.

도 2a 및 도 2b 내지 도 6a 및 도 6b는 본 발명에 따른 이미지 세그멘테이션을 위한 학습 장치 및 학습 방법을 설명하였다. 이러한 학습 장치는 백프로포게이션 과정을 통해 최적의 파라미터 값을 구할 수 있게 된다.

이하, 이미지 세그멘테이션을 수행하기 위한 테스트 장치(미도시)의 구성을 간략하게 설명한다. 테스트 장치는 학습 프로세스를 통해 발견된 전술한 최적의 파라미터를 이용하고, 테스트 이미지에 대한 이미지 세그멘테이션을 수행한다. 테스트 장치는 학습 장치와 동일한 장치일 수도 있지만, 경우에 따라서 다른 장치일 수 있다. 앞서 설명한 것과 동일한 또는 유사한 구성 요소 또는 기능에 대한 중복 설명은 반복하지 않으며, 그러한 구성 요소 및 기능의 상세한 설명은 생략될 수 있다.

상기 테스트 장치는 테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션을 수행하는 테스트 방법에 있어서, 통신부(미도시) 및 프로세서(미도시)를 포함하며, 통신부는 외부 장치와 통신하도록 구성될 수 있다.

특히, 앞서 설명한 학습 장치가 학습 처리를 완료하고, 인코딩 레이어, 중간 레이어, 디코딩 레이어 중 적어도 하나의 필터의 조정된 파라미터를 획득한 상태에서, 통신부는 테스트 이미지를 획득할 수 있다. 또한, 프로세서는 (I) 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터의 각각의 테스트용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스를 수행할 수 있다.

여기서, 테스트용 모든 특징 맵은 테스트 장치의 인코딩 레이어, 중간 레이어, 디코딩 레이어의 각 필터에 의해 수행되는 일련의 동작을 통해 테스트 이미지로부터 유도된 특징 맵을 지칭할 수 있다.

한편, 이미지 세그멘테이션을 수행하기 위한 테스트 장치를 이용한 테스트 방법은 백프로포게이션 과정을 수행하지 않을 수 있다. 또한, 이미지 세그멘테이션을 수행하기 위한 테스트 방법은 학습 프로세스를 통해 획득된 최적의 파라미터를 이용할 수 있다.

본 발명 기술분야의 통상의 기술자에게 이해될 수 있는 바로서, 위에서 설명된 이미지, 예컨대 트레이닝 이미지, 테스트 이미지와 같은 이미지 데이터의 송수신이 학습 장치 및 테스트 장치의 통신부들에 의하여 이루어질 수 있으며, 특징 맵과 연산을 수행하기 위한 데이터가 학습 장치 및 테스트 장치의 프로세서(및/또는 메모리)에 의하여 보유/유지될 수 있고, 컨벌루션 연산, 디컨벌루션 연산, 로스 값 연산 과정이 주로 학습 장치 및 테스트 장치의 프로세서에 의하여 수행될 수 있으나, 이에 한정되지는 않을 것이다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

(i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하여 이미지 세그멘테이션의 성능 향상을 위한 학습 방법에 있어서,
(a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스를 수행하는 단계;
(b) 상기 학습 장치는, 상기 H개의 인코딩 필터들의 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스를 수행하는 단계;
(c) 상기 학습 장치는, (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 단계; 및
(d) 상기 학습 장치는, 상기 제2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 단계; 를 포함하되,
상기 (a) 단계에서, 상기 학습 장치는, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 상기 제1-K 특징 맵을 생성하며,
상기 (b) 단계에서, 상기 학습 장치는, 상기 제3-1 내지 상기 제3-H 필터의 출력으로부터 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 특징 맵을 생성하고,
상기 (c) 단계에서, 상기 학습 장치는, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 상기 제2-1 특징 맵을 생성하고,
상기 (b) 단계에서, 상기 학습 장치는, H개의 인코딩 필터의 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 특징 맵들을 획득하는 것을 특징으로 하는 학습 방법.
삭제
삭제
제 1 항에 있어서,
상기 H 가 K 값인 경우, 상기 학습 장치는, (i) 상기 제1-1 내지 제1-K 특징 맵 각각을 제3-1 내지 제3-K 필터로 입력함으로써, 제3-1 내지 제3-K 특징 맵들을 생성한 후, (ii) 상기 제3-1 내지 제3-K 특징 맵 각각을 상기 제2-1 내지 상기 제2-K 필터로 전달하는 것을 특징으로 하는 학습 방법.
(i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하여 이미지 세그멘테이션의 성능 향상을 위한 학습 방법에 있어서,
(a) 상기 입력 이미지가 입력되면, 상기 학습 장치는, 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스를 수행하는 단계;
(b) 상기 학습 장치는, 상기 H개의 인코딩 필터들의 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스를 수행하는 단계;
(c) 상기 학습 장치는, (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 단계; 및
(d) 상기 학습 장치는, 상기 제2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 단계; 를 포함하되,
상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 방법.
제 5 항에 있어서,
상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 방법.
제 5 항에 있어서,
상기 제3-1 내지 상기 제3-H 필터 중 상기 다이레이션 컨볼루션을 수행하는 상기 중간 레이어의 각 필터의 Receptive field는 일부 영역의 필터 weight을 제외한 나머지 영역의 필터 weight 들은 0으로 채워진 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 (c) 단계에서, 상기 학습 장치는, 상기 제3-1, 상기 제3-2, .., 상기 제3-H 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵의 정보를 이용하여 디컨볼루션 연산을 수행하고, 상기 제2-1 내지 제2-K 특징 맵들 중 H개의 디코딩 필터로부터 특징 맵을 획득하는 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우,
상기 (c) 단계에서, 상기 학습 장치는, 상기 제2-K 필터로 하여금 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 디컨벌루션 연산을 수행하도록 함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우,
상기 (c) 단계에서, 상기 학습 장치는, 상기 제2-K 필터로 하여금 상기 제1-K 특징 맵과 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 디컨벌루션 연산을 수행하도록 함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 방법.
테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션을 수행하는 테스트 방법에 있어서,
(a) (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하되, (II) 상기 학습장치는 (i) 상기 인코딩 레이어를 거쳐 상기 제1-1, 내지 제1-K 학습용 특징 맵을 획득하는 프로세스; (ii) 상기 H개의 인코딩 필터들의 각각의 학습용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 학습용 특징 맵을 획득하는 프로세스; (iii) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 학습용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 사용하도록 하거나, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 순차적으로 획득하는 프로세스; (iv) 상기 제 2-1 학습용 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 획득하는 단계;
(b) 상기 테스트 장치가, 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스를 수행하는 단계;
(c) 상기 테스트 장치는, 상기 H개의 인코딩 필터의 각각의 테스트용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스를 수행하는 단계;
(d) 상기 테스트 장치는, (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 제2-K, 제2-(K-1), …, 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 단계;
를 포함하되,
상기 (b) 단계에서, 상기 테스트 장치는, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 제1-K 테스트용 특징 맵을 생성하며,
상기 (c) 단계에서, 상기 테스트 장치는, 상기 제3-1 내지 상기 제3-H 필터의 테스트용 출력으로부터 테스트용 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 테스트용 특징 맵을 생성하고,
상기 (d) 단계에서, 상기 테스트 장치는, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 제2-1 테스트용 특징 맵을 생성하고,
상기 (c) 단계에서, 상기 테스트 장치는, H개의 인코딩 필터의 테스트용 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 테스트용 특징 맵들을 획득하는 것을 특징으로 하는 세그멘테이션 방법.
삭제
삭제
테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션을 수행하는 테스트 방법에 있어서,
(a) (I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하되, (II) 상기 학습장치는 (i) 상기 인코딩 레이어를 거쳐 상기 제1-1, 내지 제1-K 학습용 특징 맵을 획득하는 프로세스; (ii) 상기 H개의 인코딩 필터들의 각각의 학습용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 학습용 특징 맵을 획득하는 프로세스; (iii) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 학습용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 사용하도록 하거나, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 순차적으로 획득하는 프로세스; (iv) 상기 제 2-1 학습용 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 획득하는 단계;
(b) 상기 테스트 장치가, 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스를 수행하는 단계;
(c) 상기 테스트 장치는, 상기 H개의 인코딩 필터의 각각의 테스트용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스를 수행하는 단계;
(d) 상기 테스트 장치는, (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 제2-K, 제2-(K-1), …, 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스를 수행하는 단계;
를 포함하되,
상기 제3-1 내지 상기 제3-H 필터들 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 세그멘테이션 방법.
제 11 항에 있어서,
상기 (d) 단계에서, 상기 테스트 장치는, 상기 제3-1 내지 제3-H 테스트용 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵의 정보를 이용하여 디컨벌루션 연산을 수행하고, 상기 제2-1 내지 제2-K 테스트용 특징 맵들 중 상기 H 개의 디코딩 필터로부터 테스트용 특징 맵을 획득하는 것을 특징으로 하는 세그멘테이션 방법.
(i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 이미지 세그멘테이션의 성능 향상을 위한 학습 장치에 있어서,
상기 입력 이미지를 수신하는 통신부; 및
(I) 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터들의 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스; 및 (IV) 상기 제 2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행하는 프로세서; 를 포함하되,
상기 (I) 프로세스에서, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 상기 제1-K 특징 맵을 생성하며,
상기 (II) 프로세스에서, 상기 제3-1 내지 상기 제3-H 필터의 출력으로부터 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 특징 맵을 생성하고,
상기 (III) 프로세스에서, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 상기 제2-1 특징 맵을 생성하고,
상기 (II) 프로세스에서, 상기 H개의 인코딩 필터의 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 특징 맵들을 획득하는 것을 특징으로 하는 학습 장치.
삭제
삭제
제 16 항에 있어서,
상기 H 가 K 값인 경우, (i) 상기 제1-1 내지 제1-K 특징 맵 각각을 제3-1 내지 제3-K 필터로 입력함으로써, 제3-1 내지 제3-K 특징 맵들을 생성한 후, (ii) 상기 제3-1 내지 제3-K 특징 맵 각각을 상기 제2-1 내지 상기 제 2-K 필터로 전달하는 것을 특징으로 하는 학습 장치.
(i) 트레이닝 이미지로서의 입력 이미지에 대응되는 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 이미지 세그멘테이션의 성능 향상을 위한 학습 장치에 있어서,
상기 입력 이미지를 수신하는 통신부; 및
(I) 상기 인코딩 레이어를 거쳐 상기 제1-1, 상기 제1-2, …, 상기 제1-K 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터들의 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개의 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 특징 맵을 순차적으로 획득하는 프로세스; 및 (IV) 상기 제 2-1 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행하는 프로세서; 를 포함하되,
상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 장치.
제 20 항에 있어서,
상기 제3-1 내지 상기 제3-H 필터 중 적어도 한 개의 필터는 컨볼루션 연산을 수행하는 것을 특징으로 하는 학습 장치.
제 20 항에 있어서,
상기 제3-1 내지 상기 제3-H 필터 중 상기 다이레이션 컨볼루션을 수행하는 상기 중간 레이어의 각 필터의 Receptive field는 일부 영역의 필터 weight을 제외한 나머지 영역의 필터 weight 들은 0으로 채워진 것을 특징으로 하는 학습 장치.
제 16 항에 있어서,
상기 (III) 프로세스에서, 상기 제3-1, 상기 제3-2, .., 상기 제3-H 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 특징 맵의 정보를 이용하여 디컨볼루션 연산을 수행하고, 상기 제2-1 내지 제2-K 특징 맵들 중 H개의 디코딩 필터로부터 특징 맵을 획득하는 것을 특징으로 하는 학습 장치.
제 16 항에 있어서,
상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우,
상기 (III) 프로세스에서, 상기 제2-K 필터로 하여금 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 디컨벌루션 연산을 수행함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 장치.
제 16 항에 있어서,
상기 제3-H 필터가 상기 제 1-K 필터와 연동하는 경우,
상기 (III) 프로세스에서, 상기 제2-K 필터로 하여금 상기 제1-K 특징 맵과 상기 제3-H 필터에서 출력된 제3-H 특징 맵을 이용하여 디컨벌루션 연산을 수행하도록 함으로써, 상기 제2-K 특징 맵을 획득하는 것을 특징으로 하는 학습 장치.
테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션 장치에 있어서,
(I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하되, (II) 상기 학습장치는 (i) 상기 인코딩 레이어를 거쳐 상기 제1-1, 내지 제1-K 학습용 특징 맵을 획득하는 프로세스; (ii) 상기 H개의 인코딩 필터들의 각각의 학습용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 학습용 특징 맵을 획득하는 프로세스; (iii) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 학습용 특징 맵 및 상기 각각의 H 개의 상기 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 사용하도록 하거나, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 순차적으로 획득하는 프로세스; (iv) 상기 제 2-1 학습용 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 수신하는 통신부; 및
(I) 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터들 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 제2-K, 제2-(K-1), …, 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스;를 수행하는 프로세서;
를 포함하되,
상기 (I) 프로세스에서, 상기 제1-1 내지 상기 제1-K 필터를 각각 이용하여 순차적으로 크기를 줄이고 채널을 증가시켜가며 상기 제1-1 내지 제1-K 테스트용 특징 맵을 생성하며,
상기 (II) 프로세스에서, 상기 제3-1 내지 상기 제3-H필터의 테스트용 출력으로부터 테스트용 엣지 정보를 추출함으로써, 상기 제3-1 내지 상기 제3-H 테스트용 특징 맵을 생성하고,
상기 (III) 프로세스에서, 상기 제2-K 내지 상기 제2-1 필터를 각각 이용하여 순차적으로 크기를 늘이고 채널을 줄여가며 상기 제2-K 내지 제2-1 테스트용 특징 맵을 생성하고,
상기 (II) 프로세스에서, 상기 H개의 인코딩 필터의 테스트용 출력으로부터 주파수 변화가 소정의 임계치 이상인 부분을 추출함으로써, 상기 제3-1 내지 제3-H 테스트용 특징 맵들을 획득하는 것을 특징으로 하는 세그멘테이션 장치.
삭제
삭제
테스트 이미지로서의 입력 이미지에 대한 이미지 세그멘테이션 장치에 있어서,
(I) (i) 트레이닝 이미지에 대응되는 학습용 특징 맵에 대하여 컨벌루션 연산을 복수 회 수행하여 제1-1, 제1-2, …, 제1-K 학습용 특징 맵을 획득하는, 제1-1 내지 제1-K 필터를 포함하는 인코딩 레이어; (ii) 상기 제1-K 학습용 특징 맵에 대하여 디컨볼루션 연산을 복수 회 수행하여 제2-K, 제2-(K-1), …, 제2-1 학습용 특징 맵을 획득하는, 제 2-K 내지 제2-1 필터를 포함하는 디코딩 레이어; 및 (iii) 상기 인코딩 레이어에 포함된 K개의 필터 중 H 개의 인코딩 필터 및 상기 디코딩 레이어에 포함된 K개의 필터 중 H 개의 디코딩 필터 - 상기 인코딩 레이어에 포함된 상기 H개의 인코딩 필터와 상기 디코딩 레이어에 포함된 상기 H개의 디코딩 필터는 대응됨 - 의 사이에 각각 배치되는 제3-1 내지 제3-H 필터를 포함하는 중간 레이어; 를 포함하는 학습 장치를 이용하되, (II) 상기 학습장치는 (i) 상기 인코딩 레이어를 거쳐 상기 제1-1, 내지 제1-K 학습용 특징 맵을 획득하는 프로세스; (ii) 상기 H개의 인코딩 필터들의 각각의 학습용 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1, 제3-2, .., 제3-H 학습용 특징 맵을 획득하는 프로세스; (iii) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 학습용 특징 맵 및 상기 각각의 H 개의 상기 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 사용하도록 하거나, 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터로 하여금 상기 (K-H)개 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 학습용 특징 맵을 사용하도록 함으로써, 상기 제2-K, 상기 제2-(K-1), …, 상기 제2-1 학습용 특징 맵을 순차적으로 획득하는 프로세스; (iv) 상기 제 2-1 학습용 특징 맵과 정답 라벨 이미지의 차이에 대한 로스를 사용하여 백프로포게이션 프로세스를 수행하여, 상기 제2-1 내지 상기 제2-K 필터, 상기 제 3-1 내지 상기 제 3-H 필터, 및 상기 제1-1 내지 상기 제1-K 필터 중 적어도 일부의 파라미터를 조정하는 프로세스를 수행한 상태에서, 테스트 장치가, 상기 테스트 이미지를 수신하는 통신부; 및
(I) 상기 인코딩 레이어를 거쳐 제1-1 내지 제1-K 테스트용 특징 맵을 획득하는 프로세스; (II) 상기 H개의 인코딩 필터들 각각의 출력을 상기 제3-1 내지 상기 제3-H 필터들로 입력함으로써, 제3-1 내지 제3-H 테스트용 특징 맵을 획득하는 프로세스; (III) (i) 상기 H개 디코딩 필터로 하여금 상기 제3-1 내지 제3-H 테스트용 특징 맵 및 상기 각각의 H 개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하여 각각의 H개의 디코딩 필터를 각각 사용하도록 하거나, (ii) 상기 제3-1 내지 제3-H 필터에 대응되지 않는 각각의 (K-H)개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵을 사용하도록 함으로써, 제2-K, 제2-(K-1), …, 제2-1 테스트용 특징 맵을 순차적으로 획득하는 프로세스;를 수행하는 프로세서;
를 포함하되,
상기 제3-1 내지 상기 제3-H 필터들 중 적어도 한 개의 필터는 다이레이션 컨볼루션 연산을 수행하는 것을 특징으로 하는 세그멘테이션 장치.
제 26 항에 있어서,
상기 (III) 프로세스에서, 상기 제3-1 내지 제3-H 테스트용 특징 맵의 정보 및 상기 각각의 H개의 디코딩 필터의 각각의 이전 디코딩 필터로부터 획득된 테스트용 특징 맵의 정보를 이용하여 디컨벌루션 연산을 수행하고, 상기 제2-1 내지 제2-K 테스트용 특징 맵들 중 상기 H 개의 디코딩 필터로부터 테스트용 특징 맵을 획득하는 것을 특징으로 하는 세그멘테이션 장치.