KR20190067680A - 심층 학습을 이용하는 의미적 영상 분할 방법 - Google Patents

심층 학습을 이용하는 의미적 영상 분할 방법 Download PDF

Info

Publication number
KR20190067680A
KR20190067680A KR1020180026796A KR20180026796A KR20190067680A KR 20190067680 A KR20190067680 A KR 20190067680A KR 1020180026796 A KR1020180026796 A KR 1020180026796A KR 20180026796 A KR20180026796 A KR 20180026796A KR 20190067680 A KR20190067680 A KR 20190067680A
Authority
KR
South Korea
Prior art keywords
learning
feature map
image
deconvolution
weight
Prior art date
Application number
KR1020180026796A
Other languages
English (en)
Other versions
KR101993085B1 (ko
Inventor
서일홍
박영빈
김병완
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Publication of KR20190067680A publication Critical patent/KR20190067680A/ko
Application granted granted Critical
Publication of KR101993085B1 publication Critical patent/KR101993085B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

이전 학습 결과를 현재 학습에 반영하여, 입력 영상을 객체 단위의 의미적 특징으로 분할하는 의미적 영상 분할 방법이 개시된다. 개시된 심층 학습을 이용하는 의미적 영상 분할 방법은 레퍼런스 영상 및 상기 레퍼런스 영상에 대한 레퍼런스 분할 영상을 이용하여, 컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 및 상기 학습 결과를 이용하여, 입력 영상을 복수의 세그먼트로 분할하는 단계를 포함하며, 상기 가중치를 학습하는 단계는 제1학습 구간에서 상기 컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 상기 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성하는 단계; 및 제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 컨벌루션 레이어의 필터의 가중치를 학습하는 단계를 포함한다.

Description

심층 학습을 이용하는 의미적 영상 분할 방법{SEMANTIC IMAGE SEGMENTATION METHOD BASED ON DEEP LEARING}
본 발명은 심층 학습을 이용하는 의미적 영상 분할 방법에 관한 것으로서, 더욱 상세하게는 이전 학습 결과를 현재 학습에 반영하여, 영상을 객체 단위의 의미적 특징으로 분할하는 방법에 관한 것이다.
최근 알파고(AlphaGo)가 프로 바둑 기사에게 승리한 사건이 굉장한 이슈가 있다. 알파고는 구글이 개발한 인공지능 바둑 프로그램으로서, 심층 강화 학습을 통해 바둑을 학습한 프로그램이다. 심층 강화 학습이란 심층 학습(Deep learning)과 강화 학습 Reinforcement learning)이 결합한 형태의 기계 학습 방법이다.
기계 학습 기술의 발달과 함께, 기계 학습을 이용한 영상 인식 기술이 발전하고 있으며, 영상 인식을 위한 심층 학습 알고리즘으로 CNN(Convolutional Neural Network) 알고리즘이 대표적이다. CNN은, 사람이 물체를 인식할 때 물체의 기본적인 특징들을 추출한 다음 뇌 속에서 복잡한 계산을 거쳐 그 결과를 기반으로 물체를 인식한다는 가정을 기반으로 만들어진 알고리즘이다. CNN에서는 기본적으로 컨볼루션(convolution) 연산을 통해 영상의 특징을 추출하기 위한 다양한 필터와 비선형적인 특성을 더하기 위한 풀링(pooling) 또는 비선형 활성화(non-linear activation) 함수 등이 함께 사용된다.
그리고 최근에는 이러한 기계 학습을 이용하여 단순히 입력 영상이 어떤 영상인지를 분류하는데에서 더 나아가, 영상을 객체 단위의 의미적 특징으로 분할(semantic segmentation)하는 방법에도 기계 학습이 이용되고 있다. 의미적 영상 분할이란 입력 영상에서 객체를 탐지하여 단순히 객체 단위로 분할하는 것이 아니라, 탐지된 객체 각각이 사람인지 아니면 특정 동물인지 등에 따라서 분할하는 방법이다.
관련 선행문헌으로 비특허 문헌인 "Vijay Badrinarayanan, Alex Kendall and Roberto Cipolla, SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. PAMI, 2017"가 있다.
본 발명은 보다 성능이 향상된 심층 학습을 이용하는 의미적 영상 분할 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따르면, 컨벌루션 레이어의 필터의 가중치를 조절하며, 레퍼런스 영상에 대한 레퍼런스 분할 영상을 학습하는 단계; 상기 학습 결과를 이용하여, 입력 영상을 복수의 세그먼트로 분할하는 단계를 포함하며, 상기 레퍼런스 분할 영상을 학습하는 단계는 제1학습 구간에서 상기 컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 상기 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성하는 단계; 및 제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 컨벌루션 레이어의 필터의 가중치를 학습하는 단계를 포함하는 심층 학습을 이용하는 의미적 영상 분할 방법이 제공된다.
또한 상기한 목적을 달성하기 위한 본 발명의 다른 실시예에 따르면, 레퍼런스 영상 및 상기 레퍼런스 영상에 대한 레퍼런스 분할 영상을 이용하여, 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 및 상기 학습 결과를 이용하여, 입력 영상을 복수의 세그먼트로 분할하는 단계를 포함하며, 상기 가중치를 학습하는 단계는 제1학습 구간에서 상기 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 상기 제1학습 구간에서 디컨벌루션을 통해 얻어진 제1피쳐맵을 컨벌루션하여 제2피쳐맵을 생성하는 단계; 및 제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계를 포함하는 심층 학습을 이용하는 의미적 영상 분할 방법이 제공된다.
또한 상기한 목적을 달성하기 위한 본 발명의 또 다른 실시예에 따르면, 레퍼런스 영상 및 상기 레퍼런스 영상에 대한 레퍼런스 분할 영상을 입력받는 단계; 및 상기 레퍼런스 영상 및 상기 레퍼런스 영상을 이용하여, 컨벌루션 레이어 및 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계를 포함하며, 상기 가중치를 학습하는 단계는 제1학습 구간에서 컨벌루션 레이어 및 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 상기 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성하고, 상기 제1학습 구간에서 디컨벌루션을 통해 얻어진 제3피쳐맵을 컨벌루션하여 제4피쳐맵을 생성하는 단계; 및 제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 컨벌루션 레이어의 필터의 가중치를 학습하며, 상기 제4피쳐맵을 이용하여 상기 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계를 포함하는 심층 학습을 이용하는 의미적 영상 분할 방법이 제공된다.
본 발명에 따르면, 상향식뿐만 아니라 하향식으로도 심층 학습이 수행됨으로써, 영상 분할 성능이 향상될 수 있다.
도 1은 심층 학습을 이용하는 의미적 영상 분할 장치의 블록도를 도시하는 도면이다.
도 2는 컨벌루션 및 디컨벌루션을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 심층 학습을 이용하는 의미적 영상 분할 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일실시예에 따른 심층 학습을 이용하는 의미적 영상 분할 방법을 구체적으로 설명하기 위한 도면이다.
도 5는 본 발명의 구체적 실시예에 따른 의미적 영상 분할을 위한 학습 방법을 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 심층 학습을 이용하는 의미적 영상 분할 장치의 블록도를 도시하는 도면이며, 도 2는 컨벌루션 및 디컨벌루션을 설명하기 위한 도면이다.
도 1을 참조하면, 심층 학습을 이용하는 의미적 영상 분할 장치는 인코더(110) 및 디코더(120)를 포함한다.
의미적 영상 분할 장치는 레퍼런스 영상(130)에 대한 레퍼런스 분할 영상(140)을 학습한다. 레퍼런스 분할 영상은 레퍼런스 영상의 객체를 의미적 특징에 따라서 미리 분할한 영상이다. 예컨대, 레퍼런스 분할 영상에 포함되는 사람이나, 자동차, 나무 등이 별도의 세그먼트로 분할되어 레퍼런스 분할 영상을 구성할 수 있다. 이러한 학습을 통해 인코더 및 디코더의 필터의 가중치가 조절되며, 결국, 의미적 영상 분할 장치는 레퍼런스 영상 및 레퍼런스 분할 영상을 이용하여 필터의 가중치를 학습한다고 할 수 있다.
보다 구체적으로, 인코더(110)는 컨벌루션 레이어를 이용하여 필터의 가중치를 학습한다. 일반적으로 CNN은 컨벌루션, 맥스 풀링(max-pooling) 및 활성화 함수 연산 등을 수행하는 컨벌루션 레이어와 완전 연결된(fully-connected) 신경망으로 구성되며, 컨벌루션 레이어의 필터 가중치 및 완전 연결된 신경망의 가중치에 대한 학습이 이루어지는데, 인코더는 그 중 컨번루션 레이어를 이용하며, 컨벌루션 레이어에 이용되는 필터의 가중치를 학습한다.
디코더(120)는 디컨벌루션 레이어를 이용하여 필터의 가중치를 학습한다. 영상 분류에 이용되는 CNN의 경우, 레퍼런스 영상에 대한 레이블(label)이 주어지는 형태로 학습이 이루어지기 때문에, 컨벌루션을 통해 레퍼런스 영상보다 작은 사이즈의 피쳐맵이 생성되더라도 무관하지만, 의미적 영상 분할을 위해서는 레퍼런스 영상의 화소 단위로 학습이 이루어져야하기 때문에, 인코더(110)의 컨벌루션(convolution)을 통해 생성된 피쳐맵을 디컨벌루션(deconvolution)을 통해 레퍼런스 영상의 사이즈에 대응되도록 확대시켜야할 필요가 있다.
디컨벌루션 레이어에서는 컨벌루션 레이어와 같이 피쳐맵이 생성되며 필터의 가중치에 대한 학습이 이루어지는데, 컨벌루션 레이어와 달리 디컨벌루션이 진행될수록 피쳐맵의 사이즈가 확대된다. 도 2를 참조하면, 도 2(a)는 컨벌루션을 통해 피쳐맵이 생성되는 과정을 설명하기 위한 도면이며, 도 2(b)는 디컨벌루션을 통해 피쳐맵의 사이즈가 확대되는 과정을 설명하기 위한 도면이다.
도 2(a)에서 레퍼런스 영상(210)의 사이즈가 3x3이며, 컨벌루션에 이용되는 필터(220)의 사이즈는 2x2이다. 레퍼런스 영상(210)에 기재된 숫자는 픽셀값을 나타내며 필터(220)에 기재된 숫자는 가중치를 나타낸다. 필터(220)는 레퍼런스 영상(210)에 대해 상하 좌우로 이동하며, 픽셀값과 가중치가 곱해진 후 더해져 피쳐맵(230)이 생성된다.
도 2(b)에서 디컨벌루션에 이용되는 필터(240)의 사이즈는 2x2이다. 컨벌루션을 통해 생성된 피쳐맵(230)의 피쳐값 각각에 대해 필터(240)의 4개의 가중치가 곱해지면서 하나의 피쳐값이 4개의 피쳐값으로 확장(250)된다. 예컨대, 피쳐맵(230)의 피쳐값 5는 필터의 가중치 4, 3, 2, 1과 각각 곱해져, 20, 15, 10, 5로 확장된다. 이와 같이 확장된 피쳐값들이 더해져 3x3 크기의 피쳐맵(260)이 생성된다. 확장된 피쳐값을 나타내는 블록(250)에서 빗금친 부분은 서로 오버랩되어 더해지는 영역을 나타낸다. 예컨대, 디컨벌루션에 의해 생성된 피쳐맵(260)에서 가운데 피쳐값 35는, 확장된 피쳐값을 나타내는 블록(250)에서 5, 2, 12 및 16이 더해진 값이다. 실시예에 따라서, 디컨벌루션은 전술된 방법 이외에 패딩(padding) 등 다양한 방법으로 이루어질 수 있다.
다시 도 1로 돌아와, 의미적 영상 분할 장치는 학습 이후 입력된 영상을, 학습 결과를 이용하여, 복수의 세그먼트로 분할한다.
도 3은 본 발명의 일실시예에 따른 심층 학습을 이용하는 의미적 영상 분할 방법을 설명하기 위한 흐름도이며, 도 4는 본 발명의 일실시예에 따른 심층 학습을 이용하는 의미적 영상 분할 방법을 구체적으로 설명하기 위한 도면이다.
본 발명에 따른 의미적 영상 분할 방법은 프로세서를 포함하는 컴퓨팅 장치에서 수행될 수 있으며, 이하에서는 컴퓨팅 장치의 하나인 의미적 영상 분할 장치에서의 의미적 영상 분할 방법이 일실시예로서 설명된다.
본 발명에 따른 의미적 영상 분할 장치는 레퍼런스 영상 및 레퍼런스 영상에 대한 레퍼런스 분할 영상을 입력받으며, 입력된 레퍼런스 영상 및 레퍼런스 영상을 이용하여, 컨벌루션 레이어 및 디컨벌루션 레이어의 필터의 가중치를 학습한다. 학습 이후, 학습 결과를 이용하여, 입력 영상을 복수의 세그먼트로 분할한다.
이 때, 의미적 영상 분할 장치는 시간 흐름에 따라서 복수의 학습 구간에서 학습을 수행하는데, RNN(Recurrent Neural Network)과 유사하게 이전 학습 구간의 학습한 결과를 다음 학습 구간의 학습에 활용한다.
보다 구체적으로 의미적 영상 분할 장치는 제1학습 구간에서 컨벌루션 레이어 및 디컨벌루션 레이어의 필터의 가중치를 학습(310)하고, 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성하고, 제1학습 구간에서 디컨벌루션을 통해 얻어진 제3피쳐맵을 컨벌루션하여 제4피쳐맵을 생성(S320)한다. 그리고 제2학습 구간에서, 제2피쳐맵을 이용하여 컨벌루션 레이어의 필터의 가중치를 학습하며, 제4피쳐맵을 이용하여 디컨벌루션 레이어의 필터의 가중치를 학습(S330)한다.
이러한 학습 과정은 인코더 및 디코더 중 적어도 하나에서 수행될 수 있으며, 전술된 학습 과정을 인코더 즉, 컨벌루션 레이어와, 디코더 즉, 디컨벌루션 레이어 별로 기술하면 다음과 같다.
먼저, 의미적 영상 분할 장치의 인코더는 제1학습 구간에서 컨벌루션 레이어의 필터의 가중치를 학습하고, 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성한다. 그리고 제2학습 구간에서, 제2피쳐맵을 이용하여 컨벌루션 레이어의 필터의 가중치를 학습한다.
그리고 의미적 영상 분할 장치의 디코더는 제1학습 구간에서 디컨벌루션 레이어의 필터의 가중치를 학습하고, 제1학습 구간에서 디컨벌루션을 통해 얻어진 제3피쳐맵을 컨벌루션하여 제4피쳐맵을 생성한다. 그리고 제2학습 구간에서, 제4피쳐맵을 이용하여 디컨벌루션 레이어의 필터의 가중치를 학습한다.
이하에서, 도 4를 참조하여 인코더의 학습 방법을 먼저 설명한 후 디코더의 학습 방법을 설명하기로 한다. 도 4에서는 인코더의 학습 과정과 디코더의 학습 과정이 상향식으로 도시되어 있으며, 제1 및 제2학습 구간에서의 학습 과정이 도시되어 있다. 제1 및 제2학습 구간은 시간적 선후의 차이만 존재하며, 제1 및 제2학습 구간에서의 기본적인 학습 과정은 동일하다.
컨벌루션 레이어 및 디컨벌루션 레이어 각각은 복수의 단위 컨벌루션 레이어 및 단위 디컨벌루션 레이어를 포함하는데, 도 4에서는 컨벌루션 레이어가 3개의 단위 컨벌루션 레이어(411, 412, 413)를 포함하며, 디컨벌루션 레이어가 2개의 단위 디컨벌루션 레이어(421, 422)를 포함하는 실시예가 도시된다. 각각의 단위 컨벌루션 레이어에서는 컨벌루션(conv), 활성화 함수 연산(relu) 및 풀링(pool)이 순차적으로 수행되며, 각각의 단위 디컨벌루션 레이어에서는 언풀링(unpool), 디컨벌루션(deconv)이 순차적으로 수행된다.
전술된 바와 같이, 제1학습 구간의 제2단위 컨벌루션 레이어(412)에서 컨벌루션을 통해 생성된 제1피쳐맵은 디컨벌루션(430)되며, 디컨벌루션(430)을 통해 제2피쳐맵이 생성된다. 여기서, 컨벌루션 레이어에서 필터의 가중치가 학습되는 것과 마찬가지로 본 발명에 따른 의미적 영상 분할 장치는 레퍼런스 영상 및 레퍼런스 분할 영상을 이용하여, 제2피쳐맵 생성을 위한 디컨벌루션 필터의 가중치 역시 학습한다.
디컨벌루션(430)을 통해 생성된 제2피쳐맵은 제2단위 컨벌루션 레이어(412)보다 시간적으로 앞선 제2학습 구간의 제1단위 컨벌루션 레이어(411)로 입력된다. 의미적 영상 분할 장치는 제2학습 구간의 제1단위 컨벌루션 레이어(411)에서 컨벌루션을 통해 생성된 제5피쳐맵과 디컨벌루션(430)된 제2피쳐맵을 더하여, 제2학습 구간에서 컨벌루션 레이어의 필터의 가중치를 학습한다. 즉, 의미적 영상 분할 장치는 제2피쳐맵의 피쳐값과 제5피쳐맵의 피쳐값이 더해진 피쳐맵에 대해 비선형 함수 연산과 풀링을 수행한다.
제1피쳐맵은 제1단위 컨벌루션 레이어(411)의 풀링 과정에 의해 제2학습 구간에서 풀링이 수행되지 않은 제5피쳐맵의 사이즈보다 작기 때문에, 의미적 영상 분할 장치는 디컨벌루션(430)을 통해 제1피쳐맵으로부터 사이즈가 증가된 제2피쳐맵을 생성한다. 의미적 영상 분할 장치는 제5피쳐맵의 사이즈와 제2피쳐맵의 사이즈가 동일해지도록 디컨벌루션(430)을 수행할 수 있다.
실시예에 따라서, 제1학습 구간에서 제2단위 컨벌루션 레이어(412)가 아닌 다른 단위 컨벌루션 레이어의 피쳐맵이 디컨벌루션되어 제2학습 구간에서 이용될 수 있으며, 마찬가지로 디컨벌루션된 피쳐맵은 제2학습 구간의 제1단위 컨벌루션 레이어(411)가 아닌 다른 컨벌루션 레이어로 입력될 수 있다. 이 때, 디컨벌루션은 제2학습 구간에서 생성되는 피쳐맵의 크기에 대응되도록 수행된다.
다음으로 도 4를 참조하여, 디코더의 학습 과정을 설명하기로 한다.
전술된 바와 같이, 제1학습 구간의 제1단위 디컨벌루션 레이어(421)에서 디컨벌루션을 통해 생성된 제3피쳐맵은 컨벌루션(440)되며, 컨벌루션(440)을 통해 제4피쳐맵이 생성된다. 여기서, 디컨벌루션 레이어에서 필터의 가중치가 학습되는 것과 마찬가지로 본 발명에 따른 의미적 영상 분할 장치는 레퍼런스 영상 및 레퍼런스 분할 영상을 이용하여, 제4피쳐맵 생성을 위한 컨벌루션 필터의 가중치 역시 학습한다.
컨벌루션(440)을 통해 생성된 제4피쳐맵은 제1단위 디컨벌루션 레이어(421)보다 시간적으로 앞선 제2학습 구간의 제2단위 디컨벌루션 레이어(422)로 입력된다. 의미적 영상 분할 장치는 제2학습 구간의 제2단위 디컨벌루션 레이어(422)에서 디컨벌루션을 통해 생성된 제6피쳐맵과 컨벌루션(440)된 제4피쳐맵을 더하여, 제2학습 구간에서 디컨벌루션 레이어의 필터의 가중치를 학습한다. 즉, 의미적 영상 분할 장치는 제4피쳐맵의 피쳐값과 제6피쳐맵의 피쳐값이 더해진 피쳐맵에 대해 언풀링을 수행한다.
제3피쳐맵은 2개의 단위 디컨벌루션 레이어(421, 422)를 통해 생성된 피쳐맵이며, 언풀링 과정에 의해 제2학습 구간에서 언풀링이 수행되지 않은 제6피쳐맵의 사이즈보다 크기 때문에, 의미적 영상 분할 장치는 컨벌루션(440)을 통해 제3피쳐맵으로부터 사이즈가 증가된 제4피쳐맵을 생성한다. 의미적 영상 분할 장치는 제6피쳐맵의 사이즈와 제4피쳐맵의 사이즈가 동일해지도록 컨벌루션(440)을 수행할 수 있다.
실시예에 따라서, 제1학습 구간에서 제1단위 디컨벌루션 레이어(421)가 아닌 다른 단위 디컨벌루션 레이어의 피쳐맵이 컨벌루션되어 제2학습 구간에서 이용될 수 있으며, 마찬가지로 컨벌루션된 피쳐맵은 제2학습 구간의 제2단위 디컨벌루션 레이어(422)가 아닌 다른 디컨벌루션 레이어로 입력될 수 있다. 이 때, 컨벌루션은 제2학습 구간에서 생성되는 피쳐맵의 크기에 대응되도록 수행된다.
정리하면, 본 발명에 따른 의미적 영상 분할 방법은 심층 학습이 인코더에서 디코더 방향 즉, 상향식으로 이루어질 뿐만 아니라, 제1학습 구간의 학습 결과가 제2학습 구간의 학습에 이용되는 하향식으로도 이루어진다. 결국 본 발명에 따르면, 영상 분할 성능이 향상될 수 있다.
도 5는 본 발명의 구체적 실시예에 따른 의미적 영상 분할을 위한 학습 방법을 설명하기 위한 도면으로서, CamVid benchmark dataset 에 적용된 학습 방법을 설명하기 위한 도면이다.
도 5에서는 3개의 학습 구간에서 학습이 수행되며, 4개의 단위 컨벌루션 레이어와 단위 디컨벌루션 레이어가 이용되는 실시예가 도시된다.
도 5에 도시된 바와 같이, 학습은 인코더(510)에서 디코더(520) 방향 즉 상향식으로 이루어질 뿐만 아니라, 이전 학습 구간의 학습 결과가 다음 학습 구간의 학습에 이용되는 하향식으로도 이루어진다.
이전 학습 구간에서 생성된 피쳐맵은 디컨벌루션 또는 컨벌루션을 통해 다음 학습 구간으로 제공된다. 이 때, 학습 구간 사이에서 디컨벌루션 또는 컨벌루션된 피쳐맵은 이전 학습 구간의 단위 컨벌루션 레이어 또는 단위 디컨벌루션 레이어보다 앞선 단위 컨벌루션 레이어 또는 단위 디컨벌루션 레이어로 입력된다.
앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (11)

  1. 레퍼런스 영상 및 상기 레퍼런스 영상에 대한 레퍼런스 분할 영상을 이용하여, 컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 및
    상기 학습 결과를 이용하여, 입력 영상을 복수의 세그먼트로 분할하는 단계를 포함하며,
    상기 가중치를 학습하는 단계는
    제1학습 구간에서 상기 컨벌루션 레이어의 필터의 가중치를 학습하는 단계;
    상기 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성하는 단계; 및
    제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 컨벌루션 레이어의 필터의 가중치를 학습하는 단계
    를 포함하는 심층 학습을 이용하는 의미적 영상 분할 방법.
  2. 제 1항에 있어서,
    상기 제2피쳐맵을 생성하는 단계는
    상기 레퍼런스 영상 및 상기 레퍼런스 분할 영상을 이용하여, 상기 제2피쳐맵 생성을 위한 필터의 가중치를 학습하는
    심층 학습을 이용하는 의미적 영상 분할 방법.
  3. 제 1항에 있어서,
    상기 제2학습 구간에서 상기 가중치를 학습하는 단계는
    상기 제2학습 구간에서 컨벌루션을 통해 얻어진 제3피쳐맵과 상기 제2피쳐맵을 더하여, 상기 가중치를 학습하는
    심층 학습을 이용하는 의미적 영상 분할 방법.
  4. 제 3항에 있어서,
    상기 컨벌루션 레이어는
    복수의 단위 컨벌루션 레이어를 포함하며,
    상기 제3피쳐맵은
    상기 제1피쳐맵이 생성된 단위 컨벌루션 레이어보다 앞선 단위 컨벌루션 레이어에서 생성된 피쳐맵인
    심층 학습을 이용하는 의미적 영상 분할 방법.
  5. 제 3항에 있어서,
    상기 제2피쳐맵의 사이즈는
    상기 제3피쳐맵의 사이즈와 동일한
    심층 학습을 이용하는 의미적 영상 분할 방법.
  6. 레퍼런스 영상 및 상기 레퍼런스 영상에 대한 레퍼런스 분할 영상을 이용하여, 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계; 및
    상기 학습 결과를 이용하여, 입력 영상을 복수의 세그먼트로 분할하는 단계를 포함하며,
    상기 가중치를 학습하는 단계는
    제1학습 구간에서 상기 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계;
    상기 제1학습 구간에서 디컨벌루션을 통해 얻어진 제1피쳐맵을 컨벌루션하여 제2피쳐맵을 생성하는 단계; 및
    제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계
    를 포함하는 심층 학습을 이용하는 의미적 영상 분할 방법.
  7. 제 6항에 있어서,
    상기 제2피쳐맵을 생성하는 단계는
    상기 레퍼런스 영상 및 상기 레퍼런스 분할 영상을 이용하여, 상기 제2피쳐맵 생성을 위한 필터의 가중치를 학습하는
    심층 학습을 이용하는 의미적 영상 분할 방법.
  8. 제 6항에 있어서,
    상기 제2학습 구간에서 상기 가중치를 학습하는 단계는
    상기 제2학습 구간에서 디컨벌루션을 통해 얻어진 제3피쳐맵과 상기 제2피쳐맵을 더하여, 상기 가중치를 학습하는
    심층 학습을 이용하는 의미적 영상 분할 방법.
  9. 제 8항에 있어서,
    상기 디컨벌루션 레이어는
    복수의 단위 디컨벌루션 레이어를 포함하며,
    상기 제3피쳐맵은
    상기 제1피쳐맵이 생성된 단위 디컨벌루션 레이어보다 앞선 단위 디컨벌루션 레이어에서 생성된 피쳐맵인
    심층 학습을 이용하는 의미적 영상 분할 방법.
  10. 제 8항에 있어서,
    상기 제2피쳐맵의 사이즈는
    상기 제3피쳐맵의 사이즈와 동일한
    심층 학습을 이용하는 의미적 영상 분할 방법.
  11. 레퍼런스 영상 및 상기 레퍼런스 영상에 대한 레퍼런스 분할 영상을 입력받는 단계; 및
    상기 레퍼런스 영상 및 상기 레퍼런스 영상을 이용하여, 컨벌루션 레이어 및 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계를 포함하며,
    상기 가중치를 학습하는 단계는
    제1학습 구간에서 컨벌루션 레이어 및 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계;
    상기 제1학습 구간에서 컨벌루션을 통해 얻어진 제1피쳐맵을 디컨벌루션하여 제2피쳐맵을 생성하고, 상기 제1학습 구간에서 디컨벌루션을 통해 얻어진 제3피쳐맵을 컨벌루션하여 제4피쳐맵을 생성하는 단계; 및
    제2학습 구간에서, 상기 제2피쳐맵을 이용하여 상기 컨벌루션 레이어의 필터의 가중치를 학습하며, 상기 제4피쳐맵을 이용하여 상기 디컨벌루션 레이어의 필터의 가중치를 학습하는 단계
    를 포함하는 심층 학습을 이용하는 의미적 영상 분할 방법.
KR1020180026796A 2017-12-07 2018-03-07 심층 학습을 이용하는 의미적 영상 분할 방법 KR101993085B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170167368 2017-12-07
KR20170167368 2017-12-07

Publications (2)

Publication Number Publication Date
KR20190067680A true KR20190067680A (ko) 2019-06-17
KR101993085B1 KR101993085B1 (ko) 2019-06-25

Family

ID=67064899

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180026796A KR101993085B1 (ko) 2017-12-07 2018-03-07 심층 학습을 이용하는 의미적 영상 분할 방법

Country Status (1)

Country Link
KR (1) KR101993085B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523439A (zh) * 2020-04-21 2020-08-11 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、系统、设备及介质
CN112734827A (zh) * 2021-01-07 2021-04-30 京东鲲鹏(江苏)科技有限公司 一种目标检测方法、装置、电子设备和存储介质
CN112967338A (zh) * 2019-12-13 2021-06-15 宏达国际电子股份有限公司 影像处理系统及影像处理方法
WO2022055260A1 (ko) * 2020-09-08 2022-03-17 포티투닷 주식회사 인공신경망을 이용한 주행 영상에 대한 차량 탑승 가능 영역 판단 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170034226A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
KR20170070715A (ko) * 2015-12-14 2017-06-22 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
JP2017162456A (ja) * 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
KR20170113251A (ko) * 2016-03-24 2017-10-12 재단법인 아산사회복지재단 딥러닝을 이용한 혈관내 초음파 영상에서의 혈관내외경 자동 분할 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170034226A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
KR20170070715A (ko) * 2015-12-14 2017-06-22 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
JP2017162456A (ja) * 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
KR20170113251A (ko) * 2016-03-24 2017-10-12 재단법인 아산사회복지재단 딥러닝을 이용한 혈관내 초음파 영상에서의 혈관내외경 자동 분할 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
논문1 *
논문2 *
논문3 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967338A (zh) * 2019-12-13 2021-06-15 宏达国际电子股份有限公司 影像处理系统及影像处理方法
CN112967338B (zh) * 2019-12-13 2024-05-31 宏达国际电子股份有限公司 影像处理系统及影像处理方法
CN111523439A (zh) * 2020-04-21 2020-08-11 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、系统、设备及介质
CN111523439B (zh) * 2020-04-21 2022-05-17 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、系统、设备及介质
WO2022055260A1 (ko) * 2020-09-08 2022-03-17 포티투닷 주식회사 인공신경망을 이용한 주행 영상에 대한 차량 탑승 가능 영역 판단 방법 및 장치
CN112734827A (zh) * 2021-01-07 2021-04-30 京东鲲鹏(江苏)科技有限公司 一种目标检测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
KR101993085B1 (ko) 2019-06-25

Similar Documents

Publication Publication Date Title
KR101993085B1 (ko) 심층 학습을 이용하는 의미적 영상 분할 방법
He et al. Enhanced boundary learning for glass-like object segmentation
WO2020048396A1 (zh) 一种连续图像的目标检测方法、装置、设备及存储介质
KR102160224B1 (ko) 약한 지도학습 객체 검출기에 기반한 의미론적 객체 영역 분할 방법 및 시스템
CN112016472B (zh) 基于目标动态信息的驾驶员注意力区域预测方法及系统
EP3256992A1 (en) Convolution matrix multiply with callback for deep tiling for deep convolutional neural networks
WO2017015390A1 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
KR102138680B1 (ko) 영상 인식 장치 및 방법
KR102139083B1 (ko) 액티베이션 연산과 컨벌루션 연산을 동시에 수행하기 위한 방법 및 장치 그리고 이를 위한 학습 방법 및 학습 장치
CN111480169A (zh) 用于模式识别的方法、系统和装置
KR102305230B1 (ko) 객체 경계정보의 정확도 개선방법 및 장치
KR102095152B1 (ko) 상황 인지 방법 및 이를 수행하는 장치
KR20180020724A (ko) 나선형 신경망 네트워크 기반의 딥러닝에서 특징맵의 계산을 위한 피라미드 히스토리 맵 생성 방법 및 특징맵 생성 방법
KR20200027887A (ko) 복수의 비디오 프레임을 이용하여 cnn의 파라미터를 최적화하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP7327077B2 (ja) 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
KR102305229B1 (ko) 객체 경계정보의 추출에 사용되는 피쳐맵 정보를 생성하는 방법 및 장치
KR20230123880A (ko) 컴퓨터 비전 시스템에서 이중 값 주의 및 인스턴스 경계 인식 회귀를 위한 시스템 및 방법
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
JP4567660B2 (ja) 電子画像内で物体のセグメントを求める方法
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
KR20220122455A (ko) 영상 데이터에 포함된 객체 분할 방법 및 이를 수행하는 장치
CN111915618A (zh) 基于峰值响应增强的实例分割算法、计算设备
Nakamura et al. An effective combination of loss gradients for multi-task learning applied on instance segmentation and depth estimation
Wang et al. Fire detection in video surveillance using superpixel-based region proposal and ESE-ShuffleNet
Lu et al. Cascaded multi-scale and multi-dimension convolutional neural network for stereo matching

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant