KR102109372B1 - 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법 - Google Patents

멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법 Download PDF

Info

Publication number
KR102109372B1
KR102109372B1 KR1020180042468A KR20180042468A KR102109372B1 KR 102109372 B1 KR102109372 B1 KR 102109372B1 KR 1020180042468 A KR1020180042468 A KR 1020180042468A KR 20180042468 A KR20180042468 A KR 20180042468A KR 102109372 B1 KR102109372 B1 KR 102109372B1
Authority
KR
South Korea
Prior art keywords
image segmentation
scale
semantic
neural network
image
Prior art date
Application number
KR1020180042468A
Other languages
English (en)
Other versions
KR20190119261A (ko
Inventor
이상웅
보둑미
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020180042468A priority Critical patent/KR102109372B1/ko
Publication of KR20190119261A publication Critical patent/KR20190119261A/ko
Application granted granted Critical
Publication of KR102109372B1 publication Critical patent/KR102109372B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법에 관한 것으로, 확장된 컨볼루션의 캐스케이드 아키텍처와 멀티 스케일 이미지를 입력으로 하는 완전 컨볼루션 뉴럴 네트워크를 통해 특정 이미지로부터 의미 있는 부분을 신속하고 정확하게 세그먼테이션할 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시멘틱 이미지 세그먼테이션 장치 및 그 방법에 관한 것이다.

Description

멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법{APPARATUS AND METHOD FOR SEGMENTING OF SEMANTIC IMAGE USING FULLY CONVOLUTIONAL NEURAL NETWORK BASED ON MULTI SCALE IMAGE AND MULTI SCALE DILATED CONVOLUTION}
본 발명은 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 확장된 컨볼루션의 캐스케이드 아키텍처와 멀티 스케일 이미지를 입력으로 하는 완전 컨볼루션 뉴럴 네트워크를 통해 특정 이미지로부터 의미 있는 부분을 신속하고 정확하게 세그먼테이션할 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법에 관한 것이다.
최근 이미지 처리 기술의 급속한 발전으로 인해 시맨틱 이미지 세그먼테이션(semantic segmentation) 기술이 급격하게 발전하고 있다.
시맨틱 이미지 세그먼테이션 기술은 이미지로부터 의미 있는 부분을 분류하기 위한 것으로, 자율주행 자동차, 의료 분야 등과 같이 다양한 분야에 적용되어 장면 이해 및 객체 인식에 주목할 만한 기여를 하고 있다.
딥 러닝(deep learning) 알고리즘이 개발되기 전 대부분의 시맨틱 이미지 세그먼테이션 기술은 조건부 랜덤 필드(conditional random fields) 방법에 크게 의존했다. 상기 조건부 랜덤 필드 방법은 몇 가지 미리 지정된 객체 클래스 중 어느 하나를 이미지 픽셀에 레이블링(label)하는 데 사용된다.
결과적으로 조건부 랜덤 필드 방법은 다양한 객체를 동시에 인식하고 세그먼트할 수 있도록 한다. 조건부 랜덤필드를 사용하는 대부분의 기술은 이웃 픽셀 간의 레이블 어그리먼트(agreement)를 최대화하고 다양한 객체 클래스를 분류하기 위한 컨텍스트 정보 모델을 개발함으로써, 시맨틱 이미지 세그먼테이션 문제를 처리한다.
일반적으로 조건부 랜덤 필드의 전형적인 모델은 각 픽셀의 유너리 포텐셜(unary potential)과 각 픽셀의 이웃하는 픽셀들에 대한 페어와이즈(pair wise) 포텐셜에 의해 계산된다.
또한 딥 러닝 알고리즘인 딥 컨볼루션 뉴럴 네트워크(deep convolutional neural network)가 개발되면서, 의미 있는 특징들의 계층을 자동으로 생성할 수 있도록 함으로써, 객체 탐지 및 이미지 인식 분야에서 획기적인 발전을 가져왔다.
특히, 딥 컨볼루션 뉴럴 네트워크 중 하나인 완전 컨볼루션 뉴럴 네트워크(fully convolutional neural network)는 조밀한 예측을 위한 계산 효율로 인한 장점으로 인해 시맨틱 이미지 세그먼테이션의 성능을 개선하기 위한 많은 노력과 연구가 진행 중에 있다.
따라서 최근 시맨틱 이미지 세그먼테이션을 수행하기 위한 많은 종래의 방법들은 뉴럴 네트워크를 포함하는 완전 컨볼루션 뉴럴 네트워크를 기반으로 개발되고 있다.
또한 시맨틱 이미지 세그먼테이션을 위한 종래의 방법들은 컨볼루션 뉴럴 네트워크에서 풀링 레이어(pooling layer) 및 서브 샘플링(sub sampling) 레이어로부터 선택되는 특징을 포함하며, 원본 이미지에서의 수용필드(receptive field)를 커버하기 위해 확장될 수 있다.
그러나 컨볼루션 뉴럴 네트워크를 이용한 종래의 시맨틱 이미지 세그먼테이션 방법은 원본 이미지의 해상도를 감소시키고, 이미지에서의 세부 특징(detail feature)과 로컬 특징(local feature)을 손실시키기 때문에 원본 이미지를 토대로 수행되는 시맨틱 이미지 세그먼테이션에 대한 정확도가 매우 낮은 문제점이 있다.
이에 따라 본 발명은 확장된 컨볼루션의 캐스케이드 아키텍처와 멀티 스케일 이미지 입력의 딥 네트워크 아키텍처를 가지는 완전 컨볼루션 뉴럴 네트워크를 제안하여, 원본 이미지에 대한 해상도를 감소시키는 종래의 시맨틱 이미지 세그먼테이션 방법의 문제점을 극복하여 멀티 스케일 이미지에 대한 특징들을 효율적 추출함과 동시에 네트워크 학습 파라미터의 증가를 억제하여 신속하고 정확하게 시맨틱 이미지 세그먼테이션을 수행할 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 제공하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 비특허 문헌, 시맨틱 세그먼테이션을 위한 디컨볼루션 네트워크 학습 방법(arXiv:1505.04366 참조)은 사용하여 종래의 시맨틱 세그먼테이션 방법에 대한 문제점을 극복하기 위해 상위 컨볼루션 레이어(up-convolutional layer)를 사용한 것으로, 컨볼루션 네트워크의 풀링 레이어에서 다운 샘플링 과정을 통해 손실된 정보를 복구하여 비교적 시맨틱 세그먼테이션을 수행할 수 있도록 한다.
그러나 상기 선행기술은 손실된 모든 정보를 복구하는 것이 아니라, 손실된 정보의 일부만을 복구하기 때문에 시맨틱 이미지 세그먼테이션의 정확도가 현저하게 떨어지는 문제점이 있다.
반면에 본 발명은 확장된 컨볼루션 캐스케이드 아키텍처와 멀티 스케일 이미지 입력을 위한 딥 네트워크 아키텍처를 결합하여, 시맨틱 이미지 세그먼테이션을 위한 멀티 스케일 이미지를 학습하는 과정에서 원본 이미지의 감소된 해상도와 상기 원본 이미지에 대한 손실되는 특징들을 효율적으로 복구하여, 시맨틱 이미지 세그먼테이션을 정확하게 수행할 수 있도록 하는 것으로, 상기 선행기술은 이러한 본 발명의 기술적 특징을 기재하거나 시사하고 있지 않다.
또한 비특허 문헌, 딥 컨볼루션 네트워크와 완전 연결된 조건부 랜덤 필드를 이용한 시맨틱 이미지 세그먼테이션(ICLR 참조)은 원본 이미지에 대한 해상도가 감소되는 것을 방지하기 위해, 컨볼루션 네트워크의 몇몇 레이어에서 다운 샘플링 오퍼레이션을 사용하지 않고 보다 밀도가 높은 특징 맵을 추출함으로써, 시맨틱 이미지 세그먼테이션을 수행할 수 있도록 한다.
그러나 상기 선행기술은 시맨틱 이미지 세그먼테이션을 수행하기 위한 학습과정에 있어서, 엄청난 양의 입력 파라미터 때문에 매우 높은 계산 비용을 필요로 하는 문제점이 있다.
반면에 본 발명은 상기 확장된 컨볼루션 캐스케이드 아키텍처를 통해 학습 파라미터의 수를 증가시키지 않으면서 멀티 스케일 이미지에 대한 특징을 효율적으로 추출함으로써, 원본 이미지에 대한 시맨틱 이미지 세그먼테이션을 정확하고 신속하게 수행할 수 있도록 하는 것으로, 상기 선행기술은 이러한 본 발명의 기술적 특징에 대한 구성이 전혀 제시되어 있지 않으며, 이에 대한 그 어떠한 암시도 되어 있지 않다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 멀티 스케일 이미지를 입력으로 하는 적어도 하나 이상의 서브 네트워크로 구성되는 완전 컨볼루션 뉴럴 네트워크를 통해 멀티 스케일 이미지를 학습하여 원본 이미지로부터 의미 있는 부분을 분류하기 위한 시맨틱 이미지 세그먼테이션을 신속하고 정확하게 수행할 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은 완전 컨볼루션 뉴럴 네트워크에 확장된 컨볼루션을 적용하여 학습 파라미터의 증가를 방지하고, 멀티 스케일 이미지를 학습하는 과정에서 감소되는 공간 해상도를 효과적으로 복구함으로써, 상기 시맨틱 이미지 세그먼테이션의 정확도를 현저하게 향상시킬 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 제공하는 것을 또 다른 목적으로 한다.
또한 본 발명은 완전 컨볼루션 뉴럴 네트워크에 완전 연결된 조건부 랜덤 필드 모델을 적용하여, 상기 멀티 스케일 이미지에 대한 객체 식별 및 픽셀 수준 객체 위치를 효과적으로 파악할 수 있도록 함으로써, 상기 시맨틱 이미지 세그먼테이션의 성능을 현저하게 향상시킬 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션 장치는 학습데이터를 전처리하여 상기 학습데이터의 원본 이미지에 대한 멀티 스케일 이미지를 생성하는 전처리부, 상기 생성한 멀티 스케일 이미지를 학습하여 시맨틱 이미지 세그먼테이션용 학습모델을 생성하는 시맨틱 이미지 세그먼테이션용 학습모델 생성부를 포함하며, 상기 학습은 멀티 스케일 이미지를 입력으로 하는 컨볼루션 뉴럴 네트워크로 구성되는 복수의 서브 네트워크 및 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 포함하는 완전 컨볼루션 뉴럴 네트워크를 통해 수행되는 것을 특징으로 한다.
또한 시맨틱 이미지 세그먼테이션 장치는, 상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 통해 상기 각 서브 네트워크로부터 출력되는 특징맵에 대한 해상도를 복구하여, 고해상도의 최종 특징맵을 생성하며, 상기 생성한 각각의 최종 특징맵을 동일한 해상도로 재조정하는 것을 특징으로 한다.
또한 상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처는, 캐스케이드 형태로 연결되어 확장된 컨볼루션을 수행하는 복수의 확장된 컨볼루션 레이어를 포함하며, 상기 각 확장된 컨볼루션 레이어는 서로 다른 레이트(rate)를 가지되, 이전의 확장된 컨볼루션 레이어보다 더 큰 레이트를 가지는 것을 특징으로 한다.
또한 상기 완전 컨볼루션 뉴럴네트워크는, 상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처로부터 출력되는 모든 특징맵을 통합하여 객체에 대한 경계를 추출하는 맥스아웃 레이어 및 상기 추출한 객체에 대한 경계를 복구하기 위한 완전 연결된 조건부 랜덤 필드 모델을 더 포함하는 것을 특징으로 한다.
또한 상기 시맨틱 이미지 세그먼테이션 장치는, 시맨틱 이미지 세그먼테이션을 위한 특정 이미지가 입력되는 경우, 상기 전처리부를 제어하여 상기 특정 이미지에 대한 멀티 스케일 이미지를 생성하고, 상기 생성한 멀티 스케일 이미지를 상기 시맨틱 이미지 세그먼테이션용 학습모델에 적용함으로써, 상기 특정 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행하는 시맨틱 이미지 세그먼테이션부를 더 포함하는 것을 특징으로 한다.
아울러 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션 방법은 학습데이터를 전처리하여 상기 학습데이터의 원본 이미지에 대한 멀티 스케일 이미지를 생성하는 전처리 단계, 상기 생성한 멀티 스케일 이미지를 학습하여 시맨틱 이미지 세그먼테이션용 학습모델을 생성하는 시맨틱 이미지 세그먼테이션용 학습모델 생성 단계를 포함하며, 상기 학습은 멀티 스케일 이미지를 입력으로 하는 컨볼루션 뉴럴 네트워크로 구성되는 복수의 서브 네트워크 및 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 포함하는 완전 컨볼루션 뉴럴 네트워크를 통해 수행되는 것을 특징으로 한다.
또한 시맨틱 이미지 세그먼테이션 방법은, 상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 통해 상기 각 서브 네트워크로부터 출력되는 특징맵에 대한 해상도를 복구하여, 고해상도의 최종 특징맵을 생성하며, 상기 생성한 각각의 최종 특징맵을 동일한 해상도로 재조정하는 것을 특징으로 한다.
또한 상기 시맨틱 이미지 세그먼테이션 방법은, 시맨틱 이미지 세그먼테이션을 위한 특정 이미지가 입력되는 경우, 상기 전처리부를 제어하여 상기 특정 이미지에 대한 멀티 스케일 이미지를 생성하고, 상기 생성한 멀티 스케일 이미지를 상기 시맨틱 이미지 세그먼테이션용 학습모델에 적용함으로써, 상기 특정 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행하는 시맨틱 이미지 세그먼테이션 단계를 더 포함하는 것을 특징으로 한다.
이상에서와 같이 본 발명의 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법에 따르면 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처와 멀티 스케일 이미지 입력의 딥 네트워크 아키텍처를 결합한 딥 컨볼루션 뉴럴 네트워크를 통해, 멀티 스케일 이미지부터 멀티 스케일 특징을 효율적으로 추출하고, 멀티 스케일 이미지의 해상도 감소를 복구함과 동시에 학습 파라미터의 증가를 억제함으로써, 시맨틱 이미지 세그먼테이션을 신속하고 정확하게 수행할 수 있도록 하는 효과가 있다.
또한 본 발명은 딥 컨볼루션 뉴럴 네트워크에 완전 연결된 조건부 랜덤 필드 모델을 적용함으로써, 격리된 오탐(false positive)을 효과적으로 제거하여 멀티 스케일 이미지에 포함되는 객체의 경계를 따른 세그먼테이션 예측을 향상시켜 시맨틱 이미지 세그먼테이션에 대한 정확도를 현저하게 향상시킬 수 있도록 하는 효과가 있다.
도 1은 종래의 기술에 따른 딥 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 개략적으로 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 서로 다른 레이트를 가지는 멀티 스케일 확장된 컨볼루션 캐스케이드를 이용한 특징 추출을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 멀티 스케일 확장된 컨볼루션을 가지는 딥 컨볼루션 뉴럴 네트워크를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크에 포함되는 맥스아웃 레이어를 설명하기 위해 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션 장치의 구성을 나타낸 블록도이다.
도 8a는 본 발명의 일 실시예에 따른 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 구조를 나타낸 도면이다.
도 8b는 본 발명의 일 실시예에 따른 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 구조를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 PASCAL VOC 2012 데이터세트를 이용하여 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 이미지 세그먼테이션의 정확도와 타 방법을 통한 시맨틱 이미지 세그먼테이션의 정확도를 비교한 도면이다.
도 10은 본 발명의 일 실시예에 따른 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크와 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 처리속도를 비교한 도면이다.
도 11은 본 발명의 일 실시예에 따른 완전 연결된 조건부 랜덤 필드 모델을 적용하여 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크와 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 성능을 비교한 도면이다.
도 12는 본 발명의 일 실시예에 따른 사람과 사물의 상호작용과 사람과 사람의 상호작용을 포함하는 액티비티를 강조하는 시맨틱 이미지의 세그먼테이션의 일례를 나타낸 도면이다.
도 13은 본 발명의 일 실시예에 따른 동물에 대한 시맨틱 이미지의 세그먼테이션에 대한 일례를 나타낸 도면이다.
도 14는 발명의 일 실시예에 따른 객체에 대한 시맨틱 이미지의 세그먼테이션에 대한 일례를 나타낸 도면이다.
도 15a는 본 발명의 일 실시예에 따른 흑색종 검출을 위한 피부 병변 데이터 세트를 이용하여, 완전 컨볼루션 뉴럴 네트워크와 타 방법과의 성능을 비교한 도면이다.
도 15b는 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크를 통해 흑색종 검출을 위한 피부 병변 데이터 세트의 시맨틱 이미지 세그먼테이션 결과를 나타낸 도면이다.
도 16은 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션을 수행하는 절차를 나타낸 흐름도이다.
이하, 첨부한 도면을 참조하여 본 발명의 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법에 대한 바람직한 실시 예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.
도 1은 종래의 기술에 따른 딥 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 방법을 설명하기 위한 도면이다.
도 1에 도시한 봐와 같이, 종래의 기술에 따른 딥 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 방법은, 복수의 컨볼루션 레이어와 서브 샘플링을 수행하기 위한 맥스 풀링 레이어(max-pooling layer)로 구성되어 입력 이미지를 학습함으로써, 시맨틱 이미지 세그먼테이션을 위한 학습모델을 생성한다.
또한 종래의 기술에 따른 딥 컨볼루션 뉴럴 네트워크는 입력 이미지를 다운샘플링하고, 상기 다운 샘플링한 이미지에 대한 차원을 줄이기 위해 맥스 풀링 레이어와 스트라이드 연산자(stride operator)가 반복적으로 사용함으로써, 학습 파라미터의 수를 감소시켜 계산 비용을 줄인다.
그러나, 딥 컨볼루션 뉴럴 네트워크를 사용하는 종래의 기술은 원본 이미지에 대한 공간 해상도(spatial resolution)를 크게 감소시키기 때문에 시맨틱 이미지 세그먼테이션의 정확도가 현저하게 떨어지는 문제점이 있다.
따라서 본 발명은 확장된 컨볼루션 레이어를 포함하는 완전 컨볼루션 뉴럴 네트워크를 제안함으로써, 학습 파라미터의 수를 증가시키지 않으면서도 각 컨볼루션 레이어에 입력되는 입력 매트릭스의 해상도를 감소시키지 않도록 하여 정확하고 신속하게 시맨틱 이미지 세그먼테이션을 수행할 수 있도록 하는 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 제공하고자 한다.
도 2는 본 발명의 일 실시예에 따른 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법을 개략적으로 설명하기 위한 개념도이다.
도 2에 도시한 바와 같이, 본 발명의 일 실시예에 따른 멀티 스케일 이미지와 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치(이하, 시맨틱 이미지 세그먼테이션 장치라 칭함)(100)는 데이터베이스(300)의 학습데이터 데이터베이스(310)에 저장되는 학습데이터를 학습하여 시맨틱 이미지 세그먼테이션을 위한 학습모델을 생성한다.
또한 상기 학습데이터는 사람, 병, 자동차, 기차 등과 같은 다양한 객체를 포함하는 이미지뿐만 아니라 피부 병변을 포함하는 피부 이미지와 같이 의료분야에서 사용되는 의료 이미지를 포함한다.
즉, 시맨틱 이미지 세그먼테이션 장치(100)는 학습데이터를 구성하는 복수의 이미지를 학습하여, 특정 이미지로부터 사람, 병, 자동차, 기차, 환부(diseased spot)등과 같은 의미 있는 부분을 세그먼테이션할 수 있도록 한다.
또한 상기 학습은 완전 컨볼루션 뉴럴 네트워크를 토대로 수행된다. 또한 상기 완전 컨볼루션 뉴럴 네트워크는 상기 학습데이터의 원본 이미지에 대한 멀티 스케일 이미지를 각각 입력받는 적어도 하나 이상의 서브 네트워크(sub network)로 구성되며, 상기 각 서브네트워크의 끝단에는 확장된 컨볼루션 캐스케이드(cascade) 아키텍처가 결합된다.
한편 상기 멀티 스케일 이미지는 전처리 과정을 통해 상기 원본 이미지를 각기 다른 스케일로 재조정된 복수의 이미지를 의미하며, 상기 환전 컨볼루션 뉴럴 네트워크는 상기 각 서브네트워크를 통해 상기 재조정된 각각의 이미지를 입력받음으로써, 상기 학습데이터에 대한 학습을 수행하게 된다.
또한 완전 컨볼루션 뉴럴 네트워크는 완전 연결된 조건부 랜덤 필드 모델과 결합되어, 이를 통해 격리된 오탐(false positive)을 효과적으로 제거하여 시맨틱 세그먼테이션의 정확성을 향상시킬 수 있도록 한다.
한편 상기에서 설명한 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크의 구조는 도 5를 참조하여 상세히 설명하도록 한다.
또한 시맨틱 이미지 세그먼테이션 장치(100)는 학습데이터를 학습하여 생성한 학습모델을 학습모델 데이터베이스(320)에 저장한다.
또한 시맨틱 이미지 세그먼테이션 장치(100)는 시맨틱 이미지 세그먼테이션을 위한 특정 이미지가 입력되는 경우, 상기 전처리 과정을 수행하여 상기 특정 이미지에 대한 멀티 스케일 이미지를 생성한다.
이후 시맨틱 이미지 세그먼테이션 장치(100)는 상기 저장한 학습모델을 상기 학습모델 데이터베이스(320)로부터 로딩한 후, 상기 로딩한 학습모델에 상기 특정 이미지에 대한 멀티 스케일 이미지를 적용함으로써, 해당 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행한다.
또한 상기 특정 이미지는 사용자 단말(200)이나, 의료 시스템, 자율주행차량 등과 같은 특정 시스템과 연계된 카메라(미도시)로부터 입력될 수 있다.
상기 사용자 단말(200)은 스마트 폰, PDA, 노트북 PC 등과 같이 사용자가 구비한 무선통신단말을 의미한다.
한편 상기 사용자 단말(200)은 상기에서 설명한 것과 같이 네트워크를 통해 시맨틱 이미지 세그먼테이션 장치(100)로 특정 이미지를 전송하여 상기 시맨틱 이미지 세그먼테이션 장치(100)로부터 시맨틱 이미지 세그먼테이션 결과를 수신할 수 있으며, 또한 상기 시맨틱 이미지 세그먼테이션 장치(100)로부터 상기 학습모델을 다운로드하여 사용자 단말(200) 자체에서 시맨틱 이미지 세그먼테이션을 수행할 수 도 있다. 이때, 상기 사용자 단말(200)은 시맨틱 이미지 세그먼테이션용 디바이스가 된다.
또한 시맨틱 이미지 세그먼테이션 장치(100)는 의료 시스템(미도시)과 연동하여, 의료 시스템으로부터 환자의 환부에 대한 이미지를 입력받아 해당 이미지로부터 환부를 세그먼테이션하여 의사와 같은 의료 관계자에게 제공할 수 있으며, 이를 토대로 환자에 대한 정확한 진단을 수행할 수 있도록 구현될 수 있다. 이때, 상기 시맨틱 이미지 세그먼테이션 장치(100)는 네트워크를 통해 상기 의료 시스템과 연동될 수 있으며, 상기 의료 시스템과 통합되어 로컬에서 환부 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행할 수 있도록 구현될 수 있다.
또한 시맨틱 이미지 세그먼테이션 장치(100)는 자율주행 차량과 연동하여, 자율주행 차량에 구비되는 카메라로부터 주행관련 이미지를 입력받아, 해당 이미지에 포함되어 있는 복수의 객체를 세그먼테이션함으로써, 상기 자율주행 차량의 주변에 위치하는 복수의 객체를 인식할 수 있도록 하여 안정적인 주행을 수행할 수 있도록 구현될 수 있다.
즉, 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션 장치(100)는 이미지 인식을 위한 다양한 분야에 적용되어 특정 이미지로부터 의미 있는 부분을 세그먼테이션함으로써, 상기 특정 이미지를 토대로 객체 인식과 장면 인식을 신속하고 효과적으로 수행할 수 있도록 구현될 수 있다.
또한 데이터베이스(300)는 학습데이터를 저장하는 학습데이터 데이터베이스(310) 및 상기 얼굴인식 장치(100)에 의해 생성한 학습모델을 저장하는 학습모델 데이터베이스(320)를 포함하여 구성된다.
이하에서는 도 3 및 도 4를 참조하여, 본 발명의 일 실시예에 따른 멀티 스케일 확장된 컨볼루션의 캐스케이드 구조를 개략적으로 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 서로 다른 레이트를 가지는 멀티 스케일 확장된 컨볼루션 캐스케이드를 이용한 조밀한 특징 추출을 설명하기 위한 도면이며, 도 4는 본 발명의 일 실시예에 따른 멀티 스케일 확장된 컨볼루션을 가지는 딥 컨볼루션 뉴럴 네트워크를 나타낸 도면이다.
도 3에 도시한 바와 같이, 본 발명의 일 실시예에 따른 멀티 스케일 확장된 컨볼루션의 캐스케이드 구조는, 종래의 기술에 따른 맥스 풀링 레이어 및 스트라이드 연산자와 달리, 확장된 컨볼루션 레이어(즉, 확장된 필터가 있는 컨볼루션 레이어라고도 함)를 포함하여 구성된다. 상기 확장된 컨볼루션 레이어는 일반적으로 컨볼루션을 계산하기 전에 필터를 확장함으로써, 해당 확장된 컨볼루션 레이어의 입력 매트릭스에 적용된다.
상기 필터의 크기가 확장되고, 빈 포지션(empty position)은 0으로 완전히 채워진다. 결과적으로 가중치(weight)는 입력 매트릭스의 거리 요소(distant elements)와 일치된다. 상기 거리 요소는 레이트(rate) r에 의해 결정된다.
만약, 커널 중심이 이미지의 임의의 위치에 정렬되면, 커널 요소는 도 3에 도시한 것과 같이 입력 요소와 일치하게 된다.
확장된 컨볼루션의 간단한 예를 들면, 1차원 신호에 1차원 확장된 컨볼루션을 적용할 수 있다. 필터 w[k]를 가지는 입력 x[i]의 확장된 컨볼루션의 출력 y[i]는 다음의 [수학식 1]에 의해 계산된다.
[수학식 1]
Figure 112018036290519-pat00001
여기서, m은 필터 w[k]의 길이(length)다.
또한 본 발명에 있어서, 상기 확장된 컨볼루션의 주된 장점은 컨볼루션 레이어에서 상기 필터의 수용필드를 확장하는 반면에 입력 매트릭스의 해상도를 감소시키지 않는 다는 것이다. 레이트 r을 가지는 확장된 컨볼루션을 적용함으로서, 커널 크기 k x k를 가지는 필터는 최다 k'까지 확장될 수 있다. 이때, k'은 k + (k - 1)(r - 1)의 값을 가진다.
상기 확장은 몇 가지 장점을 제공하지만, 또한 몇 가지 단점을 발생시킨다. 한편, 본 발명에서 완전 컨볼루션 뉴럴 네트워크의 계산 비용을 증가시키지 않으면서 멀티 스케일 이미지에 대한 보다 큰 컨텍스트를 캡쳐하기 위해 큰 레이트 r로 확장된 컨볼루션을 적용한다.
그러나 큰 레이트 r을 가지는 확장된 컨볼루션은 필터 값을 사이에 더 많은 0을 도입하고, 더 작은 영역들에서보다 많은 로컬 컨텍스트 정보를 일어버릴 수 있다.
또한 작은 레이트 r을 가지는 확장된 컨볼루션은 로컬화 성능을 향상시키는 데 사용될 수 있다. 그럼에도 불구하고 각 확장된 컨볼루션 레이어는 수용 범위가 좁은 특징 맵(feature map)을 생성한다. 그러므로 더 조밀한 특징맵을 추출하기 위해서는 서로 다른 레이트 r을 가지는 확장된 컨볼루션의 조합이 필요하다.
따라서, 본 발명은 멀티 스케일 이미지에서 컨텍스트 정보를 추출하기 위한 멀티 스케일 확장된 컨볼루션 레이어의 캐스케이드 아키텍처를 제안한다.
상기 캐스케이드 아키텍처는 연속된 컨볼루션 레이어로 구성되며, 상기 각각의 레이어는 동일한 수용필드가 있는 조밀한 특징맵을 생성하기 위해 동일한 레이트 r을 가지는 확장된 컨볼루션 커널만을 사용한다.
또한 이전 컨볼루션 레이어는 현재의 컨볼루션 레이어보다 작은 레이트를 가지는 컨볼루션을 사용하므로, 로컬 특징을 추출하고 로컬화 정확도를 향상시킬 수 있다.
대조적으로 현재의 컨볼루션 레이어는 컨텍스트 어시미레이션(assimilation)을 증가시키기 위해 더 큰 레이트를 가지는 확장된 컨볼루션을 사용한다.
따라서 현재의 확장된 컨볼루션 레이어의 특징맵은 모이며, 이전의 특징맵보다 더 조밀해 질 수 있다.
한편 상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처는 도 4에 나타낸 것과 같이, 고해상도로 최종 특징맵을 계산하기 위한 딥 컨볼루션 뉴럴 네트워크에 추가된다.
도 5는 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크를 나타낸 도면이며, 도 6은 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크에 포함되는 맥스아웃 레이어를 나타낸 도면이다.
도 5에 도시한 바와 같이, 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크는, 원본 이미지에 대한 멀티 스케일 이미지에 대한 특징맵을 학습하도록 구성된다.
한편 멀티 스케일 이미지는 학습데이터의 원본 이미지로부터 복수의 상이한 스케일로 조정된 것을 의미함은 상술한 바와 같다.
또한 완전 컨볼루션 뉴럴 네트워크는 상기 상이한 스케일로 조정된 각각의 이미지를 입력으로 하는 복수의 서브 네트워크를 포함하여 구성된다. 상기 서브 네트워크는 딥 컨볼루션 뉴럴 네트워크로 구성된다.
한편 컨텍스트 정보는 서로 다른 레이트 r을 가지는 확장된 컨볼루션으로부터 특징들이 결합됨으로써, 효과적으로 캡쳐된다. 그러나 큰 레이트 r을 사용하여 수용 필드의 크기를 확대하면, 확장된 컨볼루션이 연속적인 필터 값들 사이의 0(zero)을 도입하는 위치에서 컨텍스트 정보를 잃을 가능성이 높아진다. 상기 레이트 r이 클수록 더 많은 0이 도입된다.
또한 동일한 객체가 서로 다른 이미지에서 서로 다른 크기를 가질 수 있기 때문에, 멀티 스케일 이미지 입력에서 멀티 스케일 특징을 서칭(searching)하는 것이 합리적이다.
따라서 상기 서브 네트워크에 멀티 스케일 이미지를 적용할 수 있으며, 상기 각 조정된 스케일은 상기 완전 컨볼루션 뉴럴 네트워크의 한 브랜치(branch)를 통과하고, 상기 특징들은 모든 스케일로부터 융합(fuse)된다.
일반적으로 하나의 딥 컨볼루션 뉴럴 네트워크에 멀티 스케일 이미지를 입력하는 것은 많은 수의 학습 파라미터가 필요하기 때문에 학습 과정에서의 비용이 매우 고가이다.
따라서 본 발명에서 제안하고 있는 완전 컨볼루션 뉴럴 네트워크는 멀티 스케일 이미지를 입력 매트릭스로 사용하고, 상기 각 서브 네트워크의 끝단에서 확장된 컨볼루션 캐스케이드 아키텍처를 통합함으로써, 학습 파라미터의 증가를 방지하여, 시맨틱 세그먼테이션을 위한 학습을 신속하고 정확하게 수행할 수 있다.
또한 원본 이미지는 바이리니어 인터폴레이션(bilinear interpolation) 방법을 통해 여러 스케일로 조정되며, 상기 스케일이 조정된 각각의 이미지는 상기 완전 컨볼루션 뉴럴 네트워크의 특정 브랜치(즉, 각 서브 네트워크의 멀티 스케일 확장된 컨볼루션을 수행하는 확장된 컨볼루션 캐스케이드 아키텍처)를 통과한다.
상기 각 브랜치의 출력은 다른 특징맵과 동일한 해상도로 재조정된 특징맵이다.
마지막으로, 상기 모든 특징맵들은 공유된(shared) 특징맵으로 융합된다. 이미지에서의 각각의 객체는 서로 다른 특징맵에서 두드러지게 나타나기 때문에, 상기 완전 컨볼루션 뉴럴 네트워크는 모든 특징맵으로부터 경쟁력 있고 주요한 특징을 얻기 위해, 맥스아웃(maxout) 레이어를 채택하고, 상기 맥스아웃 레이어를 통해 상기 모든 특징맵을 공유된 특징맵으로 융합하도록 한다.
또한 상기 맥스아웃 레이어는 도 6에 도시한 것과 같이, 최대 특징 맵(maximal feature map)으로 간주된다.
특히, 확장된 컨볼루션 레이어는 특징맵의 그룹이 포함되며, 이들 그룹의 동일한 좌표에 있는 특징값을 비교하여 최대값을 선택한 다음 맥스아웃 레이어의 동일한 좌표의 특징값을 상기 선택한 최대값으로 할당한다.
또한 완전 컨볼루션 뉴럴 네트워크는 도 5에 도시한 것과 같이, 완전 연결된 조건부 랜덤 필드를 포함하여 구성된다.
완전 컨볼루션 뉴럴 네트워크는 객체를 식별하고, 해당 객체의 대략적인 위치에 대한 신뢰할 수 있는 최종 스코어 맵을 제공할 수 있으나, 경계가 정확하고 예리하게 추출되지 않을 수 있다. 이는 정확도에서 균형을 이루는 객체 식별 및 픽셀 수준의 객체 위치 파악이라는 두 가지 어려운 작업을 완료해야하는 사실에 기인한다.
따라서 본 발명은 완전 컨볼루션 뉴럴 네트워크의 끝단에 완전 연결된 조건부 랜덤 필드 모델을 적용하여 픽셀 레벨에서 객체의 위치를 파악하기 위한 객체 로컬화 문제를 해결하고, 객체의 경계를 정확하게 복구할 수 있도록 함으로써, 시맨틱 이미지 세그먼테이션의 정확성을 현저하게 향상시킬 수 있도록 한다.
상기 조건부 랜덤 필드 모델은 객체의 위치를 파악하고 객체의 경계를 복구하기 위해 다음의 [수학식 2]에 따라 유너리 포텐셜 및 페이와이즈 포텐셜로 구성되는 두 세트의 포텐셜 함수를 사용하는 에너지 함수(energy)를 최소화한다.
[수학식 2]
Figure 112018036290519-pat00002
여기서 αi(xi)는 픽셀 i에서 레이블(label) xi의 역우도를 측정하는 유너리 포텐셜이며, αij(xi, xj)는 레이블 xi 및 xj를 갖는 픽셀 i 및 픽셀 j에서 레이블 할당 비용을 추정하는 페어와이즈 포텐셜을 타나낸다.
또한 상기 유너리 포텐셜은 다음의 [수학식 3]에 의해 계산되는 픽셀 단위 분류기의 출력이다.
[수학식 3]
Figure 112018036290519-pat00003
여기서, P(xi)는 레이블 i를 픽셀 i에 할당할 확률이다. 또한 상기 P(xi)는 본 발명의 완전 컨볼루션 뉴럴 네트워크에 의해 계산되며, 상기 페어와이즈 포텐셜은 픽셀과 상기 픽셀의 이웃 픽셀 사이의 이미지 그래디언트(gradient)를 기반으로 계산된다.
특히, 픽셀과 해당 픽셀의 이웃 픽셀은 계산된 그래디언트가 작을 경우 동일한 레이블로 분류된다. 따라서 페어와이즈 포텐셜은 세그먼테이션된 객체의 모양에 일관성을 부여하고 객체에 대한 묘사를 향상시킨다.
또한 페어와이즈 포텐셜은 다음의 [수학식 4]에 의해 계산된다.
[수학식 4]
Figure 112018036290519-pat00004
여기서 fm은 파라미터 ωm에 의해 가중 된 가우시안 커널(gaussian kernel)이다. 상기 가우시안 커널 fm은 각각 픽셀 i와 j에 대해 수집 된 특징 τi와 τj를 기반으로 계산된다.
상기 가우시안 커널 fm은 다음의 [수학식 5]에 의해 계산된다.
[수학식 5]
Figure 112018036290519-pat00005
여기서 상기 특징 τi와 τj는 I로 표시되는 픽셀 컬러의 강도로 표현되고, 픽셀 위치는 p로 표현된다.
마지막으로, 에너지 함수 E(x)는 입력 이미지에 대한 최상의 레이블 할당을 찾기 위해 최소화된다. 그러나 이 최소화 문제는 원래 다루기 힘든 문제이다. 따라서 본 발명은 확률적 추론을 효율적으로 근사하기 위해, 조건부 랜덤 필드 모델의 분포에 평균-필드(mean-field) 근사를 적용한다.
즉, 조건부 랜덤 필드 모델의 분포 P(x)는 분포 Q(x)에 의해 근사화되며, 상기 Q(x)는 ∏Qi(xi)로 표현될 수 있다.
도 7은 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션 장치의 구성을 나타낸 블록도이다.
도 7에 도시한 바와 같이, 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션 장치(100)는 시맨틱 이미지 세그먼테이션을 수행하기 위한 적어도 하나 이상의 이미지를 수집하는 이미지 수집부(110), 학습데이터를 구성하는 복수의 이미지에 대한 멀티 스케일 이미지를 생성하는 전처리부(120), 상기 생성한 멀티 스케일 이미지를 학습하여 시맨틱 이미지 세그먼테이션용 학습모델을 생성하는 시맨틱 이미지 세그먼테이션용 학습모델 생성부(130), 상기 학습모델을 이용하여 상기 이미지 수집부(110)를 통해 수집한 특정 이미지에 대해서 시맨틱 이미지 세그먼테이션을 수행하는 시맨틱 이미지 세그먼테이션부(140), 상기 수행한 시맨틱 이미지 세그먼테이션에 대한 결과를 제공하는 시맨틱 이미지 세그먼테이션 결과 제공부(150), 데이터베이스 인터페이스부(160) 및 상기 시맨틱 이미지 세그먼테이션 장치(100)를 전반적으로 제어하기 위한 제어부(170)를 포함하여 구성된다.
또한 이미지 수집부(110)는 사용자의 요청에 의해 시맨틱 이미지 세그먼테이션을 수행하기 위한 특정 이미지를 수집하는 기능을 수행한다.
상기 특정 이미지는 네트워크를 통해 사용자 단말(200)로부터 수집되거나, 특정 시스템(예: 의료 시스템)으로부터 수집될 수 있다.
즉, 상기 특정 이미지는 네트워크를 통해서 수집되거나, 로컬에서 직접적으로 입력될 수 있다. 다만, 상기 이미지 수집부(110)는 시맨틱 이미지 세그먼테이션을 위해 적어도 하나 이상의 이미지를 수집하는 것으로, 상기 이미지를 수집하는 방법에 대해서는 그 제한을 두지 않는다.
또한 이미지 수집부(110)는 상기 시멘틱 이미지 세그먼테이션용 학습모델 생성부(130)에 의해 생성되는 시맨틱 세그먼테이션용 학습모델을 업데이트할 수 있도록 학습데이터의 기반이 되는 이미지를 주기적으로 수집할 수 있다. 즉, 이미지 수집부(110)는 시맨틱 세그먼테이션을 수행하기 위한 학습데이터를 제공하는 기관 등으로부터 이미지를 주기적으로 수집하여 상기 학습데이터 데이터베이스(310)에 상기 수집한 이미지를 반영함으로써, 상기 시맨틱 이미지 세그먼테이션용 학습모델을 최신의 상태로 업데이트할 수 있도록 한다.
또한 전처리부(120)는 상기 시맨틱 이미지 세그먼테이션용 학습모델 생성부(130)를 통해 학습데이터를 학습할 수 있도록, 상기 학습데이터의 원본 이미지를 전처리하여 멀티 스케일 이미지를 생성한다.
상기 전처리부(120)는 상기 원본 이미지를 미리 설정된 비율로 상기 멀티 스케일 이미지는 상기 원본 이미지를 설정된 스케일 비율(예: 1.0, 0.75, 0.5)로 조정하여 복수의 스케일된 이미지를 생성한다.
즉, 상기 전처리부(120)는 상기 원본 이미지에 대한 스케일을 미리 설정된 비율로 조정하여, 상기 원본 이미지에 대한 멀티 스케일 이미지를 생성하는 것이다.
또한 상기 전처리부(120)는 사용자로부터 시맨틱 이미지 세그먼테이션을 위한 특정 이미지가 입력되는 경우에도, 상기와 같은 과정을 통해 해당 이미지에 대한 멀티 스케일 이미지를 생성한다.
또한 시맨틱 이미지 세그먼테이션용 학습모델 생성부(130)는 상기 전처리부(120)를 통해 상기 생성한 학습데이터에 대한 복수의 스케일된 이미지를 학습하여 시맨틱 이미지 세그먼테이션용 학습모델을 생성한다.
상기 시맨틱 이미지 세그먼테이션용 학습모델 생성부(130)는 본 발명에서 제안하는 완전 컨볼루션 뉴럴 네트워크를 토대로 상기 복수의 스케일된 이미지를 학습한다.
상기 완전 컨볼루션 뉴럴 네트워크는 복수의 서브 네트워크를 포함하며, 상기 서브 네트워크에 상기 복수의 스케일된 이미지가 각각 입력된다.
또한 상기 각 서브 네트워크는 복수의 컨볼루션 레이어와 완전 연결된 레이어(fully connected layer) 및 멀티 스케일 확장된 컨볼루션 아키텍처를 포함한다.
상기 멀티 스케일 확장된 컨볼루션 아키텍처는 복수의 멀티 스케일 확장된 컨볼루션 레이어가 캐스케이드 형태로 구성되며, 상기 각 서브 네트워크의 완전 연결된 레이어를 통해 출력되는 특징맵에 대한 해상도를 복구하여, 고해상도의 최종 특징맵을 생성한다.
즉, 멀티 스케일 확장된 컨볼루션 아키텍처는 상기 각 서브 네트워크의 특징맵에 대한 해상도를 복구함으로써, 상기 서브 네트워크를 통해 감소된 해상도를 복수시키도록 하는 것이다.
또한 완전 컨볼루션 뉴럴 네트워크는 상기 각 멀티 스케일 확장된 컨볼루션 아키텍처를 통해 출력되는 각각의 최종 특징맵이 모두 동일한 해상도를 가지도록 재조정하여, 상기 재조정한 최종 특징맵을 출력한다.
또한 상기 완전 컨볼루션 뉴럴 네트워크는 상기 재조정된 특징맵을 통합하여 객체에 대한 특징값을 추출하기 위한 맥스아웃 레이어 및 상기 맥스아웃 레이어와 연결되는 완전 연결된 조건부 랜덤 필드 모델을 포함하여 구성된다.
즉, 맥스아웃 레이어는 상기 재조정된 최종 특징맵을 통합하여 객체에 대한 경계를 추출하며, 상기 완전 연결된 조건부 랜덤 필드 모델은 상기 추출한 객체의 대한 경계를 복구하는 기능을 수행한다.
즉, 완전 컨볼루션 뉴럴 네트워크는 도 5를 참조하여 설명한 것과 같이, 멀티 스케일 이미지 입력, 확장된 컨볼루션 및 완전 연결된 조건부 랜덤 필드 모델을 토대로 상기 학습데이터를 신속하고 정확하게 학습하여, 시맨틱 이미지 세그먼테이션을 위한 학습모델을 생성하게 된다.
또한 시맨틱 이미지 세그먼테이션부(140)는 사용자로부터 시맨틱 이미지 세그먼테이션을 위한 특정 이미지를 입력받은 경우, 상기 전처리부(120)를 제어하여 상기 특정 이미지로부터 멀티 스케일 이미지를 생성한다.
또한 시맨틱 이미지 세그먼테이션부(140)는 시맨틱 이미지 세그먼테이션용 학습모델을 상기 학습모델 데이터베이스(320)로부터 로딩하여, 상기 생성한 멀티 스케일 이미지를 상기 로딩한 시맨틱 이미지 세그먼테이션용 학습모델에 적용함으로서, 상기 특정 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행하게 된다.
또한 시맨틱 이미지 세그먼테이션 결과 제공부(150)는 상기 시맨틱 이미지 세그먼테이션부(140)를 통해 수행한 시맨틱 이미지 세그먼테이션에 대한 결과를 상기 사용자에게 제공할 수 있도록 한다.
또한 데이터베이스 인터페이스부(160)는, 데이터베이스(300)와 연결되어, 상기 시맨틱 이미지 세그먼테이션 장치(100)에 의해 생성되거나 필요한 데이터를 상기 데이터베이스(300)로부터 저장하거나 로딩하는 기능을 수행한다.
또한 제어부(170)는 시맨틱 이미지 세그먼테이션 장치(100)의 각 구성부분에 대한 데이터 이동 및 각 구성부분의 구성을 전반적으로 제어하는 기능을 수행한다.
이하에서는 본 발명의 완전 컨볼루션 뉴럴 네트워크를 타 방법 간의 시맨틱 이미지 세그먼테이션에 대한 성능을 비교하고자 한다.
상기 비교를 위해 본 발명의 완전 컨볼루션 뉴럴 네트워크를 ResNet-101(deep residual learning for image recognition. arXiv:1512.03385 참조) 및 VGG-16(very deep convolutional neural networks for large-scale image recognition. arXiv: 1409.1566 참조)을 기반으로 구현하였다.
도 8a는 본 발명의 일 실시예에 따른 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 구조를 나타낸 도면이다.
한편 네트워크의 깊이는 뉴럴 네트워크의 정확성을 향상시키는데 매우 중요하다. 그러나 깊은 네트워크를 학습시키는 것은 매우 어려운 과제이다.
딥 잔차 네트워크(deep residual network)는 딥 컨볼루션 뉴럴 네트워크로써, 종래의 딥 뉴럴 네트워크보다 더 깊은 수준에서 학습을 수행할 수 있다. 이는 학습 과정을 더 쉽게 만드는 잔차 학습 프레임워크를 채택하고, 네트워크의 깊이를 증가시켜 더 나은 성능을 향상시키기 때문이다.
딥 잔차 네트워크가 이미지 분류에서 최첨단 성능에 도달하였기 때문에 다중 스케일 입력 이미지가 있는 ResNet 기반 모델을 이용하여 본 발명의 완전 컨볼루션 뉴럴 네트워크를 구현하였다.
도 8a에 도시한 바와 같이, 본 발명의 일 실시예에 따른 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 구조는 스케일링된 각 이미지에 대해 5개의 블록과 100개 이상의 레이어를 사용하며, 이러한 네트워크는 많은 수의 파라미터로 구성되어 학습 과정에 있어서 GPU 장치의 최대 RAM 용량에 쉽게 도달한다. 따라서 정확도를 증가시키기 위한 계산 비용이 매우 높다.
이러한 이유로 본 발명은 스케일링된 이미지 입력을 두개만 사용하였으며, 상기 각각의 스케일은 1.0과 0.75로 설정되어 상기 각 스케일링된 이미지는 ResNet-101의 각 잔차 네트워크에 입력된다.
상기 각 잔차 네트워크는 마지막 블록의 출력에서 가져온 특징맵에서 스케일된 이미지 입력의 특징을 서머라이즈(summarize)할 수 있다. 또한 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크는 상기 특징맵으로부터 멀티 스케일 컨텍스트 정보를 캡쳐하기 위해 확장된 컨볼루션 레이어의 캐스케이드 아키텍처를 통과시켜 이에 대한 스코어 맵을 생성한다.
또한 상기 캐스케이드 아키텍처는 상기 스코어 맵의 해상도를 높이기 위해 바이리니어 인터폴레이션 방법을 적용하여 상기 특징맵들이 동일한 해상도를 가지도록 한다.
그런 다음, ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크는 맥스아웃 레이어를 통해 상기 스코어 맵을 경쟁적인 특징들을 유지할 수 있는 최종 스코어 맵으로 병합하는데 중요한 역할을 수행하게 된다.
마지막으로 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크는 해당 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 출력에 통합되는 완전 연결된 조건부 랜덤 필드 모델을 통해 픽셀 수준의 페어와이즈 유사성을 인코딩하고 객체 경계를 선명하게 만든다.
도 8b는 본 발명의 일 실시예에 따른 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 구조를 나타낸 도면이다.
도 8b에 도시한 바와 같이, 본 발명의 일 실시예에 따른 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 구조는 1.0, 0.75 및 0.5의 비율로 스케일된 3개의 이미지를 입력으로 하며, 상기 각 스케일된 이미지에 대해 16개의 가중된 레이어를 포함하여 구성되어 상기 스케일된 이미지를 학습하도록 구현된다.
또한 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 구조는 본 발명에서 제안하는 멀티 스케일 확장된 컨볼루션 아키텍처 및 완전 연결된 조건부 랜덤 필드 모델을 포함하여 구성된다.
도 9는 본 발명의 일 실시예에 따른 PASCAL VOC 2012 데이터세트를 이용하여 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 세그먼테이션의 정확도와 타 방법을 통한 시맨틱 세그먼테이션의 정확도를 비교한 도면이다.
도 9에 도시한 바와 같이, 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 세그먼테이션의 정확도와 타 방법을 통한 시맨틱 세그먼테이션의 정확도를 비교하였다.
상기 비교를 위해 PASCAL VOC 2012 데이터베이스를 이용하였으며, 본 발명의 완전 컨볼루션 뉴럴 네트워크와 FCN-8s 모델, 딥랩(DeepLab) 네트워크, 박스섭(BoxSup) 네트워크, 줌-아웃(Zoom-out) 네트워크, CRF-RNN 네트워크, DPN 네트워크 및 DeconvNet 네트워크와 같은 최근에 개발되고 있는 최첨단 알고리즘을 평가하였다.
또한 MS-COCO 데이터 세트를 이용하여 본 발명의 완전 컨볼루션 뉴럴 네트워크를 사전에 학습시켰으며, 상기 PASCAL VOC 2012 데이터베이스를 사용하여 사람, 병, 자동차, 기차 및 하나의 배경 클래스를 포함하는 20개의 클래스를 학습시켰다.
원본 학습데이터는 1464 이미지로 구성되어 있기 때문에, 본 발명의 완전 컨볼루션 뉴럴 네트워크를 학습시키기에 충분하지 않으므로 Hariharan et al.(Semantic contours inverse detectors IN: International coference on computer vision(ICCV))에 의해 추가적으로 보강된 학습데이터를 사용했다. 전체적으로 학습과정에서 총 10,582개에 대한 학습이미지를 사용했다.
또한 상기 시맨틱 이미지 세그먼테이션에 대한 정확성을 평가하기 위해 피부 병변 이미지의 가장 큰 컬렉션인 흑색 종 탐지에 대한 피부 병변 분석(Skin Lesion Analysis Toward Melanoma Detection)의 데이터 세트를 더 사용했다. 피부 병변의 낮은 대비를 다루어야하기 때문에 피부 현미경 이미지에서 흑색종을 인지하는 것은 매우 어려운 문제이다.
상기 피부 병변 분석의 데이터 세트는 900개의 학습을 위한 이미지와 350개의 테스트를 위한 이미지로 구성된다.
또한 모든 학습데이터에 대한 이미지 및 테스트 이미지는 1024 x 768의 고해상도 이미지이기 때문에 상기 학습데이터에 대한 이미지에서 동일한 크기로 무작위로 잘라 학습을 위한 학습샘플을 증가시켰다.
또한 테스트 과정에서, 전체 이미지는 전체 이미지에 오버랩되는(overlapped) 서브 이미지의 예측 결과를 결합함으로써, 전체적으로 세그먼테이션된다.
또한 상기 평가는 실체 측정된 바운딩 박스(ground-truth bounding box)와 예측된 바운딩 박스의 세트에 대한 픽셀 IoU(intersection over union) 스코어를 적용함으로써, 수행된다.
상기 IoU는 객체 세그먼테이션 알고리즘의 정확성을 측정하기 위한 방법이다. 객체 세그먼테이션 알고리즘이 예측된 바운딩 박스를 제공할 수 있는 경우, 상기 IoU 스코어를 측정하여, 상기 세그먼테이션에 대한 정확성을 평가할 수 있다.
상기 IoU 스코어에 대한 측정은 다음의 [수학식 6] 과 같이 상기 바운딩 박스 세트에 대한 교차점의 사이즈를 샘플 세트의 합집합에 대한 사이즈로 나눈 값으로 정의된다.
[수학식 6]
Figure 112018036290519-pat00006
여기서, P∩G는 예측된 바운딩 박스 P와 실제 측정된 바운딩 박스 G 사이의 오버랩(overlap)된 영역이고, P∪G는 상기 P와 G가 모두 포함되는 영역을 의미한다.
또한 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크는 상기에서 언급한 것과 같이, 원래의 ResNet-101 네트워크에 대한 마지막의 완전 연결된 레이어를 본 발명의 확장된 컨볼루션 캐스케이드를 대체함으로써, 상기 ResNet-101 완전 컨볼루션 뉴럴 네트워크가 완전 컨볼루션 되도록 수정되었다.
상기 각각의 캐스케이드는 6, 12, 18 및 25에 해당하는 레이트 r을 가지는 확장된 컨볼루션 레이어로 구성된다. 또한 완전 연결된 조건부 랜덤 필드의 레이어는 학습단계에서 상기 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크와 분리된다.
또한 마지막 레이어에서 학습 객체 클래스의 수를 변경하고 최종 밀집한 특징맵에서 각 공간 위치에 대한 교차-엔트로피(cross-entropy) 항(term)의 총합인 손실 함수(loss function)를 적용함으로서, 상기 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크를 미세조정하였다.
또한 상기 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 초기 학습 레이트는 0.001로, 모멘텀(momemtum)은 0.9로, 가중치 감소는 0.005로 설정되었으며, 상기 학습 레이트는 20,000번 반복 후, 0.1을 곱한다.
또한 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크는 멀티 스케일 입력의 수를 제외하고는 상기 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크와 유사하다. VGG-16 기반 완전 컨볼루션 뉴럴 네트워크는 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 2개의 입력 대신에 1, 0.75 및 0.5의 세 가지 비율로 스케일된 이미지를 입력으로 한다.
VGG-16 기반 완전 컨볼루션 뉴럴 네트워크를 학습시키기 위해 각 공간 위치에 대한 교차-엔트로피 항에 대한 총합인 손실 함수를 최소화하기 위한 SDG(stochastic gradient descent)를 채택했다.
상기 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 초기 학습 레이트는 0.001로 설정되었으며, 미니 배치 사이즈(mini-batch size)는 0.001의 초기 학습 레이트를 가지는 20개의 이미지이다. 상기 학습 레이트는 2000회 반복수 0.1을 곱하며, 모멘텀은 0.9로, 가중치 감소는 0.0005로 설정되었다.
또한 도 9에 도시한 것과 같이, 본 발명의 일 실시예에 따른 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크는 모든 방법들 사이에서 최고의 결과인 IoU 스코어 78.5를 달성함을 알 수 있다.
또한 본 발명의 일 실시예에 따른 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크는 IoU 스코어 74.8을 달성하였으며, 이는 DPN 및 BoxSup 네트워크를 제외하고는 여전이 타 방법보다 정확도가 높은 것을 알 수 있다.
이것은, 멀티 스케일 특징 추출이 서로 다른 컨텍스트 및 스케일에서 객체를 인식하는데 중요한 역할을 한다는 사실로 증명된다.
따라서 본 발명에서 제안하고 있는 멀티 스케일 이미지 입력 및 멀티 스케일 확장 컨볼루션 아키텍처를 통한 시멘틱 이미지 세그먼테이션은 싱글 스케일 이미지 입력만을 사용하는 타 방법보다 월등히 뛰어남을 알 수 있다.
또한 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 이미지 세그먼테이션이 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 이미지 세그먼테이션보다 더 나은 성능을 달성하는 것을 알 수 있다.
도 10은 본 발명의 일 실시예에 따른 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크와 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 처리속도를 비교한 도면이다.
도 10에 도시한 바와 같이, 본 발명의 일 실시예에 따른 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 이미지 세그먼테이션이 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크를 통한 시맨틱 이미지 세그먼테이션보다 더 나은 성능을 달성하지만 처리속도는 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크가 빠른 것을 알 수 있다.
이는 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 학습 파라미터가 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 학습 파라미터보다 훨씬 적기 때문이다.
따라서 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크는 시맨틱 이미지 세그먼테이션 작업에서 실시간 적용을 위해 사용될 수 있음을 보여준다.
도 11은 본 발명의 일 실시예에 따른 완전 연결된 조건부 랜덤 필드 모델을 적용하여 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크와 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 성능을 비교한 도면이다.
도 11에 도시한 바와 같이, 본 발명의 일 실시예에 따른 완전 연결된 조건부 랜덤 필드 모델은 완전 컨볼루션 뉴럴 네트워크의 성능을 효과적으로 향상시키는 것을 알 수 있다.
특히, 완전 연결된 조건부 랜덤 필드 모델은 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크의 성능을 0.7% 향상시켰으며, VGG-16 기반 완전 컨볼루션 뉴럴 네트워크의 성능을 0.8% 향상시켰다.
이 결과는 픽셀-레벨의 객체 위치 파악과 객체 경계에 대한 복구 문제를 해결하는 데 있어, 완전 연결된 조건부 랜덤 필드 모델의 이점을 명확하게 나타낸다.
따라서 본 발명의 완전 컨볼루션 뉴럴 네트워크는 상기 완전 연결된 조건부 랜덤 필드 모델과 결합됨으로써, 더욱더 정확하고 신속하게 시맨틱 이미지 세그먼테이션을 수행할 수 있도록 한다.
이하에서는 도 12 내지 도 14를 참조하여 본 발명의 완전 컨볼루션 뉴럴 네트워크를 통해 시맨틱 이미지 세그먼테이션을 수행한 결과를 설명하도록 한다.
도 12는 본 발명의 일 실시예에 따른 사람과 사물의 상호작용과 사람과 사람의 상호작용을 포함하는 액티비티를 강조하는 시맨틱 이미지의 세그먼테이션의 일례를 나타낸 도면이고, 도 13은 본 발명의 일 실시예에 따른 동물에 대한 시맨틱 이미지의 세그먼테이션에 대한 일례를 나타낸 도면이고, 도 14는 발명의 일 실시예에 따른 객체에 대한 시맨틱 이미지의 세그먼테이션에 대한 일례를 나타낸 도면이다.
시맨틱 이미지 세그먼테이션을 위한 이미지는 PASCAL VOC 2012 데이터 세트에서 수집되었다.
또한 도 12 내지 도 14에 도시한 바와 같이, 멀티 스케일 이미지 입력과 멀티 스케일 확장 컨볼루션을 기반으로 하는 본 발명의 완전 컨볼루션 뉴럴 네트워크를 통해 특정 이미지에 대한 시맨틱 이미지 세그먼테이션의 결과는, 상기 특정 이미지로부터 의미 있는 부분(즉, 객체)을 정확하게 예측함으로써, 상기 시맨틱 이미지 세그먼테이션을 정확하게 수행할 수 있음을 보여준다.
도 15a는 본 발명의 일 실시예에 따른 흑색종 검출을 위한 피부 병변 데이터 세트를 이용하여, 완전 컨볼루션 뉴럴 네트워크와 타 방법과의 성능을 비교한 도면이다.
본 발명의 일 실시예에 따른 흑색종 검출을 위한 피부 병변 분석의 데이터 세트를 이용하여 본 발명에서 제안하고 있는 완전 컨볼루션 뉴럴 네트워크와 타 방법 간의 시맨틱 세그먼테이션의 정확성을 평가하였다.
도 15a에 나타낸 것과 같이, ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크가 VGG-16 기반 완전 컨볼루션 뉴럴 네트워크보다 훨씬 더 높은 정확도를 가지는 것을 알 수 있다.
즉, ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크는 83.5의 IoU 스코어를 획득하였으면, 이는 다른 방법들 중에서 가장 좋은 결과이다.
또한 이것은 본 발명의 완전 컨볼루션 뉴럴 네트워크가 크기와 모양이 변하는 흑색종을 탐지하는데 효과적이라는 것을 알 수 있다.
이는, 상기 완전 컨볼루션 뉴럴 네트워크가 멀티 스케일 이미지 입력 및 멀티 스케일 확장 컨볼루션으로부터 멀티 스케일 특징을 효율적으로 활용할 수 있기 때문이다.
또한 완전 연결된 조건부 랜덤 필드 모델은 ResNet-101 기반 완전 컨볼루션 뉴럴 네트워크에 0.4%의 추가적인 성능 개선 효과를 제공함을 알 수 있다.
도 15b는 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크를 통해 흑색종 검출을 위한 피부 병변 데이터 세트의 시맨틱 이미지 세그먼테이션 결과를 나타낸 도면이다.
도 15b에 도시한 바와 같이, 본 발명의 일 실시예에 따른 완전 컨볼루션 뉴럴 네트워크는 흑색종의 복잡한 변화와 인공물의 존재를 포함한 피부 병변 이미지로부터 시맨틱 이미지 세그먼테이션에 대한 높은 성능을 보여줌을 알 수 있다.
도 16은 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션을 수행하는 절차를 나타낸 흐름도이다.
도 16에 도시한 바와 같이, 본 발명의 일 실시예에 따른 시맨틱 이미지 세그먼테이션을 수행하는 절차는 우선, 시맨틱 이미지 세그먼테이션 장치(100)는 학습데이터 데이터베이스(310)로부터 학습데이터를 로딩한 후, 해당 학습데이터에 대한 전처리과정을 수행한다(S110).
즉, 상기 시맨틱 이미지 세그먼테이션 장치(100)는 전처리과정을 통해 미리 설정한 스케일링 비율에 따라 학습데이터를 구성하는 원본 이미지에 대한 멀티 스케일 이미지를 생성하는 것이다.
다음으로 상기 시맨틱 이미지 세그먼테이션 장치(100)는 상기 생성한 멀티 스케일 이미지를 학습하여, 시맨틱 이미지 세그먼테이션용 학습모델을 생성한다(S120).
상기 학습은 멀티 스케일 이미지 입력과 확장된 컨볼루션을 기반으로 하는 완전 컨볼루션 뉴럴 네트워크를 통해 수행됨은 상술한 바와 같다. 또한 상기 완전 컨볼루션 뉴럴 네트워크는 본 발명의 핵심적인 기술적 특징으로써, 상기 완전 컨볼루션 뉴럴 네트워크에 대한 구조는 도 5를 참조하여 설명하였으므로 여기서는 상세한 설명을 생략하도록 한다.
다음으로 사용자로부터 시맨틱 이미지 세그먼테이션을 위한 특정 이미지를 입력받은 경우(S130), 시맨틱 이미지 세그먼테이션 장치(100)는 상기 S110단계와 동일한 전처리 과정을 수행하여 상기 입력되는 특정 이미지에 대한 멀티 스케일 이미지를 생성한다(S140).
다음으로 시맨틱 이미지 세그먼테이션 장치(100)는 학습모델 데이터베이스(320)로부터 시맨틱 이미지 세그먼테이션용 학습모델을 로딩하여, 상기 생성한 특정 이미지의 멀티 스케일 이미지를 상기 시맨틱 이미지 세그먼테이션용 학습모델에 적용함으로써, 해당 특정 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행하고(S150), 해당 결과를 상기 사용자에게 제공한다(S160).
이상에서 설명한 바와 같이 본 발명은 멀티 스케일 이미지와 멀티 스케일 확장 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법에 관한 것으로, 멀티 스케일 이미지 입력과 확장된 컨볼루션의 캐스케이드 아키텍처를 기반으로 하는 완전 컨볼루션 뉴럴 네트워크를 통해 특정 이미지에 대한 시맨틱 세그먼테이션을 정확하고 신속하게 수행할 수 있도록 하는 효과가 있다.
또한 본 발명은 상기 완전 컨볼루션 뉴럴 네트워크와 조건부 랜덤 필드 모델을 결합하여, 시맨틱 이미지 세그먼테이션의 정확성을 현저하게 향상시킬 수 있도록 하는 효과가 있다.
또한 상기에서는 본 발명에 따른 바람직한 실시 예를 위주로 상술하였으나 본 발명의 기술적 사상은 이에 한정되는 것은 아니며 본 발명의 각 구성요소는 동일한 목적 및 효과의 달성을 위하여 본 발명의 범위 내에서 변경 또는 수정될 수 있을 것이다.
아울러 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
100 : 시맨틱 이미지 세그먼테이션 장치 110 : 이미지 수집부
120 : 전처리부 130 : 시맨틱 이미지 세그먼테이션용 학습모델 생성부
140 : 시맨틱 이미지 세그먼테이션부
150 : 시맨틱 이미지 세그먼테이션 결과 제공부
160 : 데이터베이스 인터페이스부 170 : 제어부
200 : 사용자 단말 300 : 데이터베이스
310 : 학습데이터 데이터베이스 320 : 학습모델 데이터베이스

Claims (10)

  1. 학습데이터를 전처리하여 상기 학습데이터의 원본 이미지에 대한 멀티 스케일 이미지를 생성하는 전처리부;
    상기 생성한 멀티 스케일 이미지를 학습하여 시맨틱 이미지 세그먼테이션용 학습모델을 생성하는 시맨틱 이미지 세그먼테이션용 학습모델 생성부;를 포함하며,
    상기 학습은,
    멀티 스케일 이미지를 입력으로 하는 컨볼루션 뉴럴 네트워크로 구성되는 복수의 서브 네트워크 및 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 포함하는 완전 컨볼루션 뉴럴 네트워크를 통해 수행되는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 장치.
  2. 청구항 1에 있어서,
    상기 시맨틱 이미지 세그먼테이션 장치는,
    상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 통해 상기 각 서브 네트워크로부터 출력되는 특징맵에 대한 해상도를 복구하여, 고해상도의 최종 특징맵을 생성하며,
    상기 생성한 각각의 최종 특징맵을 동일한 해상도로 재조정하는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 장치.
  3. 청구항 2에 있어서,
    상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처는,
    캐스케이드 형태로 연결되어 확장된 컨볼루션을 수행하는 복수의 확장된 컨볼루션 레이어를 포함하며,
    상기 각 확장된 컨볼루션 레이어는, 서로 다른 레이트(rate)를 가지되, 이전의 확장된 컨볼루션 레이어보다 더 큰 레이트를 가지는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 장치.
  4. 청구항 1에 있어서,
    상기 완전 컨볼루션 뉴럴 네트워크는,
    상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처로부터 출력되는 모든 특징맵을 통합하여 객체에 대한 경계를 추출하는 맥스아웃 레이어; 및
    상기 추출한 객체에 대한 경계를 복구하기 위한 완전 연결된 조건부 랜덤 필드 모델;을 더 포함하는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 장치.
  5. 청구항 1에 있어서,
    상기 시맨틱 이미지 세그먼테이션 장치는,
    시맨틱 이미지 세그먼테이션을 위한 특정 이미지가 입력되는 경우, 상기 전처리부를 제어하여 상기 특정 이미지에 대한 멀티 스케일 이미지를 생성하고, 상기 생성한 멀티 스케일 이미지를 상기 시맨틱 이미지 세그먼테이션용 학습모델에 적용함으로써, 상기 특정 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행하는 시맨틱 이미지 세그먼테이션부;를 더 포함하는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 장치.
  6. 시맨틱 이미지 세그먼테이션 장치에서, 학습데이터를 전처리하여 상기 학습데이터의 원본 이미지에 대한 멀티 스케일 이미지를 생성하는 전처리 단계;
    상기 시맨틱 이미지 세그먼테이션 장치에서, 상기 생성한 멀티 스케일 이미지를 학습하여 시맨틱 이미지 세그먼테이션용 학습모델을 생성하는 시맨틱 이미지 세그먼테이션용 학습모델 생성 단계;를 포함하며,
    상기 학습은,
    멀티 스케일 이미지를 입력으로 하는 컨볼루션 뉴럴 네트워크로 구성되는 복수의 서브 네트워크 및 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 포함하는 완전 컨볼루션 뉴럴 네트워크를 통해 수행되는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 방법.
  7. 청구항 6에 있어서,
    상기 시맨틱 이미지 세그먼테이션 방법은,
    상기 시맨틱 이미지 세그먼테이션 장치에서, 상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처를 통해 상기 각 서브 네트워크로부터 출력되는 특징맵에 대한 해상도를 복구하여, 고해상도의 최종 특징맵을 생성하며,
    상기 생성한 각각의 최종 특징맵을 동일한 해상도로 재조정하는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 방법.
  8. 청구항 7에 있어서,
    상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처는,
    캐스케이드 형태로 연결되어 확장된 컨볼루션을 수행하는 복수의 확장된 컨볼루션 레이어를 포함하며,
    상기 각 확장된 컨볼루션 레이어는, 서로 다른 레이트(rate)를 가지되, 이전의 확장된 컨볼루션 레이어보다 더 큰 레이트를 가지는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 방법.
  9. 청구항 6에 있어서,
    상기 완전 컨볼루션 뉴럴 네트워크는,
    상기 멀티 스케일 확장된 컨볼루션 캐스케이드 아키텍처로부터 출력되는 모든 특징맵을 통합하여 객체에 대한 경계를 추출하는 맥스아웃 레이어; 및
    상기 추출한 객체에 대한 경계를 복구하기 위한 완전 연결된 조건부 랜덤 필드 모델;을 더 포함하는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 방법.
  10. 청구항 6에 있어서,
    상기 시맨틱 이미지 세그먼테이션 방법은,
    상기 시맨틱 이미지 세그먼테이션 장치에서, 시맨틱 이미지 세그먼테이션을 위한 특정 이미지가 입력되는 경우, 상기 특정 이미지에 대한 멀티 스케일 이미지를 생성하고, 상기 생성한 멀티 스케일 이미지를 상기 시맨틱 이미지 세그먼테이션용 학습모델에 적용함으로써, 상기 특정 이미지에 대한 시맨틱 이미지 세그먼테이션을 수행하는 시맨틱 이미지 세그먼테이션 단계;를 더 포함하는 것을 특징으로 하는 시맨틱 이미지 세그먼테이션 방법.
KR1020180042468A 2018-04-12 2018-04-12 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법 KR102109372B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180042468A KR102109372B1 (ko) 2018-04-12 2018-04-12 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180042468A KR102109372B1 (ko) 2018-04-12 2018-04-12 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20190119261A KR20190119261A (ko) 2019-10-22
KR102109372B1 true KR102109372B1 (ko) 2020-05-12

Family

ID=68420085

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180042468A KR102109372B1 (ko) 2018-04-12 2018-04-12 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102109372B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738338A (zh) * 2020-06-23 2020-10-02 征图新视(江苏)科技股份有限公司 基于级联膨胀fcn网络应用于马达线圈的缺陷检测方法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046921B (zh) * 2019-11-25 2022-02-15 天津大学 基于U-Net网络和多视角融合的脑肿瘤分割方法
CN110969627B (zh) * 2019-11-29 2024-03-29 北京达佳互联信息技术有限公司 图像分割模型训练方法、图像处理方法及装置
CN111160413B (zh) * 2019-12-12 2023-11-17 天津大学 一种基于多尺度特征融合的甲状腺结节分类方法
KR102214502B1 (ko) * 2019-12-13 2021-02-09 한국과학기술원 이미지 합동 처리 방법 및 장치
RU2740736C1 (ru) * 2019-12-18 2021-01-20 Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" Способ обработки изображений дистанционного зондирования земли с помощью нейронной сети со штрафом на точность границы сегментации
KR102427884B1 (ko) 2019-12-24 2022-07-29 영남대학교 산학협력단 객체 검출 모델 학습 장치 및 방법
CN111311616B (zh) * 2020-02-13 2023-04-07 北京百度网讯科技有限公司 用于分割图像的方法和装置
CN113469181B (zh) * 2020-03-31 2024-04-05 北京四维图新科技股份有限公司 图像语义分割处理方法、装置及存储介质
CN111612803B (zh) * 2020-04-30 2023-10-17 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
US20210383534A1 (en) * 2020-06-03 2021-12-09 GE Precision Healthcare LLC System and methods for image segmentation and classification using reduced depth convolutional neural networks
CN112254964A (zh) * 2020-09-03 2021-01-22 太原理工大学 一种基于快速多尺度卷积神经网络的滚动轴承故障诊断方法
CN111915615B (zh) * 2020-09-10 2024-09-06 中移(杭州)信息技术有限公司 图像分割方法、装置、电子设备及计算机可读存储介质
CN112184748B (zh) * 2020-09-30 2023-09-15 陕西科技大学 可变形的上下文编码网络模型及对肝脏及肝脏肿瘤的分割方法
CN112446890A (zh) * 2020-10-14 2021-03-05 浙江工业大学 基于空洞卷积和多尺度融合的黑色素瘤分割方法
CN112597996B (zh) * 2020-12-28 2024-03-29 山西云时代研发创新中心有限公司 基于任务驱动的自然场景中交通标志显著性检测方法
CN112966716B (zh) * 2021-02-03 2023-10-27 大连海事大学 一种素描引导的鞋印图像检索方法
KR102493652B1 (ko) * 2021-02-04 2023-02-07 가천대학교 산학협력단 불꽃 및 연기 자동 감지 방법 및 이를 이용하는 확장 cnn 기반의 감시 시스템
CN112801929A (zh) * 2021-04-09 2021-05-14 宝略科技(浙江)有限公司 一种用于建筑物变化检测的局部背景语义信息增强方法
CN113192018B (zh) * 2021-04-23 2023-11-24 北京化工大学 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法
CN113077382B (zh) * 2021-04-27 2024-01-12 东南大学 基于bemd和深度学习的美颜图像还原方法
CN113205523A (zh) * 2021-04-29 2021-08-03 浙江大学 多尺度表征优化的医学影像分割识别系统、终端及存储介质
CN113239815B (zh) * 2021-05-17 2022-09-06 广东工业大学 一种基于真实语义全网络学习的遥感影像分类方法、装置及设备
CN113269747B (zh) * 2021-05-24 2023-06-13 浙江大学医学院附属第一医院 一种基于深度学习的病理图片肝癌扩散检测方法及系统
CN113657388B (zh) * 2021-07-09 2023-10-31 北京科技大学 一种融合图像超分辨率重建的图像语义分割方法
CN113763386B (zh) * 2021-07-13 2024-04-19 合肥工业大学 基于多尺度特征融合的手术器械图像智能分割方法和系统
CN113762267B (zh) * 2021-09-02 2024-03-12 北京易航远智科技有限公司 一种基于语义关联的多尺度双目立体匹配方法及装置
CN113919998B (zh) * 2021-10-14 2024-05-14 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN114119516B (zh) * 2021-11-14 2024-08-02 北京工业大学 基于迁移学习和级联自适应空洞卷积的病毒病灶分割方法
CN115049952B (zh) * 2022-04-24 2023-04-07 南京农业大学 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN115205300B (zh) * 2022-09-19 2022-12-09 华东交通大学 基于空洞卷积和语义融合的眼底血管图像分割方法与系统
CN115578339A (zh) * 2022-09-30 2023-01-06 湖北工业大学 工业产品表面缺陷检测与定位方法、系统及设备
CN117671357B (zh) * 2023-12-01 2024-07-05 广东技术师范大学 基于金字塔算法的前列腺癌超声视频分类方法及系统
CN117557807B (zh) * 2024-01-11 2024-04-02 齐鲁工业大学(山东省科学院) 基于加权滤波增强的卷积神经网络图像预测方法
CN118608791A (zh) * 2024-08-06 2024-09-06 中国铁路设计集团有限公司 一种基于UNet语义分割双分支改进的滑坡检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262735A1 (en) 2016-03-11 2017-09-14 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262735A1 (en) 2016-03-11 2017-09-14 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Aman Raj 외 2명. Multi-Scale Convolutional Architecture for Semantic Segmentation. 2015년 9월
Evan Shelhamer 외 2명. Fully Convolutional Networks for Semantic Segmentation. 2016년 5월
Liang-Chieh Chen 외 4명. Attention to Scale: Scale-aware Semantic Image Segmentation. 2016년 6월

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738338A (zh) * 2020-06-23 2020-10-02 征图新视(江苏)科技股份有限公司 基于级联膨胀fcn网络应用于马达线圈的缺陷检测方法

Also Published As

Publication number Publication date
KR20190119261A (ko) 2019-10-22

Similar Documents

Publication Publication Date Title
KR102109372B1 (ko) 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법
CN110837778B (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
US20220067335A1 (en) Method for dim and small object detection based on discriminant feature of video satellite data
CN109697434B (zh) 一种行为识别方法、装置和存储介质
CN107527007B (zh) 在车辆图像处理系统中检测关注对象的方法
Vo et al. Semantic image segmentation using fully convolutional neural networks with multi-scale images and multi-scale dilated convolutions
CN109754007A (zh) 前列腺手术中外包膜智能检测和预警方法及系统
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN110765833A (zh) 一种基于深度学习的人群密度估计方法
WO2023030182A1 (zh) 图像生成方法及装置
Xing et al. Traffic sign recognition using guided image filtering
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
Petrovai et al. Multi-task network for panoptic segmentation in automated driving
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
Dorbe et al. FCN and LSTM based computer vision system for recognition of vehicle type, license plate number, and registration country
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
CN111275732B (zh) 一种基于深度卷积神经网络的前景对象图像分割方法
Bose et al. In-situ recognition of hand gesture via Enhanced Xception based single-stage deep convolutional neural network
Bahri et al. Real-time moving human detection using HOG and Fourier descriptor based on CUDA implementation
Duan et al. Multi-scale convolutional neural network for SAR image semantic segmentation
CN116883650A (zh) 一种基于注意力和局部拼接的图像级弱监督语义分割方法
CN115761552A (zh) 面向无人机机载平台的目标检测方法、系统、设备及介质
Chaturvedi et al. Small object detection using retinanet with hybrid anchor box hyper tuning using interface of Bayesian mathematics
CN116912763A (zh) 一种融合步态人脸模态的多行人重识别方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant