KR102532006B1

KR102532006B1 - Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템

Info

Publication number: KR102532006B1
Application number: KR1020200092125A
Authority: KR
Inventors: 조충상; 송혁; 이영한
Original assignee: 한국전자기술연구원
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2023-05-12
Also published as: US20220028084A1; KR20220013090A; US11605167B2

Abstract

Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은, 다수의 인코딩 블록을 이용하여 영역 분할할 영상을 인코딩하는 인코더 및 다수의 디코딩 블록을 이용하여 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더를 포함하되, 인코딩 블록은, 입력되는 영상을 컨볼루션 레이어로 처리하여 공간적으로 정규화한 후 감축시켜 다음 인코딩 블록으로 전달한다. 이에 의해, 인코딩 과정과 디코딩 과정에서 영상의 공간적 특성을 고려하게 되어, 다양한 영상에 대한 영역 분할을 정확하게 수행할 수 있게 된다.

Description

Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템{Image Region Segmentation Method and System using Self-Spatial Adaptive Normalization}

본 발명은 영상 처리 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 활용하여 입력 영상에서 타겟 영역을 정확하게 분할하는 방법 및 시스템에 관한 것이다.

영상 영역 분할은 영상에서 사용자가 찾고자 하는 영역을 자동으로 분할하여 주는 기술이다. 의료 영상 분야에서 의료진의 진단에 도움을 주고자 많이 활용되고 있는데, 항공 영상이나 CCTV 영상 등에서더 널리 활용되고 있다.

인공지능 기술의 발달은 영상 처리 알고리즘에 의하던 과거 영상 영역 분할의 패러다임을 바꾸어 놓았다. 즉, 현재는 딥러닝을 활용한 영상 영역 분할이 증가하는 추세이다.

하지만, 현재 제시되어 있는 기술은 딥러닝 네트워크에서 분할 영역 정보를 도출할 때 영상에서 중요한 정보 중 하나인 Spatial 정보에 기반한 정규화가 이루어지지 않고 있는데, 영역 분할 성능을 저하시키는 요인이 될 수 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 영역 분할 성능을 향상시키기 위한 방안으로, 영상의 컨볼루션 처리 결과를 SSAN(Self-Spatial Adaptive Normalization) 하는 영상 영역 분할 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 영상 영역 분할 시스템은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및 다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고, 인코딩 블록은, 입력되는 영상을 컨볼루션 레이어로 처리하는 컨볼루션 블록; 컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하는 정규화 블록; 및 정규화 블록의 출력을 감축시켜 다음 인코딩 블록으로 전달하는 다운 샘플링 블록;을 포함한다.

디코딩 블록은, 인코더의 출력을 증대시키는 업 샘플링 블록; 업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록; 컨볼루션 블록의 출력을 공간적으로 정규화하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함할 수 있다.

정규화 블록은, 입력 영상을 이용하여 추출한 파라미터로, 컨볼루션 블록의 출력을 공간적으로 정규화할 수 있다.

정규화 블록은, 컨볼루션 블록의 출력을 컨볼루션 레이어로 처리하여 인코딩하는 로컬 인코딩 블록; 로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록; 로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록; 컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록; 제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함할 수 있다.

로컬 인코딩 블록에 입력되는 정보의 Spatial size는, 로컬 인코딩 블록에서 출력되는 정보의 Spatial size는 동일할 수 있다.

제2 정규화 블록은, 다음의 식에 따라 정규화를 수행하고,

X' = X

( 1 + α)

β

X'은 제2 정규화 블록의 출력이고, X는 제1 정규화 블록의 출력이며, α,β는 제1 공간적 가중치 파라미터, 제2 공간적 가중치 파라미터이고,

,

은 spatial 측면에서의 element wise 곱과 합을 의미할 수 있다.

인코딩 블록에 구비된 정규화 블록은, 디코딩 블록과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록일 수 있다.

컨볼루션 블록은, 업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 Skip Connection으로 입력받을 수 있다.

인코딩 블록의 개수와 디코딩 블록의 개수는, 조정 가능할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 영상 영역 분할 방법은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및 다수의 디코딩 블록을 이용하여, 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고, 인코딩 블록은, 입력되는 영상을 컨볼루션 레이어로 처리하고, 공간적으로 정규화한 후 감축시켜 다음 인코딩 블록으로 전달한다.

한편, 본 발명의 다른 실시예에 따른, 영상 영역 분할 시스템은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및 다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고, 디코딩 블록은, 인코더의 출력을 증대시키는 업 샘플링 블록; 업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록; 컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함한다.

한편, 본 발명의 다른 실시예에 따른, 영상 영역 분할 방법은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및 다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고, 디코딩 블록은, 인코더의 출력을 증대시켜 인코딩 블록에 구비된 정규화 블록의 출력과 함께 컨볼루션 레이어로 처리한 후 공간적으로 정규화하여 다음 디코딩 블록으로 전달한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 영상의 컨볼루션 처리 결과를 Spatial Adaptive Normalization 함으로써, 인코딩 과정과 디코딩 과정에서 영상의 공간적 특성을 고려하게 되어, 다양한 영상에 대한 영역 분할을 정확하게 수행할 수 있게 된다.

또한, 본 발명의 실시예들에 따르면, Spatial Adaptive Normalization에 필요한 파리미터들을 입력 영상으로부터 획득함으로써, 이를 위해 추가 정보를 이용하여야 하는 번거로움과 복잡함을 해소할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 개념을 도시한 도면,
도 2는 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 블록도,
도 3은 SSAN 블록의 상세 블록도,
도 4는 본 발명의 실시예에 따른 영상 영역 분할 시스템을 이용하여, 초음파 의료 영상에서 태아의 머리 영역을 자동으로 분할한 결과,
도 5는 본 발명의 실시예에 따른 방법과 기존 방법들 간의 성능 비교 결과,
도 6은 본 발명의 실시예에 따른 방법으로 수행한 항공 영상에 대한 영역 분할 결과,
도 7은 본 발명의 실시예에 따른 영상 영역 분할 시스템의 하드웨어 구조를 나타낸 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1에는 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 개념을 도시하였다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은 입력 영상으로부터 타겟 영역들을 구분하여 분할하는, 도 1의 경우는 항공 영상으로부터 건물들을 구분하여 분할하는 시스템이다.

본 발명의 실시예에서는, 딥러닝 네트워크에서 입력 영상을 인코딩하여 정보를 축약한 후 디코딩하면서 분할 영역 정보를 도출하는 과정에서, 영상의 Spatial 정보를 기반으로 정규화를 수행하는 방안을 제시한다. 본 발명의 실시예에서는 이를 Spatial Adaptive Normalization으로 명명한다.

나아가, 본 발명의 실시예에서는 Spatial Adaptive Normalization를 수행함에 있어, 입력 영상의 정보를 이용한다. 이 관점에서 본 발명의 실시예에서 제시하는 Spatial Adaptive Normalization는 Self-Spatial Adaptive Normalization으로 표현하는 것이 더욱 적정하다.

도 2는 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 블록도이다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은, 도시된 바와 같이, 인코더(100)와 디코더(200)를 포함하여 구성된다.

인코더(100)는 영역을 분할할 영상을 인코딩하는 하기 위한 구성으로, 다수의 SSAE(Self-Spatial Adaptive Encoding) 블록(110)을 포함한다. SSAE 블록(110)은 컨볼루션 블록(120), SSAN(Self-Spatial Adaptive Normalization) 블록(130) 및 다운 샘플링 블록(140)을 포함하여 구성된다.

컨볼루션 블록(120)은 입력 영상을 다수의 컨볼루션 레이어로 처리하는 블록이다.

SSAN 블록(130)은 컨볼루션 블록(120)의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 주는 블록이다. SSAN 블록(130)의 출력은 후술할 다운 샘플링 블록(140)과 동일 뎁스에 위치하는 SSAD 블록(210)으로 전달된다.

다운 샘플링 블록(140)은 SSAN 블록(130)의 출력을 감축시켜, 다음 뎁스(하위 뎁스)에 위치한 SSAE 블록(110)으로 전달한다. 마지막 뎁스에 위치한 SSAE 블록(110)의 경우 다운 샘플링 블록(140)이 없다. 여기서는, SSAN 블록(130)의 출력이 디코더(200)로 전달된다.

디코더(200)는 인코더(100)에 의해 인코딩된 입력 영상을 디코딩하여 타겟 영역이 분할된 영상을 생성하기 위한 구성으로, 다수의 SSAD(Self-Spatial Adaptive Decoding) 블록(210)을 포함한다. SSAD 블록(210)은, 업 샘플링 블록(220), 컨볼루션 블록(230) 및 SSAN 블록(240)을 포함하여 구성된다.

업 샘플링 블록(220)은 인코더(100)에 의해 감축된 영상을 증대시켜, 컨볼루션 블록(220)으로 전달한다.

컨볼루션 블록(230)은 업 샘플링 블록(220)의 출력과 'SSAD 블록(210)과 동일 뎁스에 있는 SSAE 블록(110)의 SSAN 블록(130)의 출력'을 스킵 연결(Skip Connection)하여 입력받아, 다수의 컨볼루션 레이어로 처리한다.

SSAN 블록(240)은 컨볼루션 블록(230)의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 주는 블록이다. SSAN 블록(240)의 출력은 다음 뎁스(상위 뎁스)의 SSAD 블록(210)으로 전달된다.

이하에서는, SSAN 블록(130)과 SSAN 블록(240)의 상세 구조에 대해 도 3을 참조하여 상세히 설명한다. 도 3은 SSAN 블록의 상세 블록도이다. SSAN 블록(130)과 SSAN 블록(240)은 동일 구조로 구현 가능하므로, 도 3에서는 이들을 참조 부호 "300"으로 통칭하여 하나만 도시하였다.

SSAN 블록(300)은, 도시된 바와 같이, 로컬 인코딩(Local Encoding) 블록(310), 컨볼루션 블록-1(320), 컨볼루션 블록-2(330), 정규화 블록-1(340) 및 정규화 블록-2(350)를 포함하여 구성된다.

로컬 인코딩 블록(310)은 컨볼루션 블록(120) 또는 컨볼루션 블록(230)의 출력을 입력받아 다수의 컨볼루션 레이어로 처리하여 인코딩한다. SSAE 블록(110)의 SSAN 블록(130)에 마련된 로컬 인코딩 블록(310)의 경우 컨볼루션 블록(120)의 출력을 입력받고, SSAD 블록(210)의 SSAN 블록(240)에 마련된 로컬 인코딩 블록(310)의 경우 컨볼루션 블록(230)의 출력을 입력받게 된다.

로컬 인코딩 블록(310)은 2개 이상의 컨볼루션 블록들을 연결하여 구성할 수 있으며, 로컬 인코딩 블록(310)에 입력되는 정보의 Spatial size와 로컬 인코딩 블록(310)에서 출력되는 정보의 Spatial size는 동일하게 설계한다.

컨볼루션 블록-1(320)은 로컬 인코딩 블록(310)의 출력을 다수의 컨볼루션 레이어로 처리하여, 공간적 가중치 파라미터 중 하나인 α를 추출한다. 컨볼루션 블록-1(320)에서 추출된 공간적 가중치 파라미터 α는 정규화 블록-2(350)로 전달된다.

컨볼루션 블록-2(330)는 로컬 인코딩 블록(310)의 출력을 다수의 컨볼루션 레이어로 처리하여, 공간적 가중치 파라미터를 중 다른 하나인 β를 추출한다. 컨볼루션 블록-2(330)에서 추출된 공간적 가중치 파라미터 β는 정규화 블록-2(350)로 전달된다.

정규화 블록-1(340)은 컨볼루션 블록(120) 또는 컨볼루션 블록(230)의 출력을 배치 정규화(Batch Normalization) 한다. 정규화 블록-1(340)에 의한 배치 정규화 결과는 정규화 블록-2(350)로 전달된다.

정규화 블록-2(350)는 컨볼루션 블록들(320,330)에서 추출된 공간적 가중치 파라미터들인 α,β를 이용하여, 정규화 블록-1(340)의 출력을 공간적으로 정규화한다.

구체적으로, 정규화 블록-2(350)는 다음의 식에 따라 정규화를 수행한다.

X' = X

( 1 + α)

β

여기서, X'은 정규화 블록-2(350)의 출력인 공간적 정규화 결과이고, X는 정규화 블록-1(340)의 출력인 배치 정규화 결과이며, α,β는 공간적 가중치 파라미터들이고,

,

은 spatial 측면에서의 element wise 곱과 합을 의미한다.

도 4는 본 발명의 실시예에 따른 영상 영역 분할 시스템을 이용하여, 초음파 의료 영상에서 태아의 머리 영역을 자동으로 분할한 결과를 보여주고 있다. 2018년 Data Science Bowl 대회에서 사용된 영상이다.

도 5에는 기존 방법들과 성능을 비교한 결과를 나타내었다. Attetion Unet 알고리즘은 위 대회에서 1등한 알고리즘이다. 도 5에 제시된 바에 따르면, 도 4는 본 발명의 실시예에 따른 결과가 기본 UNet을 이용한 결과나 위 대회에서 1등한 알고리즘 보다 더 좋은 성능을 보이고 있음을 확인할 수 있다.

도 6에는 본 발명의 실시예에 따른 영상 영역 분할 시스템을 이용하여, 항공 영상에 대한 영역 분할 결과를 제시하였다. 이와 같이, 본 발명의 실시예에 따른 영상 영역 분할 시스템은 영상의 종류에 무관하게 적용, 즉, 다양한 영상의 영역 분할에 적용할 수 있다.

적용할 영상의 특성에 따라, 도 2에 도시된 SSAE 블록(110)과 SSAD 블록(210)의 개수를 결정할 수 있다. 즉, 본 발명의 실시예에 따른 영상 영역 분할 시스템에서 네트워크의 깊이는 다양하게 구현할 수 있다.

도 7은 본 발명의 실시예에 따른 영상 영역 분할 시스템의 하드웨어 구조를 나타낸 도면이다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은, 도시된 바와 같이, 통신부(410), 출력부(420), 프로세서(430), 입력부(440) 및 저장부(450)를 포함하는 컴퓨팅 시스템(PC, 서버 등)으로 구현할 수 있다.

통신부(410)는 외부 단말 및 외부 네트워크와 통신 연결하기 위한 구성이고, 입력부(440)는 사용자 명령을 입력받아 프로세서(430)에 전달하고, 출력부(420)는 프로세서(430)의 처리 결과를 출력하며, 저장부(450)는 프로세서(430)에 필요한 저장 공간을 제공한다.

프로세서(430)는 입력 영상에 대한 영역 분할을 도 2에 제시된 절차에 따라 수행하기 위한 GPU(Graphic Processing Unit)들과 CPU(Central Processing Unit)들의 조합이다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 인코더
110 : SSAE(Self-Spatial Adaptive Encoding) 블록
120 : 컨볼루션 블록
130 : SSAN(Self-Spatial Adaptive Normalization) 블록
140 : 다운 샘플링 블록
200 : 디코더
210 : SSAE(Self-Spatial Adaptive Decoding) 블록
220 : 업 샘플링 블록
230 : 컨볼루션 블록
240 : SSAN 블록

Claims

다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및
다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고,
인코딩 블록은,
입력되는 영상을 컨볼루션 레이어로 처리하는 컨볼루션 블록;
컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하는 정규화 블록; 및
정규화 블록의 출력을 감축시켜 다음 인코딩 블록으로 전달하는 다운 샘플링 블록;을 포함하고,
디코딩 블록은,
인코더의 출력을 증대시키는 업 샘플링 블록;
업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록;
컨볼루션 블록의 출력을 정규화하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함하며,
디코딩 블록의 컨볼루션 블록은,
업 샘플링 블록의 출력과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록의 출력을 Skip Connection으로 입력받고,
인코딩 블록과 디코딩 블록의 정규화 블록은,
컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 시스템.
청구항 1에 있어서,
디코딩 블록의 정규화 블록은,
컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하는 것을 특징으로 하는 영상 영역 분할 시스템.
청구항 2에 있어서,
정규화 블록은,
입력 영상을 이용하여 추출한 파라미터로, 컨볼루션 블록의 출력을 공간적으로 정규화하는 것을 특징으로 하는 영상 영역 분할 시스템.
삭제
삭제
청구항 1에 있어서,
제2 정규화 블록은,
다음의 식에 따라 정규화를 수행하고,
X' = X
( 1 + α)
β
X'은 제2 정규화 블록의 출력이고, X는 제1 정규화 블록의 출력이며, α,β는 제1 공간적 가중치 파라미터, 제2 공간적 가중치 파라미터이고,
,
은 spatial 측면에서의 element wise 곱과 합을 의미하는 것을 특징으로 하는 영상 영역 분할 시스템.
청구항 2에 있어서,
인코딩 블록에 구비된 정규화 블록은,
디코딩 블록과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록인 것을 특징으로 하는 영상 영역 분할 시스템.
삭제
청구항 1에 있어서,
인코딩 블록의 개수와 디코딩 블록의 개수는,
조정 가능한 것을 특징으로 하는 영상 영역 분할 시스템.
다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및
다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고,
인코딩 블록은,
입력되는 영상을 컨볼루션 레이어로 처리하고, 공간적으로 정규화(Spatial Adaptive Normalization)한 후 다운 샘플링하여 다음 인코딩 블록으로 전달하고,
디코딩 블록은,
인코더의 출력을 업 샘플링하고, 업 샘플링 결과와 인코딩 블록의 정규화 결과를 입력받아 컨볼루션 레이어로 처리한 후 정규화하여 다음 디코딩 블록으로 전달하되,
동일한 뎁스에 위치하는 인코딩 블록의 정규화 결과를 Skip Connection으로 입력받고,
인코딩 블록과 디코딩 블록의 정규화 블록은,
컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 방법.
다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및
다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고,
인코딩 블록은,
입력되는 영상을 컨볼루션 레이어로 처리하는 컨볼루션 블록;
컨볼루션 블록의 출력을 정규화하는 정규화 블록; 및
정규화 블록의 출력을 감축시켜 다음 인코딩 블록으로 전달하는 다운 샘플링 블록;을 포함하고,
디코딩 블록은,
인코더의 출력을 증대시키는 업 샘플링 블록;
업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록;
컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함하며,
디코딩 블록의 컨볼루션 블록은,
업 샘플링 블록의 출력과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록의 출력을 Skip Connection으로 입력받고,
인코딩 블록과 디코딩 블록의 정규화 블록은,
컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 시스템.
다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및
다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고,
인코딩 블록은,
입력되는 영상을 컨볼루션 레이어로 처리하고, 정규화한 후 다운 샘플링하여 다음 인코딩 블록으로 전달하고,
디코딩 블록은,
인코더의 출력을 업 샘플링하고, 업 샘플링 결과와 인코딩 블록의 정규화 결과를 입력받아 컨볼루션 레이어로 처리한 후 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하되,
동일한 뎁스에 위치하는 인코딩 블록의 정규화 결과를 Skip Connection으로 입력받고,
인코딩 블록과 디코딩 블록의 정규화 블록은,
컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 방법.