KR102532006B1 - Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템 - Google Patents

Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템 Download PDF

Info

Publication number
KR102532006B1
KR102532006B1 KR1020200092125A KR20200092125A KR102532006B1 KR 102532006 B1 KR102532006 B1 KR 102532006B1 KR 1020200092125 A KR1020200092125 A KR 1020200092125A KR 20200092125 A KR20200092125 A KR 20200092125A KR 102532006 B1 KR102532006 B1 KR 102532006B1
Authority
KR
South Korea
Prior art keywords
block
convolution
output
normalization
encoding
Prior art date
Application number
KR1020200092125A
Other languages
English (en)
Other versions
KR20220013090A (ko
Inventor
조충상
송혁
이영한
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020200092125A priority Critical patent/KR102532006B1/ko
Priority to US17/126,299 priority patent/US11605167B2/en
Publication of KR20220013090A publication Critical patent/KR20220013090A/ko
Application granted granted Critical
Publication of KR102532006B1 publication Critical patent/KR102532006B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은, 다수의 인코딩 블록을 이용하여 영역 분할할 영상을 인코딩하는 인코더 및 다수의 디코딩 블록을 이용하여 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더를 포함하되, 인코딩 블록은, 입력되는 영상을 컨볼루션 레이어로 처리하여 공간적으로 정규화한 후 감축시켜 다음 인코딩 블록으로 전달한다. 이에 의해, 인코딩 과정과 디코딩 과정에서 영상의 공간적 특성을 고려하게 되어, 다양한 영상에 대한 영역 분할을 정확하게 수행할 수 있게 된다.

Description

Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템{Image Region Segmentation Method and System using Self-Spatial Adaptive Normalization}
본 발명은 영상 처리 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 활용하여 입력 영상에서 타겟 영역을 정확하게 분할하는 방법 및 시스템에 관한 것이다.
영상 영역 분할은 영상에서 사용자가 찾고자 하는 영역을 자동으로 분할하여 주는 기술이다. 의료 영상 분야에서 의료진의 진단에 도움을 주고자 많이 활용되고 있는데, 항공 영상이나 CCTV 영상 등에서더 널리 활용되고 있다.
인공지능 기술의 발달은 영상 처리 알고리즘에 의하던 과거 영상 영역 분할의 패러다임을 바꾸어 놓았다. 즉, 현재는 딥러닝을 활용한 영상 영역 분할이 증가하는 추세이다.
하지만, 현재 제시되어 있는 기술은 딥러닝 네트워크에서 분할 영역 정보를 도출할 때 영상에서 중요한 정보 중 하나인 Spatial 정보에 기반한 정규화가 이루어지지 않고 있는데, 영역 분할 성능을 저하시키는 요인이 될 수 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 영역 분할 성능을 향상시키기 위한 방안으로, 영상의 컨볼루션 처리 결과를 SSAN(Self-Spatial Adaptive Normalization) 하는 영상 영역 분할 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 영상 영역 분할 시스템은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및 다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고, 인코딩 블록은, 입력되는 영상을 컨볼루션 레이어로 처리하는 컨볼루션 블록; 컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하는 정규화 블록; 및 정규화 블록의 출력을 감축시켜 다음 인코딩 블록으로 전달하는 다운 샘플링 블록;을 포함한다.
디코딩 블록은, 인코더의 출력을 증대시키는 업 샘플링 블록; 업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록; 컨볼루션 블록의 출력을 공간적으로 정규화하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함할 수 있다.
정규화 블록은, 입력 영상을 이용하여 추출한 파라미터로, 컨볼루션 블록의 출력을 공간적으로 정규화할 수 있다.
정규화 블록은, 컨볼루션 블록의 출력을 컨볼루션 레이어로 처리하여 인코딩하는 로컬 인코딩 블록; 로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록; 로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록; 컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록; 제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함할 수 있다.
로컬 인코딩 블록에 입력되는 정보의 Spatial size는, 로컬 인코딩 블록에서 출력되는 정보의 Spatial size는 동일할 수 있다.
제2 정규화 블록은, 다음의 식에 따라 정규화를 수행하고,
X' = X
Figure 112020077459277-pat00001
( 1 + α)
Figure 112020077459277-pat00002
β
X'은 제2 정규화 블록의 출력이고, X는 제1 정규화 블록의 출력이며, α,β는 제1 공간적 가중치 파라미터, 제2 공간적 가중치 파라미터이고,
Figure 112020077459277-pat00003
,
Figure 112020077459277-pat00004
은 spatial 측면에서의 element wise 곱과 합을 의미할 수 있다.
인코딩 블록에 구비된 정규화 블록은, 디코딩 블록과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록일 수 있다.
컨볼루션 블록은, 업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 Skip Connection으로 입력받을 수 있다.
인코딩 블록의 개수와 디코딩 블록의 개수는, 조정 가능할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 영상 영역 분할 방법은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및 다수의 디코딩 블록을 이용하여, 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고, 인코딩 블록은, 입력되는 영상을 컨볼루션 레이어로 처리하고, 공간적으로 정규화한 후 감축시켜 다음 인코딩 블록으로 전달한다.
한편, 본 발명의 다른 실시예에 따른, 영상 영역 분할 시스템은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및 다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고, 디코딩 블록은, 인코더의 출력을 증대시키는 업 샘플링 블록; 업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록; 컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함한다.
한편, 본 발명의 다른 실시예에 따른, 영상 영역 분할 방법은, 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및 다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고, 디코딩 블록은, 인코더의 출력을 증대시켜 인코딩 블록에 구비된 정규화 블록의 출력과 함께 컨볼루션 레이어로 처리한 후 공간적으로 정규화하여 다음 디코딩 블록으로 전달한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 영상의 컨볼루션 처리 결과를 Spatial Adaptive Normalization 함으로써, 인코딩 과정과 디코딩 과정에서 영상의 공간적 특성을 고려하게 되어, 다양한 영상에 대한 영역 분할을 정확하게 수행할 수 있게 된다.
또한, 본 발명의 실시예들에 따르면, Spatial Adaptive Normalization에 필요한 파리미터들을 입력 영상으로부터 획득함으로써, 이를 위해 추가 정보를 이용하여야 하는 번거로움과 복잡함을 해소할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 개념을 도시한 도면,
도 2는 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 블록도,
도 3은 SSAN 블록의 상세 블록도,
도 4는 본 발명의 실시예에 따른 영상 영역 분할 시스템을 이용하여, 초음파 의료 영상에서 태아의 머리 영역을 자동으로 분할한 결과,
도 5는 본 발명의 실시예에 따른 방법과 기존 방법들 간의 성능 비교 결과,
도 6은 본 발명의 실시예에 따른 방법으로 수행한 항공 영상에 대한 영역 분할 결과,
도 7은 본 발명의 실시예에 따른 영상 영역 분할 시스템의 하드웨어 구조를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1에는 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 개념을 도시하였다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은 입력 영상으로부터 타겟 영역들을 구분하여 분할하는, 도 1의 경우는 항공 영상으로부터 건물들을 구분하여 분할하는 시스템이다.
본 발명의 실시예에서는, 딥러닝 네트워크에서 입력 영상을 인코딩하여 정보를 축약한 후 디코딩하면서 분할 영역 정보를 도출하는 과정에서, 영상의 Spatial 정보를 기반으로 정규화를 수행하는 방안을 제시한다. 본 발명의 실시예에서는 이를 Spatial Adaptive Normalization으로 명명한다.
나아가, 본 발명의 실시예에서는 Spatial Adaptive Normalization를 수행함에 있어, 입력 영상의 정보를 이용한다. 이 관점에서 본 발명의 실시예에서 제시하는 Spatial Adaptive Normalization는 Self-Spatial Adaptive Normalization으로 표현하는 것이 더욱 적정하다.
도 2는 본 발명의 일 실시예에 따른 영상 영역 분할 시스템의 블록도이다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은, 도시된 바와 같이, 인코더(100)와 디코더(200)를 포함하여 구성된다.
인코더(100)는 영역을 분할할 영상을 인코딩하는 하기 위한 구성으로, 다수의 SSAE(Self-Spatial Adaptive Encoding) 블록(110)을 포함한다. SSAE 블록(110)은 컨볼루션 블록(120), SSAN(Self-Spatial Adaptive Normalization) 블록(130) 및 다운 샘플링 블록(140)을 포함하여 구성된다.
컨볼루션 블록(120)은 입력 영상을 다수의 컨볼루션 레이어로 처리하는 블록이다.
SSAN 블록(130)은 컨볼루션 블록(120)의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 주는 블록이다. SSAN 블록(130)의 출력은 후술할 다운 샘플링 블록(140)과 동일 뎁스에 위치하는 SSAD 블록(210)으로 전달된다.
다운 샘플링 블록(140)은 SSAN 블록(130)의 출력을 감축시켜, 다음 뎁스(하위 뎁스)에 위치한 SSAE 블록(110)으로 전달한다. 마지막 뎁스에 위치한 SSAE 블록(110)의 경우 다운 샘플링 블록(140)이 없다. 여기서는, SSAN 블록(130)의 출력이 디코더(200)로 전달된다.
디코더(200)는 인코더(100)에 의해 인코딩된 입력 영상을 디코딩하여 타겟 영역이 분할된 영상을 생성하기 위한 구성으로, 다수의 SSAD(Self-Spatial Adaptive Decoding) 블록(210)을 포함한다. SSAD 블록(210)은, 업 샘플링 블록(220), 컨볼루션 블록(230) 및 SSAN 블록(240)을 포함하여 구성된다.
업 샘플링 블록(220)은 인코더(100)에 의해 감축된 영상을 증대시켜, 컨볼루션 블록(220)으로 전달한다.
컨볼루션 블록(230)은 업 샘플링 블록(220)의 출력과 'SSAD 블록(210)과 동일 뎁스에 있는 SSAE 블록(110)의 SSAN 블록(130)의 출력'을 스킵 연결(Skip Connection)하여 입력받아, 다수의 컨볼루션 레이어로 처리한다.
SSAN 블록(240)은 컨볼루션 블록(230)의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 주는 블록이다. SSAN 블록(240)의 출력은 다음 뎁스(상위 뎁스)의 SSAD 블록(210)으로 전달된다.
이하에서는, SSAN 블록(130)과 SSAN 블록(240)의 상세 구조에 대해 도 3을 참조하여 상세히 설명한다. 도 3은 SSAN 블록의 상세 블록도이다. SSAN 블록(130)과 SSAN 블록(240)은 동일 구조로 구현 가능하므로, 도 3에서는 이들을 참조 부호 "300"으로 통칭하여 하나만 도시하였다.
SSAN 블록(300)은, 도시된 바와 같이, 로컬 인코딩(Local Encoding) 블록(310), 컨볼루션 블록-1(320), 컨볼루션 블록-2(330), 정규화 블록-1(340) 및 정규화 블록-2(350)를 포함하여 구성된다.
로컬 인코딩 블록(310)은 컨볼루션 블록(120) 또는 컨볼루션 블록(230)의 출력을 입력받아 다수의 컨볼루션 레이어로 처리하여 인코딩한다. SSAE 블록(110)의 SSAN 블록(130)에 마련된 로컬 인코딩 블록(310)의 경우 컨볼루션 블록(120)의 출력을 입력받고, SSAD 블록(210)의 SSAN 블록(240)에 마련된 로컬 인코딩 블록(310)의 경우 컨볼루션 블록(230)의 출력을 입력받게 된다.
로컬 인코딩 블록(310)은 2개 이상의 컨볼루션 블록들을 연결하여 구성할 수 있으며, 로컬 인코딩 블록(310)에 입력되는 정보의 Spatial size와 로컬 인코딩 블록(310)에서 출력되는 정보의 Spatial size는 동일하게 설계한다.
컨볼루션 블록-1(320)은 로컬 인코딩 블록(310)의 출력을 다수의 컨볼루션 레이어로 처리하여, 공간적 가중치 파라미터 중 하나인 α를 추출한다. 컨볼루션 블록-1(320)에서 추출된 공간적 가중치 파라미터 α는 정규화 블록-2(350)로 전달된다.
컨볼루션 블록-2(330)는 로컬 인코딩 블록(310)의 출력을 다수의 컨볼루션 레이어로 처리하여, 공간적 가중치 파라미터를 중 다른 하나인 β를 추출한다. 컨볼루션 블록-2(330)에서 추출된 공간적 가중치 파라미터 β는 정규화 블록-2(350)로 전달된다.
정규화 블록-1(340)은 컨볼루션 블록(120) 또는 컨볼루션 블록(230)의 출력을 배치 정규화(Batch Normalization) 한다. 정규화 블록-1(340)에 의한 배치 정규화 결과는 정규화 블록-2(350)로 전달된다.
정규화 블록-2(350)는 컨볼루션 블록들(320,330)에서 추출된 공간적 가중치 파라미터들인 α,β를 이용하여, 정규화 블록-1(340)의 출력을 공간적으로 정규화한다.
구체적으로, 정규화 블록-2(350)는 다음의 식에 따라 정규화를 수행한다.
X' = X
Figure 112020077459277-pat00005
( 1 + α)
Figure 112020077459277-pat00006
β
여기서, X'은 정규화 블록-2(350)의 출력인 공간적 정규화 결과이고, X는 정규화 블록-1(340)의 출력인 배치 정규화 결과이며, α,β는 공간적 가중치 파라미터들이고,
Figure 112020077459277-pat00007
,
Figure 112020077459277-pat00008
은 spatial 측면에서의 element wise 곱과 합을 의미한다.
도 4는 본 발명의 실시예에 따른 영상 영역 분할 시스템을 이용하여, 초음파 의료 영상에서 태아의 머리 영역을 자동으로 분할한 결과를 보여주고 있다. 2018년 Data Science Bowl 대회에서 사용된 영상이다.
도 5에는 기존 방법들과 성능을 비교한 결과를 나타내었다. Attetion Unet 알고리즘은 위 대회에서 1등한 알고리즘이다. 도 5에 제시된 바에 따르면, 도 4는 본 발명의 실시예에 따른 결과가 기본 UNet을 이용한 결과나 위 대회에서 1등한 알고리즘 보다 더 좋은 성능을 보이고 있음을 확인할 수 있다.
도 6에는 본 발명의 실시예에 따른 영상 영역 분할 시스템을 이용하여, 항공 영상에 대한 영역 분할 결과를 제시하였다. 이와 같이, 본 발명의 실시예에 따른 영상 영역 분할 시스템은 영상의 종류에 무관하게 적용, 즉, 다양한 영상의 영역 분할에 적용할 수 있다.
적용할 영상의 특성에 따라, 도 2에 도시된 SSAE 블록(110)과 SSAD 블록(210)의 개수를 결정할 수 있다. 즉, 본 발명의 실시예에 따른 영상 영역 분할 시스템에서 네트워크의 깊이는 다양하게 구현할 수 있다.
도 7은 본 발명의 실시예에 따른 영상 영역 분할 시스템의 하드웨어 구조를 나타낸 도면이다. 본 발명의 실시예에 따른 영상 영역 분할 시스템은, 도시된 바와 같이, 통신부(410), 출력부(420), 프로세서(430), 입력부(440) 및 저장부(450)를 포함하는 컴퓨팅 시스템(PC, 서버 등)으로 구현할 수 있다.
통신부(410)는 외부 단말 및 외부 네트워크와 통신 연결하기 위한 구성이고, 입력부(440)는 사용자 명령을 입력받아 프로세서(430)에 전달하고, 출력부(420)는 프로세서(430)의 처리 결과를 출력하며, 저장부(450)는 프로세서(430)에 필요한 저장 공간을 제공한다.
프로세서(430)는 입력 영상에 대한 영역 분할을 도 2에 제시된 절차에 따라 수행하기 위한 GPU(Graphic Processing Unit)들과 CPU(Central Processing Unit)들의 조합이다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 인코더
110 : SSAE(Self-Spatial Adaptive Encoding) 블록
120 : 컨볼루션 블록
130 : SSAN(Self-Spatial Adaptive Normalization) 블록
140 : 다운 샘플링 블록
200 : 디코더
210 : SSAE(Self-Spatial Adaptive Decoding) 블록
220 : 업 샘플링 블록
230 : 컨볼루션 블록
240 : SSAN 블록

Claims (12)

  1. 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및
    다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고,
    인코딩 블록은,
    입력되는 영상을 컨볼루션 레이어로 처리하는 컨볼루션 블록;
    컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하는 정규화 블록; 및
    정규화 블록의 출력을 감축시켜 다음 인코딩 블록으로 전달하는 다운 샘플링 블록;을 포함하고,
    디코딩 블록은,
    인코더의 출력을 증대시키는 업 샘플링 블록;
    업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록;
    컨볼루션 블록의 출력을 정규화하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함하며,
    디코딩 블록의 컨볼루션 블록은,
    업 샘플링 블록의 출력과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록의 출력을 Skip Connection으로 입력받고,
    인코딩 블록과 디코딩 블록의 정규화 블록은,
    컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
    컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
    제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
    로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
    로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 시스템.
  2. 청구항 1에 있어서,
    디코딩 블록의 정규화 블록은,
    컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하는 것을 특징으로 하는 영상 영역 분할 시스템.
  3. 청구항 2에 있어서,
    정규화 블록은,
    입력 영상을 이용하여 추출한 파라미터로, 컨볼루션 블록의 출력을 공간적으로 정규화하는 것을 특징으로 하는 영상 영역 분할 시스템.
  4. 삭제
  5. 삭제
  6. 청구항 1에 있어서,
    제2 정규화 블록은,
    다음의 식에 따라 정규화를 수행하고,
    X' = X
    Figure 112023037253616-pat00009
    ( 1 + α)
    Figure 112023037253616-pat00010
    β
    X'은 제2 정규화 블록의 출력이고, X는 제1 정규화 블록의 출력이며, α,β는 제1 공간적 가중치 파라미터, 제2 공간적 가중치 파라미터이고,
    Figure 112023037253616-pat00011
    ,
    Figure 112023037253616-pat00012
    은 spatial 측면에서의 element wise 곱과 합을 의미하는 것을 특징으로 하는 영상 영역 분할 시스템.
  7. 청구항 2에 있어서,
    인코딩 블록에 구비된 정규화 블록은,
    디코딩 블록과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록인 것을 특징으로 하는 영상 영역 분할 시스템.
  8. 삭제
  9. 청구항 1에 있어서,
    인코딩 블록의 개수와 디코딩 블록의 개수는,
    조정 가능한 것을 특징으로 하는 영상 영역 분할 시스템.
  10. 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및
    다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고,
    인코딩 블록은,
    입력되는 영상을 컨볼루션 레이어로 처리하고, 공간적으로 정규화(Spatial Adaptive Normalization)한 후 다운 샘플링하여 다음 인코딩 블록으로 전달하고,
    디코딩 블록은,
    인코더의 출력을 업 샘플링하고, 업 샘플링 결과와 인코딩 블록의 정규화 결과를 입력받아 컨볼루션 레이어로 처리한 후 정규화하여 다음 디코딩 블록으로 전달하되,
    동일한 뎁스에 위치하는 인코딩 블록의 정규화 결과를 Skip Connection으로 입력받고,
    인코딩 블록과 디코딩 블록의 정규화 블록은,
    컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
    컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
    제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
    로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
    로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 방법.
  11. 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 인코더; 및
    다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 디코더;를 포함하고,
    인코딩 블록은,
    입력되는 영상을 컨볼루션 레이어로 처리하는 컨볼루션 블록;
    컨볼루션 블록의 출력을 정규화하는 정규화 블록; 및
    정규화 블록의 출력을 감축시켜 다음 인코딩 블록으로 전달하는 다운 샘플링 블록;을 포함하고,
    디코딩 블록은,
    인코더의 출력을 증대시키는 업 샘플링 블록;
    업 샘플링 블록의 출력과 인코딩 블록에 구비된 정규화 블록의 출력을 입력받아, 컨볼루션 레이어로 처리하는 컨볼루션 블록;
    컨볼루션 블록의 출력을 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하는 정규화 블록;을 포함하며,
    디코딩 블록의 컨볼루션 블록은,
    업 샘플링 블록의 출력과 동일한 뎁스에 위치하는 인코딩 블록에 구비된 정규화 블록의 출력을 Skip Connection으로 입력받고,
    인코딩 블록과 디코딩 블록의 정규화 블록은,
    컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
    컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
    제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
    로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
    로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 시스템.
  12. 다수의 인코딩 블록을 이용하여, 영역 분할할 영상을 인코딩하는 단계; 및
    다수의 디코딩 블록을 이용하여, 인코더에 의해 인코딩된 영상을 디코딩하여 영역 분할된 영상을 생성하는 단계;를 포함하고,
    인코딩 블록은,
    입력되는 영상을 컨볼루션 레이어로 처리하고, 정규화한 후 다운 샘플링하여 다음 인코딩 블록으로 전달하고,
    디코딩 블록은,
    인코더의 출력을 업 샘플링하고, 업 샘플링 결과와 인코딩 블록의 정규화 결과를 입력받아 컨볼루션 레이어로 처리한 후 공간적으로 정규화(Spatial Adaptive Normalization)하여 다음 디코딩 블록으로 전달하되,
    동일한 뎁스에 위치하는 인코딩 블록의 정규화 결과를 Skip Connection으로 입력받고,
    인코딩 블록과 디코딩 블록의 정규화 블록은,
    컨볼루션 블록의 출력을 다수의 컨볼루션 레이어들로 처리하여 인코딩하는 로컬 인코딩 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제1 공간적 가중치 파라미터를 추출하는 제1 컨볼루션 블록;
    로컬 인코딩 블록의 출력을 컨볼루션 레이어로 처리하여, 제2 공간적 가중치 파라미터를 추출하는 제2 컨볼루션 블록;
    컨볼루션 블록의 출력을 배치 정규화(Batch Normalization)하는 제1 정규화 블록;
    제1 컨볼루션 블록과 제2 컨볼루션 블록에서 추출된 제1 공간적 가중치 파라미터와 제2 공간적 가중치 파라미터를 이용하여, 제1 정규화 블록의 출력을 공간적으로 정규화하는 제2 정규화 블록;을 포함하며,
    로컬 인코딩 블록에서 출력되는 정보의 Spatial size는,
    로컬 인코딩 블록에 입력되는 정보의 Spatial size와 동일한 것을 특징으로 하는 영상 영역 분할 방법.
KR1020200092125A 2020-07-24 2020-07-24 Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템 KR102532006B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200092125A KR102532006B1 (ko) 2020-07-24 2020-07-24 Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템
US17/126,299 US11605167B2 (en) 2020-07-24 2020-12-18 Image region segmentation method and system using self-spatial adaptive normalization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200092125A KR102532006B1 (ko) 2020-07-24 2020-07-24 Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20220013090A KR20220013090A (ko) 2022-02-04
KR102532006B1 true KR102532006B1 (ko) 2023-05-12

Family

ID=80267751

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200092125A KR102532006B1 (ko) 2020-07-24 2020-07-24 Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템

Country Status (2)

Country Link
US (1) US11605167B2 (ko)
KR (1) KR102532006B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102573201B1 (ko) * 2022-08-19 2023-09-01 (주)에이아이매틱스 이미지 재건 기술 기반 영상 통신 비용 절감 시스템 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474464B2 (en) * 2017-07-05 2019-11-12 Deep Vision, Inc. Deep vision processor
US10986356B2 (en) * 2017-07-06 2021-04-20 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
US11190784B2 (en) * 2017-07-06 2021-11-30 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
CA3095109A1 (en) * 2018-03-23 2019-09-26 Memorial Sloan Kettering Cancer Center Deep encoder-decoder models for reconstructing biomedical images
WO2020165913A1 (en) * 2019-02-12 2020-08-20 Tata Consultancy Services Limited Automated unsupervised localization of context sensitive events in crops and computing extent thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dinthisrang Daimary외 3인, "Brain Tumor Segmentation from MRI Images using Hybrid Convolutional Neural Networks", Procedia Computer Science, vol.167, pp.2419~2428, (2020.04.16.) 1부.*
Taesung Park외 3인, "Semantic Image Synthesis with Spatially-Adaptive Normalization", 2019IEEE/CVF Conference on CVPR, pp.2332~2341, (2019.06.20.) 1부.*

Also Published As

Publication number Publication date
US20220028084A1 (en) 2022-01-27
KR20220013090A (ko) 2022-02-04
US11605167B2 (en) 2023-03-14

Similar Documents

Publication Publication Date Title
EP3961500B1 (en) Medical image detection method based on deep learning, and related device
WO2019120110A1 (zh) 图像重建方法及设备
CN111311613B (zh) 图像分割模型训练方法、图像分割方法及装置
WO2022062344A1 (zh) 压缩视频的显著性目标检测方法、系统、设备及存储介质
Zhang et al. Attention-guided image compression by deep reconstruction of compressive sensed saliency skeleton
US20230177698A1 (en) Method for image segmentation, and electronic device
CN111242952B (zh) 图像分割模型训练方法、图像分割方法、装置及计算设备
WO2023082453A1 (zh) 一种图像处理方法及装置
CN114445904A (zh) 基于全卷积神经网络的虹膜分割方法和装置、介质和设备
WO2021139351A1 (zh) 图像分割方法、装置、介质及电子设备
KR102532006B1 (ko) Self-Spatial Adaptive Normalization 기법을 적용한 영상 영역 분할 방법 및 시스템
CN113487587B (zh) CT图像分割与骨密度t值预测方法、系统、计算机设备
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
CN114926479A (zh) 图像处理方法及装置
WO2022246724A1 (zh) 点云解码、上采样及模型训练方法与装置
CN111507950B (zh) 图像分割的方法和装置、电子设备及计算机可读存储介质
US20230334698A1 (en) Methods and systems for positioning in an medical procedure
CN108961161A (zh) 一种图像数据处理方法、装置和计算机存储介质
CN111275719B (zh) 钙化假阳识别及其模型训练的方法、装置、终端及介质
CN114332128A (zh) 医学图像处理方法及其装置、电子设备和计算机存储介质
Luo et al. Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection
KR20210026996A (ko) 컨텍스트 정보 추출 방법 및 장치
CN117556077B (zh) 文本图像模型的训练方法、相关方法及相关产品
Athreya et al. Ultrasound Image Enhancement using CycleGAN and Perceptual Loss
US20240312169A1 (en) Method and system for image processing

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant