KR20200131417A - 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램 - Google Patents

이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20200131417A
KR20200131417A KR1020190056000A KR20190056000A KR20200131417A KR 20200131417 A KR20200131417 A KR 20200131417A KR 1020190056000 A KR1020190056000 A KR 1020190056000A KR 20190056000 A KR20190056000 A KR 20190056000A KR 20200131417 A KR20200131417 A KR 20200131417A
Authority
KR
South Korea
Prior art keywords
feature map
resolution
map
low
image segmentation
Prior art date
Application number
KR1020190056000A
Other languages
English (en)
Other versions
KR102215757B1 (ko
Inventor
이승룡
캄 하오 후아
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020190056000A priority Critical patent/KR102215757B1/ko
Priority to US16/584,572 priority patent/US11145061B2/en
Priority to JP2019211447A priority patent/JP6890345B2/ja
Publication of KR20200131417A publication Critical patent/KR20200131417A/ko
Application granted granted Critical
Publication of KR102215757B1 publication Critical patent/KR102215757B1/ko
Priority to US17/497,875 priority patent/US11600001B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램에 관한 것이다. 본 발명은 이미지 세그멘테이션 장치에 있어서, 하나 이상의 잔차 블록을 포함하는 인공 신경망을 이용하여 입력 이미지에 대해 해상도가 상이한 복수의 특징맵을 획득하는 인코딩 모듈, 상기 복수의 특징맵 중 인접한 특징맵 쌍들을 이용하여 하나의 예측맵을 생성하는 디코딩 모듈을 포함하고, 상기 디코딩 모듈은 한 번 이상의 디코딩 라운드를 수행하며, 각 디코딩 라운드는 이전 라운드에서 생성된 특징맵 중 인접한 특징맵 한 쌍 중 높은 해상도를 갖는 고해상도 특징맵과 낮은 해상도를 갖는 저해상도 특징맵을 이용하여 결합 특징맵을 생성하는 ATF 모듈을 하나 이상 포함하고, 상기 디코딩 라운드는 상기 하나의 예측맵이 생성될 때까지 반복 수행되는 것을 일 특징으로 한다. 본 발명에 의하면, 로컬 정보와 글로벌 컨텍스트를 균형있게 결합할 수 있다.

Description

이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램{METHOD, APPARATUS AND COMPUTER PROGRAM FOR IMAGE SEGMENTATION}
본 발명은 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램에 관한 것으로 보다 자세하게는 자율 주행, 증강 현실 등과 같이 지각(perception)과 관련된 응용 프로그램에 효율적으로 적용될 수 있는 의미론적(semantic) 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.
지난 몇 년 동안 컴퓨터 리소스 및 시각적 데이터의 양이 엄청나게 증가하면서 컴퓨터 비전 분야에서 딥러닝이 집중적으로 활용되었다. 가장 잘 알려진 딥러닝 분야 중 하나인 컨볼루셔널 인공 신경망(CNN: Convolutional Neural Networks, 이하 ‘CNN’이라 함)는 전반적인 콘텐츠 분류의 다양한 문제에서 중요한 성능 향상을 이끌어냄으로써 많은 연구자들에게 활용되었다.
대규모 이미지 인식을 위한 심층 컨볼루셔널 네트워크(선행문헌 1)은 이미지 레벨에서는 분류(classification)로 불리는 반면, 의미론적 심층 컨볼루셔널 네트워크(선행문헌 2)는 픽셀 수준에서 동일한 작업을 수행함으로써 한걸음 더 나아갔다고 하여 의미론적 세분화(semantic segmentation)라고 불린다.
증강 현실, 컴퓨터 사진 촬영, 자율 주행과 같은 최근의 인식 관련 응용 프로그램의 급속한 발전은 주어진 장면을 더 포괄적으로 이해하기 위해 픽셀 단위의 분류 성능을 필요로 하고 있기 때문에, 이러한 픽셀 단위의 라벨링 문제는 공개된 연구 영역으로 남아있다.
일반적으로 이러한 픽셀 단위의 그룹화 문제를 해결하기 위해 대부분의 기존 연구는 VGGNet과 같은 이미지를 분류하기 위해 주로 설계된 CNN을 이용한다(선행문헌 3). 구체적으로, 얕은 레이어는 원본 입력의 부분 보기로 인해 세밀하게 패턴화되었지만 의미론적 특성을 약하게 학습하는 반면, 깊은 레이어는 추상적인 모양 즉, 거친 패턴을 나타내는 특징맵을 얻지만 복수의 서브샘플링 단계와 입력 이미지에 대한 더 넓은 시야로 인해 관심 영역에 대해 의미론적으로 풍부한 정보를 제공할 수 있다. 다시 말해 학습 된 지형지도의 공간 해상도가 점차적으로 감소하는 CNN의 피드 포워딩 프로세스 이후에 해당 채널의 차원이 크게 증가하면서 로컬 및 글로벌 컨텍스트 정보가 연속적으로 추출된다. 따라서 의미론적 세그멘테이션 문제는 어떻게 입력과 동일한 크기를 가지며 밀도있게 라벨링된 출력을 생성하는지, 즉 최적의 업샘플링 전략의 설계에 있다고 할 수 있다. 최적의 업샘플링 전략을 찾기 위해서는 로컬 정보(미세 패턴화된 특징)를 백본 CNN의 얕은 레이어에서 깊은 레이어까지 전 레이어로부터 획득한 글로벌 컨텍스트(의미론적으로 풍부한 특징)와 균형있게 결합할 수 있는 방법을 찾아야 한다.
선행문헌 1: K. Simonyan and A. Zisserman: ‘Very deep convolutional networks for large-scale image recognition,’ CoRR, vol. abs/1409.1556, 2014 선행문헌 2: L. C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, ‘Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,’ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 4, pp. 834-848, April 2018. 선행문헌 3: Simonyan and A. Zisserman: ‘Very deep convolutional networks for large-scale image recognition,’ CoRR, vol. abs/1409.1556, 2014. 선행문헌 4: K. He, X. Zhang, S. Ren, and J. Sun, ‘Deep residual learning for image recognition,’ in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016, pp. 770-778
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 로컬 정보와 글로벌 컨텍스트를 균형있게 결합할 수 있는 방법을 제공하는 것을 일 목적으로 한다.
또한 본 발명은 의미론적으로 풍부한 정보가 세그멘테이션에 활용될 수 있도록 함으로써 이미지 내 객체 식별의 정확도를 향상시킬 수 있는 새로운 방법을 제공하는 것을 다른 목적으로 한다.
또한 본 발명은 CNN 디코딩 모듈(11)의 구조로 신규한 브라켓 구조를 제안함으로써, 의미론적으로 풍부한 정보를 미세하게 패터닝된 특징과 적절히 통합하고, 엔드 투 엔드 학습을 효과적으로 수행할 수 있는 진일보한 기술을 제공하는 것을 다른 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 이미지 세그멘테이션 장치에 있어서, 하나 이상의 잔차 블록을 포함하는 인공 신경망을 이용하여 입력 이미지에 대해 해상도가 상이한 복수의 특징맵을 획득하는 인코딩 모듈, 상기 복수의 특징맵 중 인접한 특징맵 쌍들을 이용하여 하나의 예측맵을 생성하는 디코딩 모듈을 포함하고, 상기 디코딩 모듈은 한 번 이상의 디코딩 라운드를 수행하며, 각 디코딩 라운드는 이전 라운드에서 생성된 특징맵 중 인접한 특징맵 한 쌍 중 높은 해상도를 갖는 고해상도 특징맵과 낮은 해상도를 갖는 저해상도 특징맵을 이용하여 결합 특징맵을 생성하는 ATF 모듈을 하나 이상 포함하고, 상기 디코딩 라운드는 상기 하나의 예측맵이 생성될 때까지 반복 수행되는 것을 일 특징으로 한다.
또한 본 발명의 ATF 모듈은 상기 저해상도 특징맵을 업샘플링(upsampling) 한 업샘플링 저해상도 특징맵과 상기 고해상도 특징맵을 결합하여 상기 결합 특징맵을 생성하는 것을 일 특징으로 한다.
또한 본 발명의 ATF 모듈은 상기 저해상도 특징맵을 업샘플링하는 업샘플링부, 상기 저해상도 특징맵에 복수의 활성 함수 레이어를 적용하여 상기 저해상도 특징맵의 컨텍스트 정보를 수집하고, 이를 이용하여 상기 고해상도 특징맵을 재조정하는 재조정부, 상기 고해상도 특징맵과 상기 재조정된 고해상도 특징맵과 상기 업샘플링된 저해상도 특징맵을 합산하는 합산부를 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 로컬 정보와 글로벌 컨텍스트를 균형있게 결합할 수 있다.
또한 본 발명에 의하면, 의미론적으로 풍부한 정보가 세그멘테이션에 활용될 수 있어, 이미지 내 객체 식별의 정확도를 향상시킬 수 있다.
또한 CNN 디코딩 모듈(11)의 구조로 신규한 브라켓 구조를 사용하는 본 발명에 의하면, 의미론적으로 풍부한 정보를 미세하게 패터닝된 특징과 적절히 통합할 수 있으며, 엔드 투 엔드 학습을 효과적으로 수행할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 장치를 도시한 도면,
도 2는 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 방법을 설명하기 위한 도면,
도 3은 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 장치를 설명하기 위한 도면,
도 4는 본 발명의 일 실시 예에 따른 이미지 세그멘테이션의 디코딩 단계에서 결합 특징맵을 생성하는 ATF(Attention-embedded Threefold Fusion) 모듈을 설명하기 위한 도면,
도 5는 본 발명의 일 실시 예에 따른 ATF 모듈과 네트워크의 통합 방법을 설명하기 위한 도면이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 발명은 독특한 구조(architecture)를 갖는 컨볼루션 인공 신경망을 사용한다. 본 명세서에서 본 발명의 일 실시 예에 따른 컨볼루션 인공 신경망을 브라켓 스타일 컨볼루션 인공 신경망(Bracket-Style Convolutional Neural Networks)이라고 명명하며, 설명의 편의를 위해 이하에서는 B-Net이라 한다.
도 1은 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 장치를 도시한 도면이다. 도 1을 참조하면, 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 장치는 입력부(30), 제어부(50), 저장부(70), 출력부(90)를 포함할 수 있다.
입력부(30)는 이미지를 입력 받을 수 있다. 제어부(50)는 프로세서로, 본 발명의 일 실시 예에 따른 이미지 세그멘테이션을 수행할 수 있다. 제어부(50)의 동작에 대한 구체적인 실시 예는 도 3을 참조하여 후술하기로 한다.
저장부(70)는 본 발명의 일 실시 예에 따른 다수의 이미지를 이용하여 기 학습된 기계학습 프레임워크를 저장할 수 있으며, 입력 데이터 및 출력 데이터를 저장할 수 있다.
출력부(90)는 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 결과를 출력할 수 있다. 출력부(90)는 입력 이미지의 세그멘테이션 결과를 사용자 인터페이스를 통해 제공할 수 있다. 픽셀 별 레이블, 객체 별 레이블 정보가 결과로 제공될 수 있으며, 각 객체(세그멘트)들은 분류 및 레이블링 결과에 따라 서로 다른 색으로 표시될 수 있다. 이는 미리 설정된 값에 의하며, 설정값은 사용자에 의해 생성되어 저장부(70)에 저장될 수 있다.
도 2는 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 방법을 설명하기 위한 도면이다. 도 2를 참조하면, 프로세서는 이미지가 입력되면(S100) 컨볼루션 레이어와 하나 이상의 잔차 블록을 포함하는 피드 전송 인공 신경망을 이용하여 입력 이미지에 대해 해상도가 상이한 복수의 특징맵을 획득할 수 있다(S200).
해상도가 상이한 복수의 특징맵은 피드 전송 인공 신경망을 구성하는 컨볼루션 레이어 또는 하나 이상의 잔차 블록에서 출력되는 특징맵으로, 잔차 블록에서 출력되는 특징맵은 잔차 블록의 입력맵과 입력맵을 필터링한 결과를 합산한 것일 수 있다.
프로세서는 복수의 특징맵에서 인접한 특징맵 한 쌍을 그룹핑하고, 특징맵 쌍 중에서 상대적으로 높은 해상도를 갖는 고해상도 특징맵과 상대적으로 낮은 해상도를 갖는 저해상도 특징맵을 구분할 수 있다. 프로세서는 저해상도 특징맵을 업샘플링(upsampling) 하여 제2 업샘플링 특징맵을 생성하고, 고해상도 특징맵과 저해상도 특징맵을 결합하여 결합 특징맵을 생성할 수 있다(S300).
도면에 도시되지는 않았으나, 보다 구체적으로 단계 300에서 프로세서는 저해상도 특징맵을 업샘플링하고(S330), 해상도 특징맵에 복수의 활성 함수 레이어를 적용하여 상기 저해상도 특징맵의 컨텍스트 정보를 수집하고, 이를 이용하여 상기 고해상도 특징맵을 재조정하고(S350), 고해상도 특징맵과 상기 재조정된 고해상도 특징맵과 상기 업샘플링된 저해상도 특징맵을 합산(S370)할 수 있다.
프로세서는 결합 특징맵 생성 단계의 출력으로 하나의 예측맵이 산출될 때까지 재귀적으로 단계 300 내지 500을 반복 수행할 수 있다. 여기서 재귀적으로 단계 300 내지 500을 반복 수행한다는 것은, 단계 300에서 생성된 결합 특징맵(출력)을 입력으로 하여 단계 300~400을 반복 수행하는 것을 의미한다. 즉, 생성된 결합 특징맵은 단계 300에서의 업샘플링 및 결합의 대상이 되는 고해상도 특징맵 및 저해상도 특징맵 쌍으로 취급될 수 있다.
단계 300 내지 500의 반복 수행 결과 하나의 예측맵이 산출된 경우, 프로세서는 예측맵을 이용하여 입력 이미지에 포함된 하나 이상의 객체를 분류할 수 있다. 보다 자세하게, 프로세서는 예측맵을 업샘플링하고(S600), 미리 정의된 클래스들을 이용하여 객체의 특성을 분류(예측)할 수 있다(S700). 단계 600에서 업샘플링된 최종 예측맵의 깊이(depth)는 훈련된 클래스의 수, 즉 기 정의된 클래스의 수와 동일한 것으로 이해될 수 있다. 또한 예측맵은 상기 복수의 특징맵 중 가장 높은 해상도를 갖는 특징맵과 동일한 해상도를 가질 수 있다.
단계 700에서 프로세서는 모든 픽셀을 업샘플링된 예측맵 즉, 최종 예측맵의 깊이 차원을 따라 가장 높은 값을 가진 클래스에 할당할 수 있다. 다시 말해서, 출력 이미지의 픽셀에 상기 최종 예측맵의 깊이 차원을 따라 가장 높은 값을 갖는 클래스를 레이블링함으로써 이미지의 세그멘테이션이 수행될 수 있다.
이하에서는 도 3을 참조하여 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 장치 및 이에 사용되는 컨볼루션 인공 신경망(B-Net)의 구조를 설명한다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 이미지 세그멘테이션 장치 제어부(50)는 인코딩 모듈(10)과 디코딩 모듈(11)을 포함할 수 있다.
B-Net의 인코딩 모듈(10)은 컨벌루션 레이어(102), 제1 잔차 블록(103), 제2 잔차 블록(104), 제3 잔차 블록(105), 제4 잔차 블록(106)을 포함할 수 있다.
인코딩 모듈(10)은 하나 이상의 잔차 블록을 포함하는 인공 신경망을 이용하여 입력 이미지에 대해 해상도가 상이한 복수의 특징맵을 획득할 수 있다. 이때 사용되는 인공 신경망은 피드 전송(feed-forward) 인공신경망으로, 피드-포워드 인공신경망은 정보 전달이 한 방향으로 고정되는 특징을 갖는다. 즉 도면에 도시된 바와 같이 제1, 제2, 제3 잔차 블록의 순으로 데이터가 처리될 수 있다.
인코딩 모듈(10)에서는 입력 이미지(10)에 대해 해상도가 상이한 복수의 특징맵(107 내지 111)이 산출될 수 있다. 특징맵들은 브라켓 구조를 갖는 디코딩 모듈(11)로 입력되며, 디코딩 모듈(11)은 본 발명의 일 실시 예에 따른 디코딩 과정을 거쳐 예측맵(117)을 생성할 수 있다.
본 발명의 디코딩 모듈(11)은 분류 기반 CNN의 임의의 모델에 쉽게 장착될 수 있다. 예를 들어, 인코딩 모듈(10)(backbone CNN)로 ImageNet 데이터셋을 기반으로 사전학습된 ResNet-101이 사용될 수 있다. ResNet에서 출력되는 특징맵은 모델 학습이 이루어지는 동안 정보 전달을 손쉽게 하기 위하여 컨볼루션 레이어 스택에 의해 필터링된 버전과 입력맵을 합산한 것에 의해 생성될 수 있다.
잔차 블록은 특별한 학습 블록으로, 잔차 블록에서 출력되는 특징맵은 잔차 블록에 입력되는 입력과, 모델 훈련 단계에서 정보 전파를 완화하기 위해 컨볼루션 레이어를 겹쳐서 필터링한 특징맵의 성분이 합쳐진 것일 수 있다.
피드 전송 프로세스를 따라 각 컨볼루션 레이어와 잔차 블록을 통해 채널 차원이 깊어지는 동안 이러한 특징의 공간 해상도(spatial resolution)은 절반으로 줄어들 수 있다. 예를 들어, 입력 이미지와 비교하여 컨벌루션 레이어에서 출력되는 특징맵(conv-1, 107)은 필터를 적용하는 간격인 스트라이드(stride)는 2, 깊이가 64이며({2, 64}로 표기한다.), 제1 잔차 블록에서 출력되는 특징맵(resmap-1, 108)은 {4, 256}, 제2 잔차 블록에서 출력되는 특징맵(resmap-2, 109)은 {8, 512}, 제3 잔차 블록에서 출력되는 특징맵(resmap-3, 110)은 {16, 1024}, 제4 잔차 블록에서 출력되는 특징맵(resmap-4, 111)은 {32,2048}의 스트라이드 및 깊이를 가질 수 있다. 다시 말해서, 인코딩 모듈(10)의 각 단계에서 입력 이미지(1)가 위에서 아래로 각 레이어(블록)을 거치면서, 더 차원이 깊어지고 해상도는 전 단계의 절반인 특징맵들이 산출될 수 있다.
디코딩 모듈(11)은 디코딩 모듈은 한 번 이상의 디코딩 라운드를 수행하는데, 각 디코딩 라운드는 이전 라운드에서 생성된 특징맵을 구성하는 인접한 특징맵 한 쌍 중 높은 해상도를 갖는 고해상도 특징맵과 낮은 해상도를 갖는 저해상도 특징맵을 이용하여 결합 특징맵(216)을 생성하는 ATF 모듈(112)을 하나 이상 포함할 수 있다. 이때 디코딩 라운드는 하나의 예측맵이 생성될 때까지 반복 수행될 수 있다.
ATF 모듈(112)은 저해상도 특징맵을 업샘플링하는 업샘플링부(202), 저해상도 특징맵에 복수의 활성 함수 레이어를 적용하여 저해상도 특징맵의 컨텍스트 정보를 수집하고, 이를 이용하여 고해상도 특징맵을 재조정하는 재조정부(204, 205, 206, 207, 209, 211), 고해상도 특징맵(210)과 재조정된 고해상도 특징맵(212)과 업샘플링된 저해상도 특징맵(203)을 합산하는 합산부(213)를 포함할 수 있다. 합산부(213, 215)는 합산된 결과물(214)에 적용되는 컨벌루션 레이어(215)를 더 포함할 수 있다. 컨벌루션 레이어가 적용된 ATF 모듈(112)의 최종 출력은 결합 특징맵(216)인 것으로 이해될 수 있다.
디코딩을 위해 특징맵들 중 가장 정밀한 해상도를 갖는 특징맵(conv-1, 107)을 제외한 모든 특징맵들은 인접한 특징맵의 고해상도 버전과 함께 어텐션 임베디드 3중 융합 모델(ATF, 112)을 통해 결합될 수 있으며, 해당 라운드 출력인 결합 특징맵의 차원은 도면에 도시된 바와 같이 상위 단계 특징맵의 해상도와 동일하다. 특히 중간 레이어의 특징맵, 예를 들어, 제0 라운드의 108 내지 110은 동시에 두가지 역할로 활용될 수 있다. 첫째, 중간 레이어의 특징맵은 자체 업샘플링(upsampling)에 의해 특정 레벨의 전역 컨텍스트(global context)를 최종 예측맵에 통합하고, 둘째, 더 미세하게 패턴화된 특징을 업샘플링된 버전의 더 낮은 해상도의 특징맵에 임베딩함으로써 풍부한 정보를 정제할 수 있다. 따라서 백본 CNN으로부터 주어진 n개의 특징맵이 첫 번째 라운드(113a)에서 n-1개의 출력(결합 특징맵)을 갖는 것은 자명하다.
이러한 루틴이 각 라운드에서 반복됨에 따라, 입력 이미지(1)의 공간 차원(spatial dimension)과 동일한 공간 차원을 갖는 예측맵(pixel-wise prediction map)이 산출될 때까지 의미론적 특징맵의 전체 개수는 각 라운드에서 하나씩 감소하며, 평균 공간 차원은 각 라운드 마다 증가한다.
구체적으로, r 번째 라운드의 i번째 특징맵을
Figure pat00001
이라고 할 때 r = 0,…, n-1, i= 0,…, n-r 이다. i = 1은 가장 높은 해상도를 갖는 특징맵을 나타내며, i = n-r은 가장 낮은 해상도를 갖는 특징맵을 나타낸다. 따라서,
Figure pat00002
은 최초 라운드(113a)에서 컨볼루션 레이어에서 출력된 특징맵(107)에 대응되며,
Figure pat00003
는 제4 잔차 블록에서 출력된 특징맵(111)에 대응된다. 다음 라운드에서의 특징맵은 다음 수학식 1에 따라 결정된다.
Figure pat00004
Figure pat00005
은 어텐션 임베디드 3중 융합 모델(ATF: Attention embedded Threefold Fusioning, 112)로 지칭하며(이하, ATF라 함), ATF에 대해서는 도 4를 참조하여 보다 상세하게 설명한다.
Figure pat00006
라운드까지(예를 들어, 도 3의 실시 예에서 최초에 백본 CNN에서 산출되는 특징맵의 개수 n=5 이므로 4번째 라운드(113b)) 의미적으로 풍부한 컨텍스트로 채워진 가장 미세한 패턴 특징들을 포함하는 예측된 클래스의 수와 동일한 깊이를 갖는 최종 예측맵(115)이 업샘플링 레이어(114)를 거쳐 획득될 수 있다(예측맵(115)과 원본 이미지(1)는 동일한 공간 크기를 가짐).
그리고 예측 블록(116)은 특징맵(115)에서 가장 높은 가중치를 갖는 클래스를 산출하는 것에 기초하여 최종 픽셀 기반의 레이블링된 맵(5)을 추론할 수 있다. 여기서 브라켓 구조에 의한 장점 두 가지가 나타난다. 하나는 모든 업샘플링된 특징맵이 항상 공간 크기의 관점에서 동일한 것으로 통합되기 때문에, 모호한 세부 사항이 상당히 억제될 수 있다는 점이다. 다른 하나는 디코딩 단계의 모든 라운드에서 고해상도 특징맵에서 저해상도 특징맵까지 전 특징맵들이 혼합되므로, 의미론적으로 풍부한 정보가 세밀하게 담긴다는 점이다.
본 발명의 B-Net에서 브라켓 구조의 디코딩 과정의 궁극적인 목적은 업샘플링을 활용하는 것이며, 이는 정밀하게 업샘플링된 특징맵이 많은 의미론적 정보를 가질 수 있기 때문이다. 이를 위해서는 업샘플링된 특징맵의 지역적 모호성을 정제하여야 하며, 본 발명은 인코딩 단계에서 학습된 특징맵에 잘 표현된 지식을 효과적으로 포함시킴으로써 많은 모델 설계에서 중요한 역할을 할 수 있을 것으로 기대된다.
본 발명의 일 실시 예에 따른 브라켓 구조의 디코딩 모듈(11) 성능을 효율적으로 이용하기 위하여, 도 4에 도시된 바와 같이 분리 가능한 컨볼루션 레이어에 의해 따라오는 ATF 모듈(112)를 정의할 수 있다. 보다 구체적으로 각각의 ATF 모듈(112)는 상이한 해상도를 갖는 두 입력으로부터 문맥 정보를 포괄적으로 수집한다. 즉, 첫째, 저해상도 입력(201)의 의미적으로 풍부한 특징을 가져올 수 있으며, 둘째, 고해상도의 입력(210)에서 저수준의 특징을 가져올 수 있으며, 셋째, 고해상도 입력(210)으로부터 더 정밀한 패턴을 갖는 특징을 직접 결합시킬 수 있다. 따라서 의미론적으로 풍부한 정보 뿐 아니라 피드백 방법으로 채널 단위의 의미 정보에 의해 잘 정리된 특징과 고해상도 입력에 대한 정밀한 패턴 특징을 모두 포함하여 의미론적으로 풍부한 컨텍스트 정보를 가질 수 있다.
첫번째 폴드(fold)에서 저해상도 입력(201)은 스트라이드는 2, 필터의 개수는 고해상도 입력(210)의 채널 차원과 동일한 값을 갖는 전치 컨벌루션 레이어(Transpose Convolution layer)(202)를 사용하여 업샘플링될 수 있다. 이에 대한 수학식은 다음과 같다.
Figure pat00007
이때
Figure pat00008
는 부분적으로 스트라이드된 컨볼루션 연산을 나타내며,
Figure pat00009
Figure pat00010
크기를 갖는 d/c 훈련 가능한 전치 컨벌루션 필터(trainable transposed convolution filter)이며,
Figure pat00011
는 업샘플링된 편향(bias) 파라미터이다. 이러한 과정은 네트워크가 전역 컨텍스트(globally contextual information) 정보를 정밀한 스케일로(203) 학습할 수 있도록 하여 추후 미세한 패턴 특징을 통합시킬 수 있도록 한다.
두 번째 폴드는 두 번째 폴드는 저해상도 특징맵(201)이 고해상도 특징맵(210)보다 깊이차원을 따라 훨씬 더 많은 유의미한 컨텍스트 정보를 갖고 있다는 사실에 따른 것이다. 재조정부는 저해상도 특징맵에 복수의 활성 함수 레이어를 적용하여 상기 저해상도 특징맵의 컨텍스트 정보를 수집하고, 이를 이용하여 상기 고해상도 특징맵을 재조정할 수 있으며, 상기 복수의 활성 함수 레이어는 전역 풀링(Global Pooling) 레이어, ReLU 레이어와 FC(Full Connected) 레이어를 포함하는 히든 레이어 또는 시그모이드 함수 중 적어도 하나를 포함할 수 있다.
깊이 기반의 attention 기법은 저해상도 입력의 채널들로부터 정보 속성을 수집하여 고해상도 입력의 깊이를 향상시킨다. 즉, 저해상도 입력(201)의 각 채널의 공간과 깊이 크기는 입력 이미지(원본 이미지) 크기의 1/(2x)이며, 이에 대한 길이 벡터 d는 채널 기반의 주요 정보를 갖는다. 수식은 다음과 같다.
Figure pat00012
이때 g(205)는 d의 결과 벡터이며,
Figure pat00013
는 전역 풀링 동작(Global pooling)(204)으로, 특징맵 f(201)의 d번째(
Figure pat00014
) 채널에서 수행되며, 수식은 다음과 같다.
Figure pat00015
위 수학식 4에서 (h, w)(h = 1, …, H와 w = 1, …, W)는
Figure pat00016
의 공간 분해능을 갖는 특징맵
Figure pat00017
의 픽셀 좌표이다. 결과적으로 저해상도 입력의 모든 채널은 d-길이 벡터 g(305)에서 자체 응답을 갖는다.
고해상도 입력의 각각의 채널의 중요도를 나타내기 위해 먼저 벡터 g(205)를 가운데(206)서 ReLU를 포함하는 두 개의 Fully Connected (FC) 레이어로 필터링하여 채널 간의 관계를 파악한다. 여기서 히든 레이어의 크기는 고해상도 입력의 채널 수와 동일하게 설정되며, 이러한 학습 연산은 다음 수식으로 나타낼 수 있다.
Figure pat00018
이 때 {
Figure pat00019
} 와 {
Figure pat00020
}은 각각 첫 번째와 두 번째 FC 레이어의 학습 가능한 파라미터이며,
Figure pat00021
(207) 은 d/c-길이의 특징 벡터로부터 산출된다.
이후 시그모이드(sigmoid) 활성화(208)가 수행되어 벡터
Figure pat00022
의 요소들의 크기를 0부터 1 사이로 재조정하며, 그 결과(209)는 깊이 단위에서 고해상도 입력(210)의 응답을 조정하기 위해 사용된다. 재조정된 출력(212)은 다음과 같다.
Figure pat00023
이 때
Figure pat00024
Figure pat00025
채널에 대응하는 특징맵(210) 이나 벡터(209)를 의미하며,
Figure pat00026
(211)는 요소 단위의 곱셈 연산자를 나타낸다.
의미론적으로 풍부한 정보는 첫 번째와 두 번째 폴드에서 다르게 사용되었으나 아직 여러 객체 클래스 간의 경계의 픽셀에는 모호함이 존재한다. 따라서 세 번째 폴드가 수행되는데, 여기서 세밀한 해상도가 그 자체로 입력된다. 즉 고해상도 특징 맵
Figure pat00027
(210)은 그 자체로 저해상도 업샘플링과 어텐션 스킴(attention scheme)이 정확하게 실행될 수 있도록 가이드하기 위해 로컬 디테일의 레퍼런스로서 직접적으로 연관된다.
마지막으로 세 개의 폴드(203, 212, 210) 에서 수행된 결과들이 하나로 합쳐져 (213) 최종 결과물(214)이 분리 가능한 컨벌루션 레이어(215)로 입력된다. 결국 새롭게 디코딩된 특징맵(216)은 고해상도 입력과 같은 크기를 가지지만 픽셀 단위에서 더 많은 의미론적 정보를 포함한다.
Figure pat00028
위 [수학식 7]에서 *와
Figure pat00029
(213) 는 각각 콘볼루션과 요소 단위의 합을 나타낸다.
Figure pat00030
[수학식 8]은
Figure pat00031
사이즈의 d/c 깊이 방향 필터와
Figure pat00032
사이즈의 필터를 가진 d/c 포인트 방향 필터의 순차적인 실행을 나타내며, 전체 특징맵에서 분리 가능한 컨벌루션 레이어(215)라고 명명할 수 있다.
ATF에서 정의된 분리 가능한 컨벌루션 레이어(215)는 ReLU 활성화, 분리가능한 컨벌루션, 그리고 배치 정규화 레이어(batch normalization layer)의 연속적인 동작을 수행한다. 이는 일반적인
Figure pat00033
콘볼루션 레이어를 사용하는 것보다 이전의 업샘플링 단계에서 야기되는 예기치 못한 인위적인 결과를 줄이고, 레이어별로 훈련 가능한 파라미터의 수를
Figure pat00034
에서
Figure pat00035
로 줄일 수 있어, 효율적으로 학습 능력을 유지할 수 있다.
이와 같이 본 발명의 일 실시 예에 따른 브라켓 구조를 포함하는 B-Net은 ATF 모듈과 함께 사용되어 백본 CNN의 레이어 전체로부터 획득한 지역 정보(세밀한 패턴 특징(210))와 전역 컨텍스트(의미론적으로 풍부한 특징(201))를 균형 있게 결합한다.
나아가, 도 5를 참조하여 2개의 인접한 ATF 모듈에서 상이한 역할을 수행하는 중간 레벨의 특징맵(
Figure pat00036
,301)을 살펴보자. ATF 모듈(112)에서
Figure pat00037
(302),
Figure pat00038
(301)은 학습가능한 전치 컨벌루션 레이어를 통해 출력을 더 세밀하게 표현하고, 잔여 입력
Figure pat00039
(204)을 조정하기 위한 attention 메커니즘을 통해 깊이 단위의 의미있는 정보에 기여한다. 한편, ATF 모듈에서
Figure pat00040
(303),
Figure pat00041
(301)은 미세하게 패턴화된 특징이 출력에 직접 기여하도록 하며, 신경망 유닛이 동시에 주의 특성 벡터에 의해 조정될 수 있도록 한다. 그 결과, 브라켓 구조의 네트워크와 ATF 연결의 결합 최고 해상도와 최저 해상도를 제외한 모든 중간 수준의 특징맵 활용을 가능하게 한다.
본 명세서에서 생략된 일부 실시 예는 그 실시 주체가 동일한 경우 동일하게 적용 가능하다. 또한, 전술한 본 발명은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (17)

  1. 피드 전송(feed-forward) 인공 신경망을 이용하여 입력 이미지에 대해 해상도가 상이한 복수의 특징맵을 획득하는 인코딩 단계;
    상기 복수의 특징맵에서 인접한 특징맵 한 쌍 중 높은 해상도를 갖는 고해상도 특징맵과 낮은 해상도를 갖는 저해상도 특징맵을 업샘플링(upsampling) 한 업샘플링 저해상도 특징맵을 결합하여 결합 특징맵을 생성하는 단계;
    상기 결합 특징맵 생성 단계의 출력으로 하나의 예측맵이 산출될 때까지 재귀적으로 상기 결합 특징맵 생성 단계를 반복 수행하는 디코딩 단계;
    상기 예측맵을 이용하여 상기 입력 이미지에 포함된 하나 이상의 객체를 분류하는 단계를 포함하는 이미지 세그멘테이션 방법.
  2. 제1항에 있어서,
    상기 결합 특징맵을 생성하는 단계는
    상기 저해상도 특징맵을 업샘플링하는 단계;
    상기 저해상도 특징맵에 복수의 활성 함수 레이어를 적용하여 상기 저해상도 특징맵의 컨텍스트 정보를 수집하고, 이를 이용하여 상기 고해상도 특징맵을 재조정하는 단계;
    상기 고해상도 특징맵과 상기 재조정된 고해상도 특징맵과 상기 업샘플링된 저해상도 특징맵을 합산하는 단계를 포함하는 이미지 세그멘테이션 방법.
  3. 제1항에 있어서,
    상기 해상도가 상이한 복수의 특징맵은
    상기 피드 전송 인공 신경망을 구성하는 컨볼루션 레이어 또는 하나 이상의 잔차 블록에서 출력되는 특징맵으로, 상기 잔차 블록에서 출력되는 특징맵은 상기 잔차 블록의 입력맵과 상기 입력맵을 필터링한 결과를 합산한 것인 이미지 세그멘테이션 방법.
  4. 제1항에 있어서,
    상기 예측맵은 상기 복수의 특징맵 중 가장 높은 해상도를 갖는 특징맵과 동일한 해상도를 갖는 이미지 세그멘테이션 방법.
  5. 제1항에 있어서,
    상기 객체를 분류하는 단계는,
    상기 예측맵을 업샘플링 하여 상기 입력 이미지와 동일한 크기의 최종 예측맵을 생성하는 단계;
    출력 이미지의 픽셀에 상기 최종 예측맵의 깊이 차원을 따라 가장 높은 값을 갖는 클래스를 레이블링하는 단계를 포함하는 이미지 세그멘테이션 방법.
  6. 하나 이상의 잔차 블록을 포함하는 인공 신경망을 이용하여 입력 이미지에 대해 해상도가 상이한 복수의 특징맵을 획득하는 인코딩 모듈;
    상기 복수의 특징맵 중 인접한 특징맵 쌍들을 이용하여 하나의 예측맵을 생성하는 디코딩 모듈을 포함하고,
    상기 디코딩 모듈은 한 번 이상의 디코딩 라운드를 수행하며,
    각 디코딩 라운드는 이전 라운드에서 생성된 특징맵을 구성하는 인접한 특징맵 한 쌍 중 높은 해상도를 갖는 고해상도 특징맵과 낮은 해상도를 갖는 저해상도 특징맵을 이용하여 결합 특징맵을 생성하는 ATF 모듈을 하나 이상 포함하고,
    상기 디코딩 라운드는 상기 하나의 예측맵이 생성될 때까지 반복 수행되는 것을 특징으로 하는 이미지 세그멘테이션 장치.
  7. 제6항에 있어서,
    상기 ATF 모듈은
    상기 저해상도 특징맵을 업샘플링(upsampling) 한 업샘플링 저해상도 특징맵과 상기 고해상도 특징맵을 결합하여 상기 결합 특징맵을 생성하는 이미지 세그멘테이션 장치.
  8. 제6항에 있어서,
    상기 업샘플링 저해상도 특징맵은
    다음 수학식을 이용하여 산출되는 이미지 세그멘테이션 장치
    [수학식]
    Figure pat00042

    Figure pat00043
    : 저해상도 특징맵
    Figure pat00044
    : 업샘플링 저해상도 특징맵
    Figure pat00045
    : 부분적으로 스트라이드된 컨볼루션 연산
    Figure pat00046
    :
    Figure pat00047
    크기를 갖는 d/c 훈련 가능한 전치 컨벌루션 필터(trainable transposed convolution filter)
    Figure pat00048
    :업샘플링된 편향(bias) 파라미터
  9. 제6항에 있어서,
    상기 ATF 모듈은
    상기 저해상도 특징맵을 업샘플링하는 업샘플링부;
    상기 저해상도 특징맵에 복수의 활성 함수 레이어를 적용하여 상기 저해상도 특징맵의 컨텍스트 정보를 수집하고, 이를 이용하여 상기 고해상도 특징맵을 재조정하는 재조정부;
    상기 고해상도 특징맵과 상기 재조정된 고해상도 특징맵과 상기 업샘플링된 저해상도 특징맵을 합산하는 합산부를 포함하는 이미지 세그멘테이션 장치.
  10. 제9항에 있어서,
    상기 합산부는
    상기 합산된 결과물에 적용되는 컨벌루션 레이어를 더 포함하는 이미지 세그멘테이션 장치.
  11. 제9항에 있어서,
    상기 복수의 활성 함수 레이어는
    전역 풀링(Global Pooling) 레이어, ReLU 레이어와 FC(Full Connected) 레이어를 포함하는 히든 레이어 또는 시그모이드 함수 중 적어도 하나를 포함하는 이미지 세그멘테이션 장치.
  12. 제11항에 있어서,
    상기 전역 풀링 레이어의 결과 벡터 g는 다음 수학식에 따라 산출되는 이미지 세그멘테이션 장치.
    [수학식]
    Figure pat00049

    Figure pat00050
    : 저해상도 특징맵의 d번째 채널에서 수행되는 전역 풀링 함수
    (h,w):
    Figure pat00051
    의 공간 분해능을 갖는 특징맵
    Figure pat00052
    의 픽셀 좌표(h = 1, …, H), (w = 1, …, W)
  13. 제9항에 있어서,
    상기 재조정부의 출력
    Figure pat00053
    은 다음 수학식에 대응되는 이미지 세그멘테이션 장치.
    [수학식]
    Figure pat00054

    Figure pat00055
    :
    Figure pat00056
    채널에 대응하는 특징맵
    Figure pat00057
    : 요소 단위의 곱셈 연산
    Sigmoid(
    Figure pat00058
    ): 시그모이드 함수
    Figure pat00059

    Figure pat00060
    : 첫 번째 FC 레이어의 학습 가능한 파라미터
    Figure pat00061
    : 두 번째 FC 레이어의 학습 가능한 파라미터
  14. 제9항에 있어서,
    상기 합산부는 다음 수학식에 따라 상기 결합 특징맵(
    Figure pat00062
    )을 산출하는 이미지 세그멘테이션 장치.
    [수학식]
    Figure pat00063

    Figure pat00064
    :
    Figure pat00065
    사이즈의 d/c 깊이 방향 필터와
    Figure pat00066
    사이즈의 필터를 가진 d/c 포인트 방향 필터의 순차적인 실행
    Figure pat00067
    : 상기 고해상도 특징맵
    Figure pat00068
    : 상기 재조정된 고해상도 특징맵
    Figure pat00069
    : 상기 업샘플링된 저해상도 특징맵
  15. 제6항에 있어서,
    상기 디코딩 모듈은
    상기 예측맵을 업샘플링하여 최종 예측맵을 생성하는 업샘플링 레이어를 더 포함하는 이미지 세그멘테이션 장치.
  16. 제15항에 있어서,
    출력 이미지의 픽셀에 상기 최종 예측맵의 깊이 차원을 따라 가장 높은 값을 갖는 클래스를 레이블링하는 예측 블록을 더 포함하는 이미지 세그멘테이션 장치.
  17. 하드웨어와 결합되어 제 1 항 내지 제 5 항의 방법 중 어느 하나의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 이미지 세그멘테이션 프로그램.
KR1020190056000A 2019-05-14 2019-05-14 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램 KR102215757B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020190056000A KR102215757B1 (ko) 2019-05-14 2019-05-14 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램
US16/584,572 US11145061B2 (en) 2019-05-14 2019-09-26 Image segmentation method, apparatus, and computer program to identify objects in images
JP2019211447A JP6890345B2 (ja) 2019-05-14 2019-11-22 画像セグメンテーション方法、装置およびコンピュータプログラム
US17/497,875 US11600001B2 (en) 2019-05-14 2021-10-08 Image segmentation method, apparatus, and computer program to identify objects in images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190056000A KR102215757B1 (ko) 2019-05-14 2019-05-14 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20200131417A true KR20200131417A (ko) 2020-11-24
KR102215757B1 KR102215757B1 (ko) 2021-02-15

Family

ID=73223286

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190056000A KR102215757B1 (ko) 2019-05-14 2019-05-14 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램

Country Status (3)

Country Link
US (2) US11145061B2 (ko)
JP (1) JP6890345B2 (ko)
KR (1) KR102215757B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220139541A (ko) * 2021-04-08 2022-10-17 조선대학교산학협력단 글로벌 어텐션을 이용한 영상 분할 방법 및 장치
KR20230146716A (ko) * 2022-04-13 2023-10-20 중앙대학교 산학협력단 이미지 매팅 방법 및 그 장치

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200137380A1 (en) * 2018-10-31 2020-04-30 Intel Corporation Multi-plane display image synthesis mechanism
CN110084309B (zh) * 2019-04-30 2022-06-21 北京市商汤科技开发有限公司 特征图放大方法、装置和设备及计算机可读存储介质
US11380023B2 (en) * 2020-03-18 2022-07-05 Adobe Inc. End-to-end relighting of a foreground object of an image
US11366624B2 (en) * 2020-03-30 2022-06-21 Kyocera Document Solutions Inc. Super-resolution convolutional neural network with gradient image detection
US11348336B2 (en) * 2020-05-13 2022-05-31 International Business Machines Corporation Systems and approaches for learning efficient representations for video understanding
CA3195077A1 (en) * 2020-10-07 2022-04-14 Dante DE NIGRIS Systems and methods for segmenting 3d images
CN112989919B (zh) * 2020-12-25 2024-04-19 首都师范大学 一种从影像中提取目标对象的方法及系统
CN112669285B (zh) * 2020-12-29 2022-03-08 中山大学 基于共享解码器和残差塔式结构的眼底图像血管分割方法
CN114764890A (zh) * 2020-12-30 2022-07-19 富泰华工业(深圳)有限公司 人行通道环境评估方法、装置及电子设备
CN112766099B (zh) * 2021-01-07 2022-06-07 武汉大学 一种从局部到全局上下文信息提取的高光谱影像分类方法
CN112768041B (zh) * 2021-01-07 2022-04-08 湖北公众信息产业有限责任公司 医疗云管平台
CN112734646B (zh) * 2021-01-19 2024-02-02 青岛大学 一种基于特征通道划分的图像超分辨率重建方法
CN112784856A (zh) * 2021-01-29 2021-05-11 长沙理工大学 胸部x射线图像的通道注意力特征提取方法和识别方法
CN112949651A (zh) * 2021-01-29 2021-06-11 Oppo广东移动通信有限公司 特征提取方法、装置、存储介质及电子设备
CN112861978B (zh) * 2021-02-20 2022-09-02 齐齐哈尔大学 一种基于注意力机制的多分支特征融合遥感场景图像分类方法
CN112861881A (zh) * 2021-03-08 2021-05-28 太原理工大学 一种基于改进MobileNet模型的蜂窝肺识别方法
CN113516133B (zh) * 2021-04-01 2022-06-17 中南大学 一种多模态图像分类方法及系统
CN112927173B (zh) * 2021-04-12 2023-04-18 平安科技(深圳)有限公司 模型压缩方法、装置、计算设备及存储介质
CN113326690A (zh) * 2021-04-17 2021-08-31 上海快确信息科技有限公司 一种半结构文本的信息提取装置
CN113223002A (zh) * 2021-05-07 2021-08-06 西安智诊智能科技有限公司 一种血管图像分割方法
CN113223001A (zh) * 2021-05-07 2021-08-06 西安智诊智能科技有限公司 一种基于多分辨率残差网络的图像分割方法
CN113240701B (zh) * 2021-06-03 2024-02-27 西北大学 一种非绿幕下的实时高分辨率戏曲人物抠图方法
CN113449784B (zh) * 2021-06-18 2024-04-05 宜通世纪科技股份有限公司 基于先验属性图谱的图像多分类方法、装置、设备及介质
CN113343943B (zh) * 2021-07-21 2023-04-28 西安电子科技大学 基于巩膜区域监督的眼部图像分割方法
CN113657383B (zh) * 2021-08-24 2024-05-24 凌云光技术股份有限公司 一种基于轻量化分割模型的缺陷区域检测方法及装置
CN113920099B (zh) * 2021-10-15 2022-08-30 深圳大学 一种基于非局部信息提取的息肉分割方法及相关组件
CN113887517B (zh) * 2021-10-29 2024-04-09 桂林电子科技大学 基于并行注意力机制的农作物遥感图像语义分割方法
CN114067116B (zh) * 2021-11-25 2024-05-17 天津理工大学 一种基于深度学习和权重分配的实时语义分割系统及方法
CN114972746B (zh) * 2022-04-13 2024-04-30 湖南大学 一种基于多分辨率重叠注意力机制的医学影像分割方法
CN115731243B (zh) * 2022-11-29 2024-02-09 北京长木谷医疗科技股份有限公司 基于人工智能及注意力机制的脊柱图像分割方法及装置
CN116206109B (zh) * 2023-02-21 2023-11-07 桂林电子科技大学 一种基于级联网络的肝脏肿瘤分割方法
CN116934847B (zh) * 2023-09-15 2024-01-05 蓝思系统集成有限公司 卸料方法、装置、电子设备及存储介质
CN117409208B (zh) * 2023-12-14 2024-03-08 武汉纺织大学 一种实时服装图像语义分割方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482639B2 (en) * 2017-02-21 2019-11-19 Adobe Inc. Deep high-resolution style synthesis
US10685429B2 (en) * 2017-02-22 2020-06-16 Siemens Healthcare Gmbh Denoising medical images by learning sparse image representations with a deep unfolding approach
JP6744838B2 (ja) * 2017-04-18 2020-08-19 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ExFuse: Enhancing Feature Fusion for Semantic Segmentation, The European Conference on Computer Vision (ECCV), 2018.* *
Pyramid Attention Network for Semantic Segmentation, Computer Science_Computer Vision and Pattern Recognition, 2018.11.* *
선행문헌 1: K. Simonyan and A. Zisserman: ‘Very deep convolutional networks for large-scale image recognition,’ CoRR, vol. abs/1409.1556, 2014
선행문헌 2: L. C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, ‘Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,’ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 4, pp. 834-848, April 2018.
선행문헌 3: Simonyan and A. Zisserman: ‘Very deep convolutional networks for large-scale image recognition,’ CoRR, vol. abs/1409.1556, 2014.
선행문헌 4: K. He, X. Zhang, S. Ren, and J. Sun, ‘Deep residual learning for image recognition,’ in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016, pp. 770-778

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220139541A (ko) * 2021-04-08 2022-10-17 조선대학교산학협력단 글로벌 어텐션을 이용한 영상 분할 방법 및 장치
KR20230146716A (ko) * 2022-04-13 2023-10-20 중앙대학교 산학협력단 이미지 매팅 방법 및 그 장치

Also Published As

Publication number Publication date
US11145061B2 (en) 2021-10-12
KR102215757B1 (ko) 2021-02-15
JP6890345B2 (ja) 2021-06-18
JP2020187721A (ja) 2020-11-19
US11600001B2 (en) 2023-03-07
US20200364870A1 (en) 2020-11-19
US20220058805A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
KR102215757B1 (ko) 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램
Bhat et al. Zoedepth: Zero-shot transfer by combining relative and metric depth
EP3803791B1 (en) Generating a displacement map of an input dataset pair of image or audio data
Cortinhal et al. Salsanext: Fast, uncertainty-aware semantic segmentation of lidar point clouds
US11954822B2 (en) Image processing method and device, training method of neural network, image processing method based on combined neural network model, constructing method of combined neural network model, neural network processor, and storage medium
US11328430B2 (en) Methods, systems, and media for segmenting images
Ren et al. Single image dehazing via multi-scale convolutional neural networks
CN108241854B (zh) 一种基于运动和记忆信息的深度视频显著性检测方法
CN110136067B (zh) 一种针对超分辨率b超影像的实时影像生成方法
JP2020507824A (ja) 電子装置及びその制御方法
CN114373094A (zh) 一种基于弱监督学习的门控特征注意力等变分割方法
CN104484886A (zh) 一种mr图像的分割方法及装置
CN116071300A (zh) 一种基于上下文特征融合的细胞核分割方法及相关设备
CN115841464A (zh) 基于自监督学习的多模态脑肿瘤影像分割方法
US20210279594A1 (en) Method and apparatus for video coding
JP2020204863A (ja) 学習装置、学習装置の作動方法、および学習装置の作動プログラム
CN116310334A (zh) 一种图像分割方法、装置、设备及可读存储介质
CN113255459A (zh) 一种基于图像序列的车道线检测方法
Arora et al. Fully convolutional network for depth estimation and semantic segmentation
Xu et al. Efficient Rural Building Segmentation via A Multi-level Decoding Network
Yang et al. ULSR-UV: an ultra-lightweight super-resolution networks for UAV video
Srivastava Enhancing the interpretability of neural networks for image fusion via per-pixel colorization
Wang Deep Attention Networks for Images and Graphs
Li et al. Lightweight image super-resolution network using 3D convolutional neural networks
Gao et al. DDformer: Dimension decomposition transformer with semi-supervised learning for underwater image enhancement

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant