KR20230041851A - 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법 - Google Patents

모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법 Download PDF

Info

Publication number
KR20230041851A
KR20230041851A KR1020210124495A KR20210124495A KR20230041851A KR 20230041851 A KR20230041851 A KR 20230041851A KR 1020210124495 A KR1020210124495 A KR 1020210124495A KR 20210124495 A KR20210124495 A KR 20210124495A KR 20230041851 A KR20230041851 A KR 20230041851A
Authority
KR
South Korea
Prior art keywords
map
local
loss
label
classifier
Prior art date
Application number
KR1020210124495A
Other languages
English (en)
Inventor
심현정
이승호
이민현
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020210124495A priority Critical patent/KR20230041851A/ko
Priority to US17/520,025 priority patent/US11798171B2/en
Priority to JP2021207591A priority patent/JP7214825B1/ja
Publication of KR20230041851A publication Critical patent/KR20230041851A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법에 관한 것으로, 상기 장치는 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성하는 로컬맵 생성부, 상기 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occurring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출하는 중요영역지도 처리부, 상기 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출하는 다중-레이블 처리부, 및 상기 중요영역 손실 및 상기 분류 손실을 기초로 상기 제1 분류기를 갱신한 제2 분류기를 생성하고 상기 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성하는 모조 마스크 생성부를 포함한다.

Description

모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법{WEAKLY SUPERVISED SEMANTIC SEGMENTATION DEVICE AND METHOD BASED ON PSEUDO-MASKS}
본 발명은 약지도 시맨틱 분할 기술에 관한 것으로, 보다 상세하게는 로컬맵(localization map)과 중요영역지도(saliency map)를 활용하여 약지도 학습 기반 시맨틱 분할의 성능을 향상시킬 수 있는 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법에 관한 것이다.
시맨틱 분할(Semantic Segmentation)이란, 이미지를 픽셀(pixel) 별로 분류하는 것이다. 즉, 각각의 픽셀이 어떤 클래스에 속하는지 분류하는 것이다.
도 1은 시맨틱 분할을 나타낸 예시도이다.
도 1을 보면, 완전지도 시맨틱 분할(Fully Supervised Semantic Segmentation; FSSS)의 경우에는 이미지 각 픽셀의 클래스 정보를 모두 학습하여 예측한다. 반면, 약지도 시맨틱 분할(Weakly Supervised Semantic Segmentation; WSSS)의 경우에는 이미지 수준 레이블만을 학습에 활용하고 이미지 각 픽셀의 클래스를 예측한다.
완전 지도 학습이란, 딥러닝을 통한 객체 인식 방법 중, 이미 만들어진 데이터 셋과 그 안에 포함되어 있는 객체의 위치에 대한 실제 정보를 같이 학습하는 방법이다. 약지도 학습이란, 학습 과정에서 이미지와 그에 대한 클래스 레이블만을 학습시켜 딥러닝 예측 모델을 생성하는 방법이다. 약지도 학습에서의 객체 검출 방법 중 CAM(Class Activation mapping)은 객체들의 차별적인 특징들을 컨벌루션 층에서 추출하고 시각화하여 객체를 찾아주는 방법이다.
완전지도 시맨틱 분할(FSSS)과 비교하여 약지도 시맨틱 분할(WSSS)는 픽셀 수준 레이블과 이미지 수준 레이블의 지도 정보 차이가 있기 때문에 다음과 같은 문제가 발생한다.
첫째, 로컬맵(localization map)이 목표 객체들의 작은 부분만 포착하는 희소한 객체 범위이다.
둘째, 로컬맵은 객체의 경계선이 불일치하는 문제를 겪는다.
셋째, 로컬맵은 목표 객체들과 동시 발생하는 픽셀들을 제대로 구분하지 못한다. 예컨대, 기차와 철로를 제대로 구분하지 못한다.
이러한 문제를 해결하기 위해, 기존 연구는 세가지 축으로 분류할 수 있다.
첫번째는 픽셀을 지우고 점수맵(score maps)을 앙상블하거나 자체 지도 신호를 사용하여 객체의 전체 범위를 포착하도록 객체 범위를 확장하는 접근 방식이다. 그러나, 객체의 모양을 안내할 단서가 없기 때문에 목표 객체의 정확한 객체 경계를 결정하지 못한다.
두번째는 모조 마스크(pseudo-masks)의 객체 경계를 개선하는 데 중점을 두는 접근 방식으로, 이는 객체 경계를 효과적으로 학습하여 경계까지 모조 마스크를 자연스럽게 확장한다. 그러나, 포그라운드와 백그라운드 사이의 강한 상관관계(즉, 동시 발생)는 귀납적 편견(즉, 목표 객체와 일치하는 픽셀을 관찰하는 빈도)과 거의 구별할 수 없기 때문에 여전히 비-목표 객체의 일치하는 픽셀을 목표 객체와 구별하지 못한다.
마지막으로, 세번째는 추가 실측 마스크(truth masks) 또는 중요영역지도를 사용하여 동시 발생 문제를 완화하는 것을 목표로 하는 접근 방식이다. 그러나, 약지도 학습 패러다임과는 거리가 먼 강력한 픽셀 수준 레이블이 필요하다.
한국등록특허 제10-2160224호 (2020.09.21)
본 발명의 일 실시예는 로컬맵(localization map)과 중요영역지도(saliency map)를 활용하여 약지도 학습 기반 시맨틱 분할의 성능을 향상시킬 수 있는 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 이미지 수준 레이블로 학습된 분류기로부터 계산된 로컬맵과 기성 중요영역(saliency) 탐지 모델로부터 획득한 중요영역지도의 상호 보완을 통해 서로 다른 객체들 및 경계선을 정확하게 구분할 수 있는 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 모조 마스크의 품질을 향상시킬 수 있는 새로운 약지도 시맨틱 분할(WSSS) 프레임워크를 제안하는 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법을 제공하고자 한다.
실시예들 중에서, 모조 마스크 기반 약지도 시맨틱 분할 장치는 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성하는 로컬맵 생성부, 상기 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occurring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출하는 중요영역지도 처리부, 상기 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출하는 다중-레이블 처리부, 및 상기 중요영역 손실 및 상기 분류 손실을 기초로 상기 제1 분류기를 갱신한 제2 분류기를 생성하고 상기 제2 분류기 및 상기 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성하는 모조 마스크 생성부를 포함한다.
실시예들 중에서, 모조 마스크 기반 약지도 시맨틱 분할 장치는 상기 모조 마스크를 기초로 상기 이미지의 객체 및 경계 식별을 수행하는 객체 인식부를 더 포함할 수 있다.
상기 로컬맵 생성부는 N 개(상기 N은 자연수)의 포그라운드 객체를 포함하는 포그라운드 로컬맵 및 단일의 백그라운드 객체를 포함하는 백그라운드 로컬맵을 상기 복수의 제1 로컬맵들로서 생성할 수 있다.
상기 중요영역지도 처리부는 포그라운드 로컬맵 및 백그라운드 로컬맵을 가중 연산하여 예측 중요영역지도를 생성하고 상기 예측 중요영역지도 및 실제 중요영역지도 간의 차이에 해당하는 상기 중요영역 손실을 결정할 수 있다.
상기 중요영역지도 처리부는 상기 예측 중요영역지도를 아래의 수학식을 통해 생성할 수 있다.
[수학식]
Figure pat00001
상기 Ms는 상기 예측 중요영역지도에 해당하며, 상기 Mfg는 상기 포그라운드 로컬맵에 해당하고, 상기 Mbg는 상기 백그라운드 로컬맵에 해당한다.
λ는 ∈ [0, 1]이고, 상기 포그라운드 로컬맵 및 상기 백그라운드 로컬맵의 인버전 간의 가중 합산을 조절하는 하이퍼파라미터이다.
상기 다중-레이블 처리부는 상기 복수의 제1 로컬맵들에 있는 포그라운드 로컬맵에 관한 이미지 레벨 레이블 및 해당 예측 간의 다중-레이블 마진 손실을 상기 분류 손실로서 산출할 수 있다.
상기 모조 마스크 생성부는 상기 중요영역 손실 및 상기 분류 손실을 합산한 전체 학습 손실을 산출하여 상기 제1 분류기를 갱신할 수 있다.
상기 모조 마스크 생성부는 상기 중요영역 손실 및 상기 분류 손실을 통한 조인트 학습으로 상기 모조 마스크를 생성하여 객체의 경계선을 식별하고 및 동시발생픽셀을 제거할 수 있다.
실시예들 중에서, 모조 마스크 기반 약지도 시맨틱 분할 방법은 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성하는 로컬맵 생성단계, 상기 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occurring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출하는 중요영역지도 처리단계, 상기 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출하는 다중-레이블 처리단계, 및 상기 중요영역 손실 및 상기 분류 손실을 기초로 상기 제1 분류기를 갱신한 제2 분류기를 생성하고 상기 제2 분류기 및 상기 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성하는 모조 마스크 생성단계를 포함한다.
실시예들 중에서, 모조 마스크 기반 약지도 시맨틱 분할 방법은 상기 모조 마스크를 기초로 상기 이미지의 객체 및 경계 식별을 수행하는 객체 인식단계를 더 포함할 수 있다.
상기 로컬맵 생성단계는 N개(상기 N은 자연수)의 포그라운드 객체를 포함하는 포그라운드 로컬맵 및 단일의 백그라운드 객체를 포함하는 백그라운드 로컬맵을 상기 복수의 제1 로컬맵들로서 생성할 수 있다.
상기 중요영역지도 처리단계는 포그라운드 로컬맵 및 백그라운드 로컬맵을 가중 연산하여 예측 중요영역지도를 생성하고 상기 예측 중요영역지도 및 실제 중요영역지도 간의 차이에 해당하는 상기 중요영역 손실을 결정할 수 있다.
상기 다중-레이블 처리단계는 상기 복수의 제1 로컬맵들에 있는 포그라운드 로컬맵에 관한 이미지 레벨 레이블 및 해당 예측 간의 다중-레이블 마진 손실을 상기 분류 손실로서 산출할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법은 로컬맵(localization map)과 중요영역지도(saliency map)를 활용하여 약지도 학습 기반 시맨틱 분할의 성능을 향상시킬 수 있다.
본 발명의 일 실시예에 따른 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법은 이미지 수준 레이블로 학습된 분류기로부터 계산된 로컬맵과 기성 중요영역(saliency) 탐지 모델로부터 획득한 중요영역지도의 상호 보완을 통해 서로 다른 객체들 및 경계선을 정확하게 구분할 수 있다.
본 발명의 일 실시예에 따른 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법은 모조 마스크의 품질을 향상시킬 수 있는 새로운 약지도 시맨틱 분할(WSSS) 프레임워크를 제안할 수 있다.
도 1은 시맨틱 분할을 나타낸 예시도이다.
도 2는 본 발명에 따른 모조 마스크 기반 약지도 시맨틱 분할 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 2의 약지도 시맨틱 분할 장치에 있는 프로세서의 기능적 구성을 설명하는 도면이다.
도 4는 도 3의 약지도 시맨틱 분할 장치에서 수행되는 모조 마스크 기반 약지도 시맨틱 분할 과정을 설명하는 순서도이다.
도 5는 본 발명에 따른 모조 마스크 기반 약지도 시맨틱 분할을 위한 전체 프레임워크를 설명하는 도면이다.
도 6은 본 발명에 따른 로컬맵 및 중요영역지도를 모두 사용한 경우를 설명하는 도면이다.
도 7은 예측 중요영역지도를 나타내는 예시도이다.
도 8은 본 발명에 따른 경계 포착의 정성적 예를 나타내는 도면이다.
도 9는 일 실시예에 따른 모사 마스크 기반 약지도 시맨틱 분할 결과의 정성적 예를 시각화한 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 2는 본 발명에 따른 모조 마스크 기반 약지도 시맨틱 분할 장치의 시스템 구성을 설명하는 도면이다.
도 2를 참조하면, 약지도 시맨틱 분할 장치(100)는 프로세서(110), 메모리(130), 사용자 입출력부(150) 및 네트워크 입출력부(170)를 포함하는 컴퓨팅 시스템으로 구성될 수 있다.
프로세서(110)는 약지도 시맨틱 분할 장치(100)가 동작하는 과정에서의 각 단계들을 처리하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(130)를 관리할 수 있으며, 메모리(130)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(110)는 약지도 시맨틱 분할 장치(100)의 동작 전반을 제어할 수 있고, 메모리(130), 사용자 입출력부(150) 및 네트워크 입출력부(170)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(110)는 약지도 시맨틱 분할 장치(100)의 CPU(Central Processing Unit)로 구현될 수 있다.
메모리(130)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 약지도 시맨틱 분할 장치(100)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.
사용자 입출력부(150)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(150)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(150)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 약지도 시맨틱 분할 장치(100)는 독립적인 서버로서 수행될 수 있다.
네트워크 입출력부(170)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.
도 3은 도 2의 약지도 시맨틱 분할 장치에 있는 프로세스의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 약지도 시맨틱 분할 장치(100)는 로컬맵 생성부(210), 중요영역지도 처리부(230), 다중-레이블 처리부(250), 모조 마스크 생성부(270) 및 객체 인식부(290)를 포함할 수 있다.
로컬맵 생성부(210)는 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성할 수 있다. 로컬맵 생성부(210)는 N개(N은 자연수)의 포그라운드 객체를 포함하는 포그라운드 로컬맵 및 단일의 백그라운드 객체를 포함하는 백그라운드 로컬맵을 복수의 제1 로컬맵들로서 생성할 수 있다. 여기에서, 제1 분류기는 컨볼루션 신경망(CNN) 구조로 구현되고 이미지를 통과시켜 각 클래스에 따른 제1 로컬맵들을 생성할 수 있다.
CNN 구조는 각 레이어의 입출력 데이터의 형상 유지, 복수의 필터로 이미지의 특징 추출 및 학습, 추출한 이미지의 특징들을 모으고 강화하는 폴링(pooling) 레이어로 일반 인공 신경망보다 적은 학습 파라미터를 갖는다. CNN은 이미지 특징 추출을 위하여 입력 데이터를 필터가 순회하며 컨볼루션을 계산하고, 그 계산 결과를 이용하여 특징 맵(feature map)을 생성한다. 특징 맵은 원본 이미지의 위치 정보를 내포할 수 있다.
중요영역지도 처리부(230)는 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occuring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출할 수 있다. 중요영역지도 처리부(230)는 포그라운드 로컬맵 및 백그라운드 로컬맵을 가중 연산하여 예측 중요영역지도를 생성할 수 있다. 여기에서, 중요영역지도 처리부(230)는 로컬맵 생성부(210)에서 생성된 제1 로컬맵을 사용하여 클래스(class) 정보가 없는 중요영역지도를 예측할 수 있다. 중요영역지도는 객체 경계를 보다 잘 나타낼 수 있는 객체 실루엣을 제공할 수 있다.
일 실시예에서, 중요영역지도 처리부(230)는 예측 중요영역지도를 아래의 수학식 1을 통해 생성할 수 있다.
[수학식 1]
Figure pat00002
여기에서, Ms는 예측 중요영역지도에 해당하며, Mfg는 포그라운드 로컬맵에 해당하고, Mbg는 백그라운드 로컬맵에 해당한다.
λ는 ∈ [0,1]이고, 포그라운드 로컬맵 및 백그라운드 로컬맵의 인버전 간의 가중 합산을 조절하는 하이퍼파라미터이다.
중요영역지도 처리부(230)는 예측 중요영역지도 및 실제 중요영역지도 간의 차이에 해당하는 중요영역 손실을 결정할 수 있다. 일 실시예에서, 중요영역지도 처리부(230)는 중요영역 손실을 아래의 수학식 2를 통해 산출할 수 있다.
[수학식 2]
Figure pat00003
여기에서,
Figure pat00004
는 중요영역 손실에 해당하며, Ms는 실제 중요영역지도에 해당하고,
Figure pat00005
는 예측 중요영역지도에 해당한다.
여기에서, 예측 중요영역지도 및 기성 중요영역 디텍터(saliency detector)로부터 얻은 실제 중요영역지도로 학습 지도를 위한 모조 마스크로 활용하고 경계선과 동시 발생 픽셀을 위한 단서로 활용할 수 있다.
다중-레이블 처리부(250)는 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출할 수 있다. 다중-레이블 처리부(250)는 기존 분류기와 동일하게 다중-레이블을 예측하기 위해서 다중-레이블 분류 기법을 사용할 수 있다. 다중-레이블 처리부(250)는 복수의 제1 로컬맵들에 있는 포그라운드 로컬맵에 관한 이미지 레벨 레이블 및 해당 예측 간의 다중-레이블 마진 손실을 분류 손실로서 산출할 수 있다.
일 실시예에서, 다중-레이블 처리부(250)는 분류 손실(classification loss)을 아래의 수학식 3을 통해 산출할 수 있다.
[수학식 3]
Figure pat00006
여기에서,
Figure pat00007
는 분류 손실에 해당하며, y 및
Figure pat00008
는 각각 복수의 제1 로컬맵들에 있는 포그라운드 로컬맵에 관한 이미지 레벨 레이블 및 해당 예측에 해당한다. σ(·)는 시그모이드 함수(sigmoid function)이다.
모조 마스크 생성부(270)는 중요영역 손실 및 분류 손실을 기초로 제1 분류기를 갱신한 제2 분류기를 생성하고 제2 분류기 및 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성할 수 있다. 모조 마스크 생성부(270)는 중요영역 손실 및 분류 손실을 합산한 전체 학습 손실을 산출하여 제1 분류기를 갱신할 수 있다. 여기에서, 모조 마스크 생성부(270)는 중요영역 손실 및 분류 손실을 결합하여 제1 분류기를 갱신한 최적화된 제2 분류기를 생성할 수 있다. 이때, 제2 분류기에 의한 복수의 제2 로컬맵들과 중요영역지도가 상호 보완 정보로 동반 상승효과를 낼 수 있다.
모조 마스크 생성부(270)는 중요영역 손실 및 분류 손실을 통한 조인트 학습으로 분할 네트워크를 학습하기 위한 모조 마스크를 생성하여 객체의 경계선을 식별하고 동시발생픽셀을 제거할 수 있다.
객체 인식부(290)는 모조 마스크를 기초로 이미지의 객체 및 경계 식별을 수행할 수 있다. 여기에서, 모조 마스크는 객체의 전체영역을 탐지하고 경계선이 정교해지며 동시발생픽셀 문제를 해소할 수 있다.
도 4는 도 3의 약지도 시맨틱 분할 장치에서 수행되는 모조 마스크 기반 약지도 시맨틱 분할 과정을 설명하는 순서도이다.
도 4를 참조하면, 약지도 시맨틱 분할 장치(100)는 로컬맵 생성부(210)를 통해 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성할 수 있다(단계 S410). 약지도 시맨틱 분할 장치(100)는 중요영역지도 처리부(230)를 통해 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occurring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출할 수 있다(단계 S430). 약지도 시맨틱 분할 장치(100)는 다중-레이블 처리부(250)를 통해 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출할 수 있다(단계 S450). 약지도 시맨틱 분할 장치(100)는 모조 마스크 생성부(270)를 통해 중요영역 손실 및 분류 손실을 기초로 제1 분류기를 갱신한 제2 분류기를 생성하고 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성할 수 있다(단계 S470). 약지도 시맨틱 분할 장치(100)는 객체 인식부(290)를 통해 모조 마스크를 기초로 이미지의 객체 및 경계 식별을 수행할 수 있다(단계 S490).
도 5는 본 발명에 따른 모조 마스크 기반 약지도 시맨틱 분할을 위한 전체 프레임워크를 설명하는 도면이다.
도 5에서, 본 발명은 기존의 약지도 시맨틱 분할(WSSS)이 갖는 희소한 객체 범위(Sparse object coverage), 경계선 불일치(Boundary mismatch) 및 동시 발생 문제(Co-occurrence problem)을 극복하기 위해 약지도 시맨틱 분할에서 중요영역지도(saliency map)를 모조 픽셀 지도로 통합하고 경계 및 동시발생픽셀에 대한 단서로 활용하여 픽셀 레벨 피드백 학습하는 일명 EPS(Explicit Pseudo-pixel Supervision)라는 새로운 WSSS 프레임워크를 나타내고 있다.
여기에서, 중요영역지도를 최대한 활용하기 위해 C 대상 클래스와 백그라운드 클래스로 구성되는 C+1 클래스를 예측하는 분류기를 설계하여 C+1 로컬맵 즉, 대상 레이블에 대한 C 로컬맵 및 백그라운드 로컬맵을 학습할 수 있다. C+1 로컬맵들은 백본(backbone) 네트워크에서 생성될 수 있고, 실제 중요영역지도는 기성 중요영역 탐지 모델에서 생성될 수 있다. 대상 레이블에 대한 일부 로컬맵들은 예측 중요영역지도를 생성하는 데 선택적으로 사용될 수 있다. 전체 프레임워크는 중요영역 손실 및 분류 손실과 함께 공동으로 훈련될 수 있다.
중요영역지도는 객체 경계를 보다 잘 나타낼 수 있는 객체 실루엣을 제공할 수 있다는 속성을 활용하여 경계 불일치를 관리할 수 있다. 즉, C 로컬맵에서 포그라운드 맵을 추정하고 중요영역지도의 포그라운드와 일치시키는 방식으로 대상 레이블에 대한 로컬맵에서 모조 픽셀 피드백을 수신하여 객체의 경계를 개선할 수 있다. 대상이 아닌 객체의 동시발생픽셀을 완화하기 위해 백그라운드 로컬맵도 중요영역지도와 일치시킬 수 있다. 백그라운드 로컬맵은 중요영역지도에서 모조 픽셀 피드백도 수신하므로 동시 발생 픽셀을 백그라운드에 성공적으로 할당할 수 있다. 대상이 아닌 객체의 동시 발생 픽셀은 대부분 백그라운드와 겹쳐진다. 이는 본 발명에서 대상 객체에서 동시 발생 픽셀을 분리할 수 있는 이유이다.
클래스 별 로컬맵들을 중요영역지도와 비교할 수 있도록 하기 위해 대상 레이블에 대한 로컬맵들을 병합하고 포그라운드 로컬맵
Figure pat00009
을 생성할 수 있다. 또한, 백그라운드 레이블에 대한 로컬맵인 백그라운드 로컬맵
Figure pat00010
의 인버전을 수행하여 포그라운드를 나타낼 수 있다.
중요영역지도는 포그라운드 로컬맵(Mfg) 및 백그라운드 로컬맵(Mbg)을 사용하여 예측할 수 있다. 중요영역 손실
Figure pat00011
은 예측 중요영역지도와 실제 중요영역지도 간의 픽셀 단위 차이의 합산으로 정의될 수 있다.
이전에는, 포그라운드 맵이 대상 레이블에 대한 로컬맵의 합집합이 될 수 있다고 가정하여 백그라운드 맵은 백그라운드 레이블의 로컬맵이 될 수 있었다. 그러나, 그러한 naive 선택 규칙은 기성 모델에 의해 계산된 중요영역지도와 호환되지 않을 수 있다. 즉, 중요영역지도는 종종 일부 객체를 중요영역 객체로 무시한다. 예를 들면, 기차 근처에 있는 작은 사람을 무시한다. 중요영역 모델은 서로 다른 데이터셋의 통계를 학습하기 때문에 이러한 시스템적 오류는 불가피하다. 이 오류를 고려하지 않으면 동일한 오류가 모델에 전파되어 성능 저하를 초래할 수 있다.
시스템적 오류를 해결하기 위해, 로컬맵와 중요영역지도 간의 중첩 비율을 사용할 수 있다. 구체적으로, i번째 로컬맵 Mi는 Mi가 τ% 이상 중요영역지도와 겹치면 포그라운드에 할당되고, 그렇지 않으면 백그라운드에 할당될 수 있다. 포그라운드 및 백그라운드 로컬맵은 아래의 수학식 4를 통해 생성될 수 있다.
[수학식 4]
Figure pat00012
여기에서,
Figure pat00013
는 바이너리 이미지 레벨 레이블에 해당하며,
Figure pat00014
는 Mi 및 Ms 간의 중첩비율을 계산하는 함수이다.
이를 위해, 먼저 로컬맵과 중요영역지도를 이진화한다. 픽셀 p에 대해
Figure pat00015
이면
Figure pat00016
, 그렇지 않으면.
Figure pat00017
Figure pat00018
는 각각
Figure pat00019
Figure pat00020
에 해당하는 이진화된 맵이다. 그런 다음,
Figure pat00021
Figure pat00022
사이의 중첩 비율, 즉
Figure pat00023
Figure pat00024
를 계산한다.
백그라운드 레이블에 대한 단일 로컬맵 대신 백그라운드 레이블에 대한 로컬맵을 포그라운드로 선택되지 않은 로컬맵과 결합한다. 이를 통해, 중요영역지도의 오류를 우회하고 중요영역지도에서 무시된 일부 객체를 효과적으로 훈련할 수 있다.
다음으로, 본 발명의 프레임워크에서 목적함수는 중요영역지도를 통한 중요영역 손실과 다중-레이블 분류 손실의 두 부분으로 공식화될 수 있다. 분류 손실(Classification loss)은 이미지 레벨 레이블
Figure pat00025
와 각 대상 클래스에 대한 로컬맵의 전역 평균 풀링 결과인 예측
Figure pat00026
사이의 다중-레이블 마진 손실에 의해 계산될 수 있다.
마지막으로, 총 훈련 손실은 다중 레이블 분류 손실과 중요영역 손실의 합이다. 즉,
Figure pat00027
이다.
중요영역 손실
Figure pat00028
은 대상 객체와 백그라운드를 포함하여 C+1 클래스의 매개 변수를 갱신하는 데 관여한다. 한편, 분류 손실
Figure pat00029
는 백그라운드 클래스를 제외하고 C 클래스에 대한 레이블 예측만 평가한다. 분류 손실
Figure pat00030
의 그래디언트는 백그라운드 클래스로 흐르지 않는다. 그러나, 백그라운드 클래스의 예측은 분류기 훈련을 지도하기 때문에 분류 손실
Figure pat00031
에 의해 암시적으로 영향을 받을 수 있다.
도 6은 본 발명에 따른 로컬맵 및 중요영역지도를 모두 사용한 경우를 설명하는 예시도이다.
도 6을 참조하면, (a) 사람, 기차, 차를 포함하는 이미지 실제(Groundtruth)이고, (b)는 PFAN를 통한 중요영역지도(Saliency map)이고, (c)는 CAM를 통한 로컬맵(Localization map)이고, (d)는 중요영역지도 및 로컬맵을 모두 사용한 본 발명에 따른 약지도 시맨틱 분할을 각각 나타낸다. (b) 및 (c)의 그림과 같이, 중요영역지도는 사람과 차를 캡처(capture)할 수 없고, 로컬맵은 두 객체를 과도하게 캡처한다. 즉, 로컬맵은 서로 다른 객체를 구분할 수 있지만 경계를 효과적으로 구분하지 못한다. 중요영역지도는 풍부한 경계정보를 제공하지만 객체의 정체성을 드러내지 못한다. 이에 대해, (d)의 그림과 같이 로컬맵 및 중요영역지도를 모두 사용하는 본 발명은 (a)의 그림과 같이 사람, 기차, 차를 정확하게 구분할 수 있다.
도 7은 예측 중요영역지도를 나타내는 예시도로, PASCAL VOC 2012에서 예측된 중요영역지도의 정성적 예이다.
도 7에서, (a)는 입력 이미지, (b)는 groundtruth, (c)는 중요영역지도(saliency maps) 그리고 (d)는 본 발명에서 예측된 중요영역지도이다.
본 발명에서는 두 객체를 조인트 훈련함으로써 로컬맵과 중요영역지도의 상호 보완 정보로 시너지 효과를 낼 수 있다. 즉, 도 7의 그림과 같이 서로의 잡음과 누락된 정보가 조인트 훈련 전략을 통해 보완되는 것을 볼 수 있다. 기성 모델에서 얻은 중요영역지도 (c)에는 누락된 정보와 잡음이 있는 정보가 있는 반면, 본 발명에서 예측된 중요영역지도 (d)에는 누락된 객체(보트 또는 의자)가 성공적으로 복원되고 잡음(물방울 또는 비행운)이 제거되었다. 결과적으로, 본 발명에서는 보다 정확한 객체 경계를 캡처하고 대상 객체에서 동시 발생 픽셀을 분리할 수 있는 장점이 있다. 이러한 장점은 시맨틱 분할의 정확도 측면에서 기존 모델 대비 최대 3.8~10.6% 향상됨을 보였다.
본 발명에서는 새롭게 제안한 약지도 시맨틱 분할 방식인 EPS에 대한 성능 실험을 하였습니다.
실험 설정
데이터 세트: PASCAL VOC 2012와 MS COCO 2014의 두 가지 인기있는 벤치마크 데이터 세트에 대한 실증적 연구를 수행하였다. PASCAL VOC 2012는 21개의 클래스(즉, 20개의 객체와 배경)로 구성되어 있으며 훈련, 검증 및 테스트 세트에 대해 각각 1,464, 1,449, 1,456개의 이미지가 있다. 시맨틱 분할의 일반적인 관행에 따라 10,582개의 이미지가 있는 증강 훈련 세트를 사용한다. 다음으로 COCO 2014는 학습 및 검증을 위한 82,081 및 40,137 이미지로 배경을 포함하여 81개의 클래스로 구성되며 대상 클래스가 없는 이미지는 제외된다. 일부 객체의 groundtruth 분할 레이블이 서로 겹치기 때문에 COCO-Stuff의 groundtruth 세분화 레이블을 채택하여 동일한 COCO 데이터 세트에서 겹치는 문제를 해결한다.
평가 프로토콜: PASCAL VOC 2012의 검증 및 테스트 세트와 COCO 2014의 검증 세트로 방법을 검증한다. PASCAL VOC 2012의 테스트 세트에 대한 평가 결과는 공식 PASCAL VOC 평가 서버에서 가져온다. 또한 분할 모델의 정확도를 측정하기 위해 평균 교차 결합(mIoU)을 채택했다.
구현 세부 정보: ResNet38을 출력 보폭이 8인 방법의 백본 네트워크로 선택했다. 모든 백본 모델은 ImageNet에서 사전 훈련되었다. 배치 크기가 8인 SGD 옵티마이저를 사용한다. 이 방법은 학습률 0.01(마지막 컨볼루션 계층의 경우 0.1)으로 20,000회 반복될 때까지 훈련된다. 데이터 증대를 위해 448Х448로 임의 크기 조정, 임의 뒤집기 및 임의 자르기를 사용한다. 분할 네트워크에는 DeepLab-LargeFOV(V1) 및 DeepLab-ASPP(V2) 및 VGG16을 채택한다. 그리고 그들의 백본 네트워크를 위한 ResNet101. 특히 VGG16 기반 DeepLab-V1 및 DeepLab-V2, ResNet101 기반 DeepLab-V1 및 DeepLab-V2의 4가지 분할 네트워크를 사용한다.
실험결과
1) 경계 및 동시 발생 처리
경계 불일치 문제: 모조 마스크의 경계를 검증하기 위해 경계의 품질을 최첨단 방법과 비교한다. PASCAL VOC 2011에서 경계 주석과 경계 벤치마크를 제공하는 SBD를 활용한다. 경계의 품질은 Laplacian 경계 감지기에서 모조 마스크의 경계를 계산함으로써 클래스-애그노스틱 방식으로 평가된다. 그런 다음 재현율, 정밀도 및 F1 점수를 측정하여 경계 품질을 평가하고 예측 경계와 실제 경계를 비교한다. 비교 결과는 아래 표 1과 같이, 본 발명이 3가지 평가지표 모두에서 다른 방법을 크게 능가함을 알 수 있다.
[표 1]
Figure pat00032
도 8은 본 발명에 따른 경계 포착의 정성적 예를 나타내는 도면이다.
도 8에서, (a)는 입력 이미지들, (b)는 groundtruth이고, (c)는 CAM, (d)는 SEAM, (e)는 ICD, (f)는 SGAN 그리고 (g)는 EPS 방식 별 모조 마스크에 대한 정성적 비교를 나타낸다.
도 8의 비교결과 그림에서 보아 알 수 있듯이, 본 발명에서 제시한 EPS 방식이 다른 모든 방법 보다 더 정확한 경계를 포착할 수 있다.
동시 발생 문제: 여러 연구에서 논의된 바와 같이 PASCAL VOC 2012에서 대상 객체와 함께 일부 백그라운드 클래스가 자주 나타나는 것을 관찰했다. 여기서는 PASCAL-CONTEXT 데이터 세트를 사용하여 동시 발생 객체의 빈도를 정량적으로 분석한다. 전체 장면(예: 물 및 철도)에 대한 픽셀 수준 주석을 제공한다. 3개의 동시 발생 쌍을 선택한다. 물이 있는 배, 레일에 있는 기차, 플랫폼에 있는 기차. 대상 클래스에 대한 인식모델 평가지표(IoU)와 대상 클래스와 일치하는 클래스 간의 혼동 비율을 비교한다. 혼동 비율은 일치하는 클래스가 대상 클래스로 잘못 예측된 정도를 측정한다. 혼동 비율
Figure pat00033
Figure pat00034
로 계산된다. 여기서
Figure pat00035
는 일치 클래스
Figure pat00036
에 대한 대상 클래스
Figure pat00037
로 잘못 분류된 픽셀 수이고
Figure pat00038
는 대상 클래스
Figure pat00039
에 대한 올바르게 분류된 픽셀의 수이다. 동시 발생 문제를 다루는 각각의 기존 방식과의 비교 결과는 하기 표 2와 같다.
[표 2]
Figure pat00040
표 2의 각 항목은 혼동 비율
Figure pat00041
로 낮을수록 좋고, 괄호 안의 IoU는 높을수록 좋다.
본 발명의 EPS가 기존 다른 방법 보다 일관되게 낮은 혼동율을 보여주고 있음을 알 수 있다. SGAN은 본 발명과 상당히 유사한 혼동률을 가지고 있지만, 본 발명은 IoU 측면에서 대상 클래스를 훨씬 정확하게 포착한다. SEAM은 CAM보다 혼동률이 높고 훨씬 더 나쁘다. SEAM은 대상 객체의 일치하는 픽셀에 쉽게 속는 자기지도훈련(self-supervised training)을 적용하여 대상 객체의 전체 범위를 커버하는 방법을 학습하기 때문입니다. 한편 CAM은 대상 객체의 가장 구별되는 영역만 포착하고 덜 구별되는 부분(예: 일치 클래스)은 다루지 않는다. 이는, 앞서 도 8의 그림에서도 볼 수 있다.
2) 맵 선택 전략의 효과
중요영역지도의 오류를 완화하기 위해 맵 선택 전략의 효율성을 평가한다. 맵 선택 모듈을 사용하지 않는 기준선과 세 가지 다른 맵 선택 전략을 비교한다. 기본 전략으로서 포그라운드 맵은 모든 객체 로컬맵의 통합이다. 백그라운드 맵은 백그라운드 클래스의 로컬맵과 같다(즉, 기본 전략). 다음으로, 다음과 같은 예외를 제외하고 naive 전략을 따른다. 미리 정의된 여러 클래스(예: 소파, 의자 및 식탁)의 로컬맵이 백그라운드 맵(즉, 사전 정의된 클래스 전략)에 할당된다. 마지막으로 제안하는 선택 방법은 앞서 설명한 것처럼 로컬맵과 중요영역지도 간의 중첩 비율을 활용한다(즉, 적응 전략).
아래 표 3은 적응 전략이 중요영역지도의 체계적인 편향을 효과적으로 처리할 수 있음을 보여준다.
[표 3]
Figure pat00042
표 3을 보면, navie 전략은 로컬맵에서 예측된 중요영역지도를 생성할 때 편향 고려 사항이 없음을 의미한다. 이 경우 특히 소파, 의자 또는 식탁 클래스에서 모조 마스크의 성능이 저하된다. 미리 정의된 클래스를 사용하는 성능은 중요영역지도에서 누락된 클래스를 무시함으로써 편향을 완화할 수 있음을 보여준다. 그러나 사람의 관찰자가 수동으로 선택해야 하므로 실용적이지 않고 이미지별로 최적의 결정을 내릴 수 없다. 한편, 본 발명의 적응 전략은 편향을 자동으로 처리하고 주어진 중요영역지도에 대해 보다 효과적인 결정을 내릴 수 있다.
3) 최신 기술과의 비교
모조 마스크의 정확도: 일반적인 관행인 서로 다른 스케일의 이미지에서 예측 결과를 집계하여 다중 스케일 추론을 채택한다. 그런 다음 EPS를 기준 CAM 및 세 가지 최신 방법인 SEAM, ICD 및 SGAN과 비교하여 기차 세트에서 모조 마스크의 정확도를 평가한다. 여기에서 기차 세트의 모조 마스크가 분할 모델을 지도하는 데 사용되기 때문에 기차 세트의 모조 마스크의 정확도를 측정하는 것은 WSSS의 일반적인 프로토콜이다.
표 4는 모조 마스크의 정확도를 요약하고 EPS 방법이 모든 기존 방법보다 큰 차이(즉, 7-21% 갭)로 분명히 능가함을 나타낸다.
[표 4]
Figure pat00043
이는 앞서 도 8의 그림에서도 EPS 방법이 객체 경계를 현저히 개선하고 모조 마스크의 품질 측면에서 세가지 다른 최신 방법보다 성능이 훨씬 우수함을 확인할 수 있다. 본 발명에 따른 EPS 방법은 객체의 정확한 경계를 포착할 수 있으므로 객체의 전체 범위를 자연스럽게 덮고 일치하는 픽셀도 완화할 수 있다.
분할 맵의 정확도: 이전 방법은 모조 마스크를 생성하고 CRF 후처리 알고리즘 또는 선호도 네트워크를 사용하여 개선한다. 한편, 앞서 표 5에서 볼 수 있듯이 생성된 모조 마스크는 충분히 정확하므로 모조 마스크에 대한 추가 개선 없이 분할 네트워크를 훈련한다. Pascal VOC 2012 데이터 세트의 4개 분할 네트워크에서 본 발명의 EPS 방법을 광범위하게 평가하고 다른 방법과 정확하게 비교하면, EPS 방법은 분할 네트워크에 관계없이 다른 방법을 훨씬 더 잘 수행할 수 있다.
표 5는 EPS 방법이 동일한 VGG16 백본을 사용하는 다른 방법보다 더 정확함을 나타낸다.
[표 5]
Figure pat00044
VGG16에 대한 EPS의 결과는 더 강력한 백본(예: ResNet101)을 기반으로 하는 다른 기존 방법과 비슷하거나 더 우수합니다. 이는 EPS 방법이 기존 방법보다 분명한 개선을 보여준다.
표 6은 PASCAL VOC 2012 데이터 세트에서 EPS 방법(중요영역지도가 있는 ResNet101 기반 DeepLabV1에서)이 새로운 최첨단 성능(검증의 경우 71.0, 테스트 세트의 경우 71.8)을 달성함을 보여준다.
[표 6]
Figure pat00045
기존의 최첨단 모델에 의해 달성된 이득이 약 1%임을 강조한 반면, 본 발명의 EPS 방법은 이전 최고 기록보다 3% 이상 높은 이득을 달성할 수 있다.
도 9는 일 실시예에 따른 모사 마스크 기반 약지도 시맨틱 분할 결과의 정성적 예를 시각화한 도면이다.
도 9에서, (a)는 입력 이미지들, (b)는 groundtruth이고, (c)는 분할 결과를 나타낸다. (c)의 분할 결과는 본 발명에서 제시한 EPS 방법이 정확한 경계를 제공하고 동시 발생 문제를 성공적으로 해결한다는 것을 확인할 수 있다.
아래 표 7은 MS COCO 2014에서 분할 결과이다.
[표 7]
Figure pat00046
MS COCO 2014 데이터 세트의 최신 WSSS 모델인 SGAN과 비교하기 위해 VGG16 기반 DeepLab-V2를 분할 네트워크로 사용한다. EPS 방법은 검증 세트에서 35.7 mIoU를 달성했으며 SGAN보다 1.9% 더 높았다. 결과적으로 COCO 2014 데이터 세트에서 새로운 최첨단 정확도를 달성했다. 두 데이터 세트의 기존 최첨단 기술에 대한 이러한 뛰어난 성능은 EPS 방법의 효율성을 확인시켜줄 수 있다. 로컬맵과 중요영역지도를 모두 활용하여 대상 객체의 전체 영역을 올바르게 포착하고 기존 모델의 단점을 보완할 수 있다.
중요영역 탐지 모델의 효과: 다른 중요영역 탐지 모델의 효과를 조사하기 위해 PFAN(기본값), OAA 및 ICD에서 사용되는 DSS, USPS(즉, 비지도 탐지 모델)의 세 가지 중요영역 모델을 채택했다. Resnet101 기반 DeepLab-V1에서 분할 결과(mIoU)는 각각 PFAN에서 71.0/71.8, DSS에서 70.0/70.1, USPS(검증 세트 및 테스트 세트)에서 68.8/69.9 이다. 이 점수는 세 가지 다른 중요영역 모델 중 하나를 사용하는 EPS가 앞서 표 6의 다른 모든 방법보다 여전히 더 정확하다는 것을 지원한다. 특히 비지도 중요영역 모델을 사용하는 EPS는 지도 중요영역 모델을 사용하는 모든 기존 방법보다 성능이 뛰어나다.
본 발명에서는 새롭게 모조 마스크 기반 약지도 시맨틱 분할 프레임워크(EPS)를 제안하여, 로컬맵과 중요영역지도 간의 상호 보완을 통해 중요영역지도 및 로컬맵이 조인트된 모조 픽셀 피드백 학습을 함으로써 잡음이나 누락된 정보를 보완할 수 있다. 따라서, 정확한 객체 경계를 포착하고 비대상 객체의 동시발생픽셀을 버릴 수 있어 모조 마스크의 품질을 크게 향상시킬 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 모조 마스크 기반 약지도 시맨틱 분할 장치
110: 프로세서 130: 메모리
150: 사용자 입출력부 170: 네트워크 입출력부
210: 로컬맵 생성부 230: 중요영역지도 처리부
250: 다중-레이블 처리부 270: 모조 마스크 생성부
290: 객체 인식부

Claims (13)

  1. 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성하는 로컬맵 생성부;
    상기 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occurring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출하는 중요영역지도 처리부;
    상기 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출하는 다중-레이블 처리부; 및
    상기 중요영역 손실 및 상기 분류 손실을 기초로 상기 제1 분류기를 갱신한 제2 분류기를 생성하고 상기 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성하는 모조 마스크 생성부를 포함하는 모조 마스크 기반 약지도 시맨틱 분할 (Weakly Supervised Semantic Segmentation) 장치.
  2. 제1항에 있어서,
    상기 모조 마스크를 기초로 상기 이미지의 객체 및 경계 식별을 수행하는 객체 인식부를 더 포함하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
  3. 제1항에 있어서, 상기 로컬맵 생성부는
    N 개(상기 N은 자연수)의 포그라운드 객체를 포함하는 포그라운드 로컬맵 및 단일의 백그라운드 객체를 포함하는 배경 레이블을 상기 복수의 제1 로컬맵들로서 생성하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
  4. 제1항에 있어서, 상기 중요영역지도 처리부는
    포그라운드 로컬맵 및 배경 레이블을 가중 연산하여 예측 중요영역지도를 생성하고 상기 예측 중요영역지도 및 실제 중요영역지도 간의 차이에 해당하는 상기 중요영역 손실을 결정하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
  5. 제4항에 있어서, 상기 중요영역지도 처리부는
    상기 예측 중요영역지도를 아래의 수학식을 통해 생성하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
    [수학식]
    Figure pat00047

    상기 Ms는 상기 예측 중요영역지도에 해당하며, 상기 Mfg는 상기 포그라운드 로컬맵에 해당하고, 상기 Mbg는 상기 배경 레이블에 해당함
    λ는 ∈ [0, 1]이고, 상기 포그라운드 로컬맵 및 상기 배경 레이블의 인버전 간의 가중 합산을 조절하는 하이퍼파라미터임
  6. 제1항에 있어서, 상기 다중-레이블 처리부는
    상기 복수의 제1 로컬맵들에 있는 포그라운드 로컬맵에 관한 이미지 레벨 레이블 및 해당 예측 간의 다중-레이블 마진 손실을 상기 분류 손실로서 산출하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
  7. 제1항에 있어서, 상기 모조 마스크 생성부는
    상기 중요영역 손실 및 상기 분류 손실을 합산한 전체 학습 손실을 산출하여 상기 제1 분류기를 갱신하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
  8. 제1항에 있어서, 상기 모조 마스크 생성부는
    상기 중요영역 손실 및 상기 분류 손실을 통한 조인트 학습으로 상기 모조 마스크를 생성하여 객체의 경계선을 식별하고 및 동시발생픽셀을 제거하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 장치.
  9. 이미지를 제1 분류기에 제공하여 복수의 제1 로컬맵들(localization maps)을 생성하는 로컬맵 생성단계;
    상기 복수의 제1 로컬맵들을 기초로 경계선 및 동시발생픽셀(co-occurring pixel)을 식별하는데 활용되는 중요영역지도(saliency map)를 통해 중요영역 손실을 산출하는 중요영역지도 처리단계;
    상기 복수의 제1 로컬맵들을 기초로 다중-레이블(multi-label)을 예측하여 분류 손실을 산출하는 다중-레이블 처리단계; 및
    상기 중요영역 손실 및 상기 분류 손실을 기초로 상기 제1 분류기를 갱신한 제2 분류기를 생성하고 상기 제2 분류기에 의한 복수의 제2 로컬맵들을 기초로 모조 마스크를 생성하는 모조 마스크 생성단계를 포함하는 모조 마스크 기반 약지도 시맨틱 분할 (Weakly Supervised Semantic Segmentation) 방법.
  10. 제9항에 있어서,
    상기 모조 마스크를 기초로 상기 이미지의 객체 및 경계 식별을 수행하는 객체 인식단계를 더 포함하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 방법.
  11. 제9항에 있어서, 상기 로컬맵 생성단계는
    N개(상기 N은 자연수)의 포그라운드 객체를 포함하는 포그라운드 로컬맵 및 단일의 백그라운드 객체를 포함하는 백그라운드 로컬맵을 상기 복수의 제1 로컬맵들로서 생성하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 방법.
  12. 제9항에 있어서, 상기 중요영역지도 처리단계는
    포그라운드 로컬맵 및 백그라운드 로컬맵을 가중 연산하여 예측 중요영역지도를 생성하고 상기 예측 중요영역지도 및 실제 중요영역지도 간의 차이에 해당하는 상기 중요영역 손실을 결정하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 방법.
  13. 제9항에 있어서, 상기 다중-레이블 처리단계는
    상기 복수의 제1 로컬맵들에 있는 포그라운드 로컬맵에 관한 이미지 레벨 레이블 및 해당 예측 간의 다중-레이블 마진 손실을 상기 분류 손실로서 산출하는 것을 특징으로 하는 모조 마스크 기반 약지도 시맨틱 분할 방법.
KR1020210124495A 2021-09-17 2021-09-17 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법 KR20230041851A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210124495A KR20230041851A (ko) 2021-09-17 2021-09-17 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법
US17/520,025 US11798171B2 (en) 2021-09-17 2021-11-05 Weakly supervised semantic segmentation device and method based on pseudo-masks
JP2021207591A JP7214825B1 (ja) 2021-09-17 2021-12-21 擬似マスク基盤の弱教師ありセマンティック分割装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210124495A KR20230041851A (ko) 2021-09-17 2021-09-17 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230041851A true KR20230041851A (ko) 2023-03-27

Family

ID=85078889

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210124495A KR20230041851A (ko) 2021-09-17 2021-09-17 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법

Country Status (3)

Country Link
US (1) US11798171B2 (ko)
JP (1) JP7214825B1 (ko)
KR (1) KR20230041851A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587288B1 (ko) 2023-07-10 2023-10-10 연세대학교 산학협력단 건설객체 데이터셋의 의미적 분할 모델의 학습을 위한 자기 지도학습 기반의 고품질 의사 라벨 생성시스템 및 생성방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240169623A1 (en) * 2022-11-22 2024-05-23 Adobe Inc. Multi-modal image generation
CN116309653B (zh) * 2023-05-18 2023-08-29 中国科学技术大学 弱监督图像语义分割方法、系统、设备及存储介质
CN117690096B (zh) * 2024-02-04 2024-04-12 成都中轨轨道设备有限公司 一种适应不同场景的接触网安全巡检系统
CN117830638A (zh) * 2024-03-04 2024-04-05 厦门大学 基于提示文本的面向全方位监督语义分割方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102160224B1 (ko) 2018-12-20 2020-09-25 네이버랩스 주식회사 약한 지도학습 객체 검출기에 기반한 의미론적 객체 영역 분할 방법 및 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6135283B2 (ja) * 2013-04-26 2017-05-31 オムロン株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2019061658A (ja) 2017-08-02 2019-04-18 株式会社Preferred Networks 領域判別器訓練方法、領域判別装置、領域判別器訓練装置及びプログラム
CN113033432A (zh) * 2021-03-30 2021-06-25 北京师范大学 一种基于渐进监督的遥感影像居民区提取方法
CN113096138B (zh) 2021-04-13 2023-04-28 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102160224B1 (ko) 2018-12-20 2020-09-25 네이버랩스 주식회사 약한 지도학습 객체 검출기에 기반한 의미론적 객체 영역 분할 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587288B1 (ko) 2023-07-10 2023-10-10 연세대학교 산학협력단 건설객체 데이터셋의 의미적 분할 모델의 학습을 위한 자기 지도학습 기반의 고품질 의사 라벨 생성시스템 및 생성방법

Also Published As

Publication number Publication date
US20230093619A1 (en) 2023-03-23
JP2023044598A (ja) 2023-03-30
JP7214825B1 (ja) 2023-01-30
US11798171B2 (en) 2023-10-24

Similar Documents

Publication Publication Date Title
JP7208480B2 (ja) 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
Lee et al. Railroad is not a train: Saliency as pseudo-pixel supervision for weakly supervised semantic segmentation
KR20230041851A (ko) 모조 마스크 기반 약지도 시맨틱 분할 장치 및 방법
Kamal et al. Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint
US11200424B2 (en) Space-time memory network for locating target object in video content
CN111860235B (zh) 高低层特征融合的注意力遥感图像描述的生成方法及系统
Ci et al. Video object segmentation by learning location-sensitive embeddings
CN109426805B (zh) 用于对象检测的方法、设备和计算机程序产品
CN113963445B (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN109598231A (zh) 一种视频水印的识别方法、装置、设备及存储介质
Zhang et al. Weakly-supervised object detection via mining pseudo ground truth bounding-boxes
Nguyen et al. Few-shot object counting and detection
KR20190114384A (ko) 신경망을 기반으로 하는 피부 병변 진단 장치 및 방법
Shu et al. LVC-Net: Medical image segmentation with noisy label based on local visual cues
CN115512169B (zh) 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
Wu et al. A novel Siamese network object tracking algorithm based on tensor space mapping and memory-learning mechanism
Zhou et al. Benchmarking deep models on salient object detection
Liu et al. APSL: Action-positive separation learning for unsupervised temporal action localization
Baraka et al. Weakly-supervised temporal action localization: a survey
Liang et al. Multiple object tracking by reliable tracklets
CN113158777A (zh) 质量评分方法、质量评分模型的训练方法及相关装置
EP3686841A1 (en) Image segmentation method and device
Xu et al. UP-Net: Uncertainty-Supervised Parallel Network for Image Manipulation Localization
Möller et al. Analysis of Arabidopsis Root Images--Studies on CNNs and Skeleton-Based Root Topology
Cui et al. Siamese cascaded region proposal networks with channel-interconnection-spatial attention for visual tracking