KR102483738B1 - 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법 - Google Patents

제로 스타일 로스를 이용한 도메인 적응 장치 및 방법 Download PDF

Info

Publication number
KR102483738B1
KR102483738B1 KR1020210003078A KR20210003078A KR102483738B1 KR 102483738 B1 KR102483738 B1 KR 102483738B1 KR 1020210003078 A KR1020210003078 A KR 1020210003078A KR 20210003078 A KR20210003078 A KR 20210003078A KR 102483738 B1 KR102483738 B1 KR 102483738B1
Authority
KR
South Korea
Prior art keywords
style
source image
loss
image
content
Prior art date
Application number
KR1020210003078A
Other languages
English (en)
Other versions
KR20220101256A (ko
Inventor
김은태
이수현
현준혁
성홍제
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020210003078A priority Critical patent/KR102483738B1/ko
Publication of KR20220101256A publication Critical patent/KR20220101256A/ko
Application granted granted Critical
Publication of KR102483738B1 publication Critical patent/KR102483738B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법은, 제로 스타일 로스(zero style loss)를 통해 이미지를 컨텐츠와 스타일로 완전히 분리하고, 소스 이미지와 타겟 이미지가 컨텐츠 공간에서 정렬되도록 하여, 비지도 도메인 적응(Unsupervised Domain Adaptation)에 사용함으로써, 의미론적 분할(Semantic Segmentation) 신경망이 타겟 이미지에 대해 지도 학습되는 효과를 획득할 수 있다.

Description

제로 스타일 로스를 이용한 도메인 적응 장치 및 방법{Apparatus and method for domain adaptation using zero style loss}
본 발명은 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법에 관한 것으로서, 더욱 상세하게는 서로 다른 이미지 세트 사이의 도메인 차이를 줄이는, 장치 및 방법에 관한 것이다.
의미론적 분할(Semantic Segmentation)은 이미지의 시멘틱 카테고리를 픽셀 단위로 분류하는 문제이다. 의미론적 분할을 위한 깊은 신경망(Deep Neural Network)을 학습하기 위해서는 아주 많은 양의 픽셀 단위 카테고리가 표시된 데이터 세트가 필요하다. 픽셀 단위의 정답값 취득은 굉장히 노동 집약적이고 어려운 일이다. 따라서, 정답값 취득이 간편한 가상 데이터 세트로 깊은 신경망을 학습하여 타겟 데이터 세트에서의 의미론적 분할 성능을 높이기 위한 연구가 진행되어 오고 있다.
서로 다른 데이터 세트 사이에는 도메인 차이가 존재한다. 가상의 소스(Source) 데이터 세트와 실제 타겟(Target) 데이터 세트 사이의 도메인 차이는 소스 데이터 세트로 학습된 의미론적 분할 신경망이 타겟 데이터 세트에서의 높은 성능을 내는 것을 방해한다. 비지도 도메인 적응 방법(Unsupervised Domain Adaptation)은 두 데이터 세트 사이의 도메인 차이를 줄여 타겟 데이터 세트에서의 높은 의미론적 분할 성능을 얻기 위해 제안되었다. 도메인 차이를 줄이기 위한 방법으로는 두 데이터 세트를 특징 단계에서 정렬시키는 방법(feature-level alignment)이 있다.
본 발명이 이루고자 하는 목적은, 제로 스타일 로스(zero style loss)를 통해 이미지를 컨텐츠와 스타일로 완전히 분리하고, 소스 이미지와 타겟 이미지가 컨텐츠 공간에서 정렬되도록 하여, 비지도 도메인 적응(Unsupervised Domain Adaptation)에 사용하는, 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법을 제공하는 데 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치는, 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 제1 특징 추출부; 상기 소스 이미지 및 상기 타겟 이미지 각각에 대해 상기 제1 특징 추출부를 통해 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 소스 이미지를 상기 타겟 이미지의 도메인으로 변환하여 제1 변환 소스 이미지를 획득하고, 상기 소스 이미지 및 상기 타겟 이미지 각각에 대해 상기 제1 특징 추출부를 통해 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 타겟 이미지를 상기 소스 이미지의 도메인으로 변환하여 제1 변환 타겟 이미지를 획득하며, 상기 소스 이미지에 대해 상기 제1 특징 추출부를 통해 추출된 컨텐츠 특징을 기반으로 상기 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 제1 학습부; 상기 제1 학습부를 통해 획득된 상기 제1 변환 소스 이미지 및 상기 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 제2 특징 추출부; 및 상기 제1 변환 소스 이미지에 대해 상기 제2 특징 추출부를 통해 추출된 컨텐츠 특징을 기반으로 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 제2 학습부;를 포함한다.
여기서, 상기 제1 특징 추출부는, 상기 소스 이미지로부터 상기 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 상기 타겟 이미지로부터 상기 소스 이미지의 스타일을 추출하면 0이 되도록 하는 제1 로스(loss)를 기반으로, 상기 소스 이미지 및 상기 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출할 수 있다.
여기서, 상기 제2 특징 추출부는, 상기 제1 변환 소스 이미지로부터 상기 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 상기 제1 변환 타겟 이미지로부터 상기 소스 이미지의 스타일을 추출하면 0이 되도록 하는 제2 로스(loss)를 기반으로, 상기 제1 변환 소스 이미지 및 상기 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출할 수 있다.
여기서, 상기 제1 학습부는, 상기 소스 이미지의 의미론적 분할 예측 확률 맵과 상기 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 제3 로스(loss)를 기반으로, 상기 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하고, 상기 제2 학습부는, 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵과 상기 제1 변환 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 제4 로스(loss)를 기반으로, 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 방법은, 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 단계; 상기 소스 이미지 및 상기 타겟 이미지 각각에서 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 소스 이미지를 상기 타겟 이미지의 도메인으로 변환하여 제1 변환 소스 이미지를 획득하고, 상기 소스 이미지 및 상기 타겟 이미지 각각에서 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 타겟 이미지를 상기 소스 이미지의 도메인으로 변환하여 제1 변환 타겟 이미지를 획득하며, 상기 소스 이미지에서 추출된 컨텐츠 특징을 기반으로 상기 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 단계; 상기 제1 변환 소스 이미지 및 상기 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 단계; 및 상기 제1 변환 소스 이미지에서 추출된 컨텐츠 특징을 기반으로 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 단계;를 포함한다.
본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법에 의하면, 제로 스타일 로스(zero style loss)를 통해 이미지를 컨텐츠와 스타일로 완전히 분리하고, 소스 이미지와 타겟 이미지가 컨텐츠 공간에서 정렬되도록 하여, 비지도 도메인 적응(Unsupervised Domain Adaptation)에 사용함으로써, 의미론적 분할(Semantic Segmentation) 신경망이 타겟 이미지에 대해 지도 학습되는 효과를 획득할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 동작의 성능을 설명하기 위한 도면이다.
도 4는 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 명세서에서 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 명세서에서, "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다"등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
또한, 본 명세서에 기재된 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터 구조들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 장치(이하 '도메인 적응 장치'라 한다)(100)는 제로 스타일 로스(zero style loss)를 통해 이미지를 컨텐츠(content)와 스타일(style)로 완전히 분리하고, 소스 이미지와 타겟 이미지가 컨텐츠 공간에서 정렬되도록 하여, 비지도 도메인 적응(Unsupervised Domain Adaptation)에 사용한다. 이에 따라, 본 발명은 의미론적 분할(Semantic Segmentation) 신경망이 타겟 이미지에 대해 지도 학습되는 효과를 획득할 수 있다.
이를 위해, 도메인 적응 장치(100)는 제1 특징 추출부(110), 제1 학습부(130), 제2 특징 추출부(150) 및 제2 학습부(170)를 포함할 수 있다.
제1 특징 추출부(110)는 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출한다.
이때, 제1 특징 추출부(110)는 소스 이미지로부터 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 타겟 이미지로부터 소스 이미지의 스타일을 추출하면 0이 되도록 하는 제1 로스(loss)를 기반으로, 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출할 수 있다.
제1 학습부(130)는 소스 이미지 및 타겟 이미지 각각에 대해 제1 특징 추출부(110)를 통해 추출된 컨텐츠 특징과 스타일 특징을 기반으로 소스 이미지를 타겟 이미지의 도메인으로 변환하여 제1 변환 소스 이미지를 획득한다.
그리고, 제1 학습부(130)는 소스 이미지 및 타겟 이미지 각각에 대해 제1 특징 추출부(110)를 통해 추출된 컨텐츠 특징과 스타일 특징을 기반으로 타겟 이미지를 소스 이미지의 도메인으로 변환하여 제1 변환 타겟 이미지를 획득한다.
그리고, 제1 학습부(130)는 소스 이미지에 대해 제1 특징 추출부(110)를 통해 추출된 컨텐츠 특징을 기반으로 소스 이미지의 의미론적 분할 예측 확률 맵을 획득한다.
이때, 제1 학습부(130)는 소스 이미지의 의미론적 분할 예측 확률 맵과 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 제3 로스(loss)를 기반으로, 소스 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
또한, 제1 학습부(130)는 타겟 이미지에 대해 제1 특징 추출부(110)를 통해 추출된 컨텐츠 특징을 기반으로 타겟 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
제2 특징 추출부(150)는 제1 학습부(130)를 통해 획득된 제1 변환 소스 이미지 및 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출한다.
이때, 제2 특징 추출부(150)는 제1 변환 소스 이미지로부터 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 제1 변환 타겟 이미지로부터 소스 이미지의 스타일을 추출하면 0이 되도록 하는 제2 로스(loss)를 기반으로, 제1 변환 소스 이미지 및 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출할 수 있다.
제2 학습부(170)는 제1 변환 소스 이미지에 대해 제2 특징 추출부(150)를 통해 추출된 컨텐츠 특징을 기반으로 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득한다.
이때, 제2 학습부(170)는 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵과 제1 변환 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 제4 로스(loss)를 기반으로, 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
또한, 제2 학습부(170)는 제1 변환 타겟 이미지에 대해 제2 특징 추출부(150)를 통해 추출된 컨텐츠 특징을 기반으로 제2 변환 타겟 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
그러면, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 과정에 대하여 보다 자세하게 설명한다.
도 2는 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 과정을 설명하기 위한 도면이다.
이미지는 컨텐츠 특징과 스타일 특징으로 분리될 수 있다. 컨텐츠는 스타일과 상관없이 의미론적 분할만을 위한 정보를 포함한다. 스타일은 의미론적 분할과 관계없이 도메인의 특성을 내포하고, 이는 도메인 차이를 만들게 된다. 따라서, 컨텐츠와 스타일의 완전한 분리는 의미론적 분할을 위한 컨텐츠 특징이 도메인에 상관없이 컨텐츠 공간에서 정렬되도록 한다. 소스 이미지의 도메인과 타겟 이미지의 도메인이 컨텐츠 공간에서 정렬되면, 소스 이미지의 정답값으로 학습된 신경망은 마치 타겟 이미지의 정답값으로 지도 학습된 것과 같은 효과를 얻을 수 있다. 본 발명은 제로 스타일 로스를 이용한 비지도 도메인 적응 과정을 통해 이미지의 스타일과 컨텐츠를 완전히 분리함으로써, 타겟 이미지에서의 의미론적 분할 성능을 향상시킬 수 있다.
본 발명은 제로 스타일 로스를 통해 이미지를 컨텐츠 특징과 스타일 특징으로 완전히 분리한다. 그리고, 본 발명은 분리된 컨텐츠 특징과 스타일 특징을 조합하여, 도메인이 변환된 이미지들(소스 이미지의 스타일로 변환된 타겟 이미지, 타겟 이미지의 스타일로 변환된 소스 이미지)를 획득한다. 그리고, 본 발명은 도메인이 변환된 이미지들에 제로 스타일 로스를 적용하여 스타일과 컨텐츠와 완전한 분리를 강제한다. 또한, 본 발명은 컨텐츠 특징이 의미론적 분할을 위한 정보를 모두 내포하도록 하는 로스를 함께 사용한다.
즉, 본 발명의 제로 스타일 로스를 이용한 도메인 적응 과정의 전체적인 구조는 도 2에 도시된 바와 같다. 본 발명은 이미지에서 소스 이미지의 스타일을 추출하는 인코더 Es, 타겟 이미지의 스타일을 추출하는 인코더 Et, 이미지에서 컨텐츠를 추출하는 인코더 Ec, 소스 이미지의 도메인으로 변환된 이미지를 생성하는 디코더 Gs, 타겟 이미지의 도메인으로 변환된 이미지를 생성하는 디코더 Gt, 의미론적 분할을 예측하기 위한 디코더 Gc로 구성될 수 있다.
본 발명이 다른 비지도 도메인 적응 방법과 차이가 있는 부분은 제로 스타일 로스의 유무이다. 본 발명에 따른 제로 스타일 로스는 세 부분으로 이루어져 있으며, 1)원본 이미지에서 스타일과 컨텐츠를 완전히 분리하기 위한 부분, 2)도메인이 변환된 이미지에서 스타일과 컨텐츠를 완전히 분리하기 위한 부분, 및 3)컨텐츠 특징이 의미론적 분할을 위한 정보를 전부 내포하도록 유도하기 위한 부분이다.
먼저, 원본 이미지에서 스타일과 컨텐츠 분리를 위한 로스는 아래의 [수학식 1]과 같다.
Figure 112021003054009-pat00001
여기서, Is는 소스 이미지를 나타낸다. It는 타겟 이미지를 나타낸다.
즉, 소스 이미지로부터 타겟 이미지의 스타일을 추출하면 0이 되도록, 타겟 이미지로부터 소스 이미지의 스타일을 추출하면 0이 되도록 강제한다. 이를 통해, 두 도메인의 스타일 특징을 완벽히 분리하여 추출할 수 있다.
소스 이미지 Is와 타겟 이미지 It로부터 스타일 특징과 컨텐츠 특징을 분리하여 추출하면, 아래의 [수학식 2]와 같이 타겟 이미지의 도메인으로 변환된 소스 이미지 Is2t와 소스 이미지의 도메인으로 변환된 타겟 이미지 It2s를 생성할 수 있다.
Figure 112021003054009-pat00002
Figure 112021003054009-pat00003
도메인이 변환된 이미지에 대해서도 아래의 [수학식 3]과 같이 스타일과 컨텐츠 분리를 위한 로스를 설정한다.
Figure 112021003054009-pat00004
위의 [수학식 1]과 [수학식 3]은 원본 이미지와 도메인이 변환된 이미지로부터 스타일과 컨텐츠를 완전히 분리하도록 강제하지만, 컨텐츠 특징이 의미론적 분할을 위한 모든 정보를 내포하는 것을 보장하지는 않는다.
따라서, 컨텐츠 특징이 의미론적 분할을 위한 모든 정보를 내포하도록 하기 위해, 아래의 [수학식 4]와 같이 의미론적 분할 로스를 추가한다.
Figure 112021003054009-pat00005
여기서, Ps=Gc(Ec(Is))는 Is의 의미론적 분할 예측 확률 맵을 나타낸다. Ps2t=Gc(Ec(Is2t))는 Is2t의 의미론적 분할 예측 확률 맵을 나타낸다. Ys는 Is의 의미론적 분할 정답값을 나타낸다. Ys2t는 Is2t의 의미론적 분할 정답값을 나타낸다.
Is2t는 Is의 도메인만을 타겟 이미지의 도메인으로 변환한 이미지이기 때문에, Ys와 Ys2t는 서로 같다. 이때, 의미론적 분할 예측 확률 맵과 의미론적 분할 정답값 사이의 로스는 크로스 엔트로피와 같은 함수로 계산될 수 있다.
본 발명에 다른 최종적인 제로 스타일 로스는 아래의 [수학식 5]와 같다.
Figure 112021003054009-pat00006
그러면, 도 3을 참조하여 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 동작의 성능에 대하여 설명한다.
도 3은 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 동작의 성능을 설명하기 위한 도면이다.
본 발명에 따른 제로 스타일 로스를 이용한 도메인 적응 동작이 적용된 비지도 적응 학습의 결과는 도 3에 도시된 바와 같다.
도 3을 참조하면, 소스 이미지로 GTA5(Richter, Stephan R., et al. "Playing for data: Ground truth from computer games." European conference on computer vision. Springer, Cham, 2016. 참조) 데이터 세트를 이용하고 타겟 이미지로 Cityscapes(Cordts, Marius, et al. "The cityscapes dataset for semantic urban scene understanding." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. 참조) 데이터 세트를 이용하여 학습한 신경망의 타겟 이미지에 대한 의미론적 분할 예측 결과를 확인할 수 있다.
즉, 도 3에 도시된 바와 같이, 본 발명에 따른 제로 스타일 로스를 이용한 도메인 적응 동작을 적용하는 경우, 타겟 이미지 It에 대한 의미론적 분할 정답값 Yt과 의미론적 분할 예측 확률 맵 Pt의 차이가 크지 않는 것을 확인할 수 있다.
아래의 [표 1]은 제로 스타일 로스의 사용 유무에 따른 비지도 도메인 적응 학습의 성능을 나타낸다.
제로 스타일 로스 X 제로 스타일 로스 O
GTA5 -> Cityscapes 45.4 46.6
SYNTHIA -> Cityscapes 41.5 43.3
[표 1]을 참조하면, 타겟 이미지로 Cityscapes 데이터 세트를 이용하고 소스 이미지로 GTA5 데이터 세트와 SYNTHIA(Ros, German, et al. "The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. 참조) 데이터 세트를 각각 이용하였을 때, Cityscapes 데이터 세트의 평가 데이터 세트(evaluation data set)에서의 의미론적 분할 성능을 mIoU(mean of lass-wise Intersection-over-Union)로 계산한 결과를 확인할 수 있다.
즉, [표 1]을 통해 확인할 수 있듯이, 본 발명에 따른 제로 스타일 로스를 이용한 도메인 적응 동작을 적용하는 경우, 의미론적 분할 성능이 향상되는 것을 확인할 수 있다.
그러면, 도 4를 참조하여 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 방법에 대하여 설명한다.
도 4는 본 발명의 바람직한 실시예에 따른 제로 스타일 로스를 이용한 도메인 적응 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 도메인 적응 장치(100)는 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출한다(S110).
이때, 도메인 적응 장치(100)는 소스 이미지로부터 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 타겟 이미지로부터 소스 이미지의 스타일을 추출하면 0이 되도록 하는 제1 로스(loss)를 기반으로, 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출할 수 있다.
그런 다음, 도메인 적응 장치(100)는 소스 이미지 및 타겟 이미지 각각에서 추출된 컨텐츠 특징과 스타일 특징을 기반으로 소스 이미지를 타겟 이미지의 도메인으로 변환하여 제1 변환 소스 이미지를 획득하고, 소스 이미지 및 타겟 이미지 각각에서 추출된 컨텐츠 특징과 스타일 특징을 기반으로 타겟 이미지를 소스 이미지의 도메인으로 변환하여 제1 변환 타겟 이미지를 획득하며, 소스 이미지에서 추출된 컨텐츠 특징을 기반으로 소스 이미지의 의미론적 분할 예측 확률 맵을 획득한다(S130).
이때, 도메인 적응 장치(100)는 소스 이미지의 의미론적 분할 예측 확률 맵과 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 제3 로스(loss)를 기반으로, 소스 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
또한, 도메인 적응 장치(100)는 타겟 이미지에서 추출된 컨텐츠 특징을 기반으로 타겟 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
이후, 도메인 적응 장치(100)는 제1 변환 소스 이미지 및 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출한다(S150).
이때, 도메인 적응 장치(100)는 제1 변환 소스 이미지로부터 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 제1 변환 타겟 이미지로부터 소스 이미지의 스타일을 추출하면 0이 되도록 하는 제2 로스(loss)를 기반으로, 제1 변환 소스 이미지 및 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출할 수 있다.
그런 다음, 도메인 적응 장치(100)는 제1 변환 소스 이미지에서 추출된 컨텐츠 특징을 기반으로 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득한다(S170).
이때, 도메인 적응 장치(100)는 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵과 제1 변환 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 제4 로스(loss)를 기반으로, 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
또한, 도메인 적응 장치(100)는 제1 변환 타겟 이미지에서 추출된 컨텐츠 특징을 기반으로 제2 변환 타겟 이미지의 의미론적 분할 예측 확률 맵을 획득할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록 매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록 매체로서는 자기기록매체, 광 기록매체 등이 포함될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 도메인 적응 장치,
110 : 제1 특징 추출부,
130 : 제1 학습부,
150 : 제2 특징 추출부,
170 : 제2 학습부

Claims (5)

  1. 이미지를 컨텐츠와 스타일로 분리하고 이미지들이 컨텐츠 공간에서 정렬되도록 하는 로스로, 이미지에서 스타일과 컨텐츠를 분리하는데 이용되는 제1 로스(loss), 도메인(domain)이 변환된 이미지에서 스타일과 컨텐츠를 분리하는데 이용되는 제2 로스(loss) 및 컨텐츠 특징이 의미론적 분할을 위한 정보를 내포하도록 유도하는데 이용되는 제3 로스(loss)와 제4 로스(loss)를 포함하는 제로 스타일 로스(zero style loss)를 이용하여 비지도 도메인 적응(unsupervised domain adaptation)을 수행하는 도메인 적응 장치로서,
    상기 제1 로스(loss)를 기반으로, 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 제1 특징 추출부;
    상기 소스 이미지 및 상기 타겟 이미지 각각에 대해 상기 제1 특징 추출부를 통해 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 소스 이미지를 상기 타겟 이미지의 도메인으로 변환하여 제1 변환 소스 이미지를 획득하고, 상기 제1 변환 소스 이미지를 획득하는데 이용되는 특징들과 동일한 특징들인, 상기 소스 이미지 및 상기 타겟 이미지 각각에 대해 상기 제1 특징 추출부를 통해 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 타겟 이미지를 상기 소스 이미지의 도메인으로 변환하여 제1 변환 타겟 이미지를 획득하며, 상기 소스 이미지에 대해 상기 제1 특징 추출부를 통해 추출된 컨텐츠 특징과 상기 제3 로스(loss)를 기반으로 상기 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 제1 학습부;
    상기 제2 로스(loss)를 기반으로, 상기 제1 학습부를 통해 획득된 상기 제1 변환 소스 이미지 및 상기 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 제2 특징 추출부; 및
    상기 제1 변환 소스 이미지에 대해 상기 제2 특징 추출부를 통해 추출된 컨텐츠 특징과 상기 제4 로스(loss)를 기반으로 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 제2 학습부;
    를 포함하는 제로 스타일 로스를 이용한 도메인 적응 장치.
  2. 제1항에서,
    상기 제1 특징 추출부는,
    상기 소스 이미지로부터 상기 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 상기 타겟 이미지로부터 상기 소스 이미지의 스타일을 추출하면 0이 되도록 하는 상기 제1 로스(loss)를 기반으로, 상기 소스 이미지 및 상기 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는,
    제로 스타일 로스를 이용한 도메인 적응 장치.
  3. 제2항에서,
    상기 제2 특징 추출부는,
    상기 제1 변환 소스 이미지로부터 상기 타겟 이미지의 스타일을 추출하면 0이 되도록 하고, 상기 제1 변환 타겟 이미지로부터 상기 소스 이미지의 스타일을 추출하면 0이 되도록 하는 상기 제2 로스(loss)를 기반으로, 상기 제1 변환 소스 이미지 및 상기 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는,
    제로 스타일 로스를 이용한 도메인 적응 장치.
  4. 제3항에서,
    상기 제1 학습부는,
    상기 소스 이미지의 의미론적 분할 예측 확률 맵과 상기 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 상기 제3 로스(loss)를 기반으로, 상기 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하고,
    상기 제2 학습부는,
    상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵과 상기 제1 변환 소스 이미지의 의미론적 분할 정답값의 차이가 최소화 되도록 하는 상기 제4 로스(loss)를 기반으로, 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는,
    제로 스타일 로스를 이용한 도메인 적응 장치.
  5. 이미지를 컨텐츠와 스타일로 분리하고 이미지들이 컨텐츠 공간에서 정렬되도록 하는 로스로, 이미지에서 스타일과 컨텐츠를 분리하는데 이용되는 제1 로스(loss), 도메인(domain)이 변환된 이미지에서 스타일과 컨텐츠를 분리하는데 이용되는 제2 로스(loss) 및 컨텐츠 특징이 의미론적 분할을 위한 정보를 내포하도록 유도하는데 이용되는 제3 로스(loss)와 제4 로스(loss)를 포함하는 제로 스타일 로스(zero style loss)를 이용하여 비지도 도메인 적응(unsupervised domain adaptation)을 수행하고, 제1 특징 추출부, 제1 학습부, 제2 특징 추출부 및 제2 학습부를 포함하는 도메인 적응 장치에 의해 수행되는 도메인 적응 방법으로서,
    상기 제1 특징 추출부가, 상기 제1 로스(loss)를 기반으로, 소스 이미지 및 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 단계;
    상기 제1 학습부가, 상기 소스 이미지 및 상기 타겟 이미지 각각에서 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 소스 이미지를 상기 타겟 이미지의 도메인으로 변환하여 제1 변환 소스 이미지를 획득하고, 상기 제1 변환 소스 이미지를 획득하는데 이용되는 특징들과 동일한 특징들인, 상기 소스 이미지 및 상기 타겟 이미지 각각에서 추출된 컨텐츠 특징과 스타일 특징을 기반으로 상기 타겟 이미지를 상기 소스 이미지의 도메인으로 변환하여 제1 변환 타겟 이미지를 획득하며, 상기 소스 이미지에서 추출된 컨텐츠 특징과 상기 제3 로스(loss)를 기반으로 상기 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 단계;
    상기 제2 특징 추출부가, 상기 제2 로스(loss)를 기반으로, 상기 제1 변환 소스 이미지 및 상기 제1 변환 타겟 이미지 각각에서 컨텐츠 특징과 스타일 특징을 추출하는 단계; 및
    상기 제2 학습부가, 상기 제1 변환 소스 이미지에서 추출된 컨텐츠 특징과 상기 제4 로스(loss)를 기반으로 상기 제1 변환 소스 이미지의 의미론적 분할 예측 확률 맵을 획득하는 단계;
    를 포함하는 제로 스타일 로스를 이용한 도메인 적응 방법.
KR1020210003078A 2021-01-11 2021-01-11 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법 KR102483738B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210003078A KR102483738B1 (ko) 2021-01-11 2021-01-11 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210003078A KR102483738B1 (ko) 2021-01-11 2021-01-11 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220101256A KR20220101256A (ko) 2022-07-19
KR102483738B1 true KR102483738B1 (ko) 2022-12-30

Family

ID=82606970

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210003078A KR102483738B1 (ko) 2021-01-11 2021-01-11 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102483738B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635938B1 (en) * 2019-01-30 2020-04-28 StradVision, Inc. Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
KR102214465B1 (ko) * 2019-03-11 2021-02-09 엔에이치엔 주식회사 딥러닝 기반의 이미지 영역화 방법 및 그 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. Zhu et al., 'Unpaired image-to-image translation using cycle-consistent adversarial network,' IEEE CV 2017, 2223-2232
L. Gatys et al., 'Image style transfer using convolutional neural networks,' IEEE CVPR, 2016, 2414-2423
Y. Luo et al., 'Taking a closer look at domain shift: Category-level adversaries for semantics consistent domain adaptation,' IEEE CVPR, 2019, 2507-2516

Also Published As

Publication number Publication date
KR20220101256A (ko) 2022-07-19

Similar Documents

Publication Publication Date Title
EP3399460B1 (en) Captioning a region of an image
US7921120B2 (en) Method and system for image recognition using a similarity inverse matrix
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
US9524430B1 (en) Method for detecting texts included in an image and apparatus using the same
US20100172584A1 (en) Method Of Classifying Red-Eye Objects Using Feature Extraction And Classifiers
US11176455B2 (en) Learning data generation apparatus and learning data generation method
KR102595207B1 (ko) 컨텐츠 전달을 이용한 도메인 적응에서의 클래스 불균형 해결 장치 및 방법
KR20220056707A (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
Juefei-Xu et al. Pokerface: partial order keeping and energy repressing method for extreme face illumination normalization
KR102192015B1 (ko) 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
Saeed et al. Single-branch network for multimodal training
US20090279792A1 (en) Image search method and device
Bharathiraja et al. A deep learning framework for image authentication: an automatic source camera identification Deep-Net
US9710703B1 (en) Method and apparatus for detecting texts included in a specific image
KR102483738B1 (ko) 제로 스타일 로스를 이용한 도메인 적응 장치 및 방법
Ma et al. MSFNET: multi-stage fusion network for semantic segmentation of fine-resolution remote sensing data
KR100480783B1 (ko) 구성요소 기반 pca/ica를 이용한 얼굴 인식 방법및 그 장치
US9595113B2 (en) Image transmission system, image processing apparatus, image storage apparatus, and control methods thereof
JP2024513750A (ja) 画像及びビデオから反射特徴(reflective features)を除去するためのリアルタイム機械学習ベースのプライバシーフィルタ
Ghandour et al. Building shadow detection based on multi-thresholding segmentation
US20190012572A1 (en) Image similarity determination apparatus and image similarity determination method
CN113688263B (zh) 用于搜索图像的方法、计算设备和存储介质
KR102296644B1 (ko) 단일 이미지 상에서 기 설정된 속성을 제거하여 무잡음 영상을 생성하기 위한 장치 및 이를 위한 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant