KR20200116767A - 딥러닝 기반 컬러링 방법, 시스템 및 프로그램 - Google Patents

딥러닝 기반 컬러링 방법, 시스템 및 프로그램 Download PDF

Info

Publication number
KR20200116767A
KR20200116767A KR1020190038612A KR20190038612A KR20200116767A KR 20200116767 A KR20200116767 A KR 20200116767A KR 1020190038612 A KR1020190038612 A KR 1020190038612A KR 20190038612 A KR20190038612 A KR 20190038612A KR 20200116767 A KR20200116767 A KR 20200116767A
Authority
KR
South Korea
Prior art keywords
value
memory
query
color
key
Prior art date
Application number
KR1020190038612A
Other languages
English (en)
Other versions
KR102211762B1 (ko
Inventor
장재혁
주재걸
유승주
정성효
이가영
방효진
Original Assignee
네이버웹툰컴퍼니 주식회사
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버웹툰컴퍼니 주식회사, 고려대학교 산학협력단 filed Critical 네이버웹툰컴퍼니 주식회사
Priority to KR1020190038612A priority Critical patent/KR102211762B1/ko
Priority to PCT/KR2020/004476 priority patent/WO2020204610A1/ko
Publication of KR20200116767A publication Critical patent/KR20200116767A/ko
Application granted granted Critical
Publication of KR102211762B1 publication Critical patent/KR102211762B1/ko
Priority to US17/449,710 priority patent/US11816145B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따르면, 공간 피처(spatial feature)와 관계된 키(key) 메모리, 컬러 피처(color feature)와 관계된 값(value) 메모리를 포함하도록 구성되고, 특정 쿼리에 대응하여 컬러 피처를 제공하는 메모리 네트워크; 및 상기 메모리 네트워크에서 생성한 컬러 피처에 기초하여 컬러링(coloring)을 수행하는 컬러링 네트워크; 를 포함하는 딥러닝 기반 컬러링 시스템에 있어서, 상기 메모리 네트워크는, 쿼리를 생성하는 쿼리 생성부; 상기 쿼리와 키 메모리값들 간의 유사성에 기초하여 k번째 가까운 이웃(k-nearest neighbor)을 산출하는 이웃 산출부; 상기 값 메모리에 저장된 색상 정보를 나타내기 위한 컬러 피처를 생성하는 컬러 피처 결정부; 상기 컬러 피처들 간의 거리와 임계값의 비교에 기초하여 임계값 삼중 손실을 산출하는 임계값 삼중 손실 산출부; 최상위 값과 새롭게 입력된 쿼리의 값 간의 거리가 임계값 이내인지 여부에 기초하여 메모리를 업데이트하는 메모리 업데이트부; 를 포함하는, 딥러닝 기반 컬러링 시스템이 제공된다.

Description

딥러닝 기반 컬러링 방법, 시스템 및 프로그램{METHOD, SYSTEM AND COMPUTER PROGRAM FOR COLORING BASED ON DEEP LEARNING}
본 발명은 딥러닝 기반 컬러링 방법, 시스템 및 프로그램에 관한 것으로, 보다 상세하게는 외부 신경 메모리에 의해 보강된 컬러링 방법, 시스템 및 프로그램에 관한 것이다.
애니메이션 혹은 만화 컨텐츠 제작에서 컬러링(coloring 혹은 colorization) 작업은 시간 및 비용을 가장 많이 요구하는 단계이다. 따라서 컬러링 작업을 자동화하려는 많은 시도가 있었으며, 딥러닝 기반 컬러링 모델의 발전에도 불구하고 실제 현장에서 사용되는 일은 극히 제한적이다. 실제 환경에서 딥러닝 기반 컬러링 모델을 사용하기에는 많은 제한이 존재한다.
보다 상세히, 기존의 딥러닝 기반 컬러링 모델을 훈련하기 위해서는 많은 양의 데이터가 필요하지만 저작권 등의 문제로 인해 애니메이션 혹은 만화 컨텐츠의 훈련 데이터를 얻기에는 한계가 존재한다. 더불어, 기존의 딥러닝 기반 컬러링 모델은 희귀한 색상을 가지는 경우를 무시하고 가장 빈번하게 나타나는 색상을 선택하도록 훈련되는 경우가 많은데, 이 경우 애니메이션 혹은 만화의 조연 캐릭터의 채색이 부적절해지는 경우가 발생하였다. 따라서 딥러닝 기반 컬러링 모델을 실제 현장에서 사용하기는 어려움이 있었다.
본 발명은 제한된 수의 만화 혹은 애니메이션 데이터만으로도 컬러링 모델을 학습할 수 있는 딥러닝 기반 컬러링 방법을 제공하는 것을 일 목적으로 한다.
또한, 본 발명은 빈번히 나타나지 않는 색상의 채색을 가능하게 하는 것을 다른 목적으로 한다.
또한, 본 발명은 비감독 환경에서 메모리 네트워크의 훈련을 가능하게 하는 임계값 삼중 손실을 제공하는 것을 다른 목적으로 한다.
본 발명의 일 실시예에 따르면 공간 피처(spatial feature)와 관계된 키(key) 메모리, 컬러 피처(color feature)와 관계된 값(value) 메모리를 포함하도록 구성되고, 특정 쿼리에 대응하여 컬러 피처를 제공하는 메모리 네트워크; 및 상기 메모리 네트워크에서 생성한 컬러 피처에 기초하여 컬러링(coloring)을 수행하는 컬러링 네트워크; 를 포함하는 딥러닝 기반 컬러링 시스템에 있어서, 상기 메모리 네트워크는, 쿼리를 생성하는 쿼리 생성부; 상기 쿼리와 키 메모리값들 간의 유사성에 기초하여 k번째 가까운 이웃(k-nearest neighbor)을 산출하는 이웃 산출부; 상기 값 메모리에 저장된 색상 정보를 나타내기 위한 컬러 피처를 생성하는 컬러 피처 결정부; 상기 컬러 피처들 간의 거리와 임계값의 비교에 기초하여 임계값 삼중 손실을 산출하는 임계값 삼중 손실 산출부; 최상위 값과 새롭게 입력된 쿼리의 값 간의 거리가 임계값 이내인지 여부에 기초하여 메모리를 업데이트하는 메모리 업데이트부; 를 포함하는 딥러닝 기반 컬러링 시스템이 제공된다.
본 발명에 있어서, 상기 k번째 가까운 이웃은, 상기 쿼리와 상기 키 메모리값의 코사인 유사도에 기초하여, 상기 쿼리와 상기 공간 피처 간의 유사도가 1 내지 k 번째까지인 메모리 슬롯으로 결정될 수 있다.
본 발명에 있어서, 상기 최상위 값은, 상기 k번째 가까운 이웃 중 1번째 가까운 이웃을 산출하였을 때 상기 쿼리와 코사인 유사도가 가장 높은 키 메모리값과 동일한 인덱스를 갖는 값 메모리값일 수 있다.
본 발명에 있어서, 상기 임계값 삼중 손실은 쿼리와 양의 키(positive key) 사이의 유사성을 최대화하고 쿼리와 음의 키(negative key) 사이의 유사성을 최소화하는 값일 수 있다.
본 발명에 있어서, 상기 양의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 미만인 값 메모리값 중, 가장 가까운 값 메모리값과 동일한 인덱스의 키 메모리값이고, 상기 음의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 초과인 값 메모리값 중, 가장 거리가 작은 값 메모리값과 동일한 인덱스의 키 메모리값일 수 있다.
본 발명에 있어서, 상기 컬러 피처는 2가지 변이값(variant)를 가지며, 상기 2가지 변이값은 이미지 별로 기설정된 313개의 색이 얼만큼 있는지에 대한 확률값을 구한 것인 Cdist와, 기설정된 라이브러리를 이용하여 이미지 별 가장 지배적인 10개의 픽셀값을 추출한 CRGB 일 수 있다.
본 발명에 있어서, 상기 메모리 네트워크는, 상기 k번째 가까운 이웃에 대응하는 공간 피처 및 상기 임계값 미만의 쿼리와의 컬러 거리에 대응하는 컬러 피처를 갖는 이미지들은 서로 동일 클래스에 속한다고 판단할 수 있다.
본 발명에 있어서, 상기 컬러링 네트워크는 생성기 및 판별기를 포함하고, 상기 판별기는 그레이스케일(gray scale) 입력 이미지 및 상기 컬러 피처를 입력받을 수 있다.
본 발명에 있어서, 상기 메모리 네트워크는 에이지(age)를 추가적으로 저장하도록 구성되며, 상기 에이지는 메모리에 저장된 항목의 수명을 나타낼 수 있다.
본 발명의 일 실시예에 따르면, 쿼리를 생성하는 단계; 상기 쿼리와 키 메모리값들 간의 유사성에 기초하여 k번째 가까운 이웃(k-nearest neighbor)을 산출하는 단계; 상기 값 메모리에 저장된 색상 정보를 나타내기 위해 컬러 피처를 생성하는 단계; 상기 컬러 피처들 간의 거리와 임계값의 비교에 기초하여 임계값 삼중 손실을 산출하는 단계; 최상위 값과 새롭게 입력된 쿼리의 값 간의 거리가 상기 임계값 이내인지 여부에 기초하여 메모리를 업데이트하는 단계; 를 포함하는 딥러닝 기반 컬러링 방법이 제공된다.
본 발명에 있어서, 상기 k번째 가까운 이웃은, 상기 쿼리와 상기 키 메모리값의 코사인 유사도에 기초하여, 상기 쿼리와 공간 피처 간의 유사도가 1 내지 k 번째까지인 메모리 슬롯으로 결정될 수 있다.
본 발명에 있어서, 상기 최상위 값은, 상기 k번째 가까운 이웃 중 1번째 가까운 이웃을 산출하였을 때 상기 쿼리와 코사인 유사도가 가장 높은 키 메모리값과 동일한 인덱스를 갖는 값 메모리값일 수 있다.
본 발명에 있어서, 상기 임계값 삼중 손실은 쿼리와 양의 키(positive key) 사이의 유사성을 최대화하고 쿼리와 음의 키(negative key) 사이의 유사성을 최소화하는 값으로서, 상기 양의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 미만인 값 메모리값 중, 가장 가까운 값 메모리값과 동일한 인덱스의 키 메모리값이고, 상기 음의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 초과인 값 메모리값 중, 가장 거리가 작은 값 메모리값과 동일한 인덱스의 키 메모리값일 수 있다.
본 발명에 있어서, 상기 컬러 피처는 2가지 변이값(variant)를 가지며, 상기 2가지 변이값은 이미지 별로 기설정된 313개의 색이 얼만큼 있는지에 대한 확률값을 구한 것인 Cdist와, 기설정된 라이브러리를 이용하여 이미지 별 가장 지배적인 10개의 픽셀값을 추출한 CRGB 일 수 있다.
본 발명에 따른 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공된다.
본 발명에 의하면, 최소한의 데이터로 컬러링을 학습할 수 있으므로 원샷(one shot) 혹은 몇개의 샷(few shot) 컬러링이 가능하다.
또한 본 발명에 의하면, 메모리 네트워크는 공간 피처와 가장 유사한 키 메모리 값에 해당하는 값 메모리를 가져오도록 학습되므로, 도미넌트(dominant) 컬러 효과를 해결할 수 있다.
도 1 은 본 발명의 일 실시예에 따른 딥러닝 기반 컬러링 시스템의 구성을 나타낸 도면이다.
도 2 는 본 발명의 서버의 내부 구성을 도시한 도면이다.
도 3 은 본 발명의 일 실시예에 따른 메모리 네트워크의 동작을 시계열적으로 나타낸 것이다.
도 4 는 본 발명의 일 실시예에 따른 메모리 네트워크 및 컬러링 네트워크의 동작을 설명하기 위한 것이다.
도 5 는 본 발명의 일 실시예에 따른 임계값 삼중 손실에 기초한 컬러링 결과를 예시한 것이다.
도 6 은 본 발명의 일 실시예에 따른 시험 기간 동안 색상 값을 생성기에 제공하는 것을 설명하기 위한 도면이다.
도 7 은 기존의 방법과 본 발명의 컬러링 방법을 적용한 결과를 나타낸 예시이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 딥러닝 기반 컬러링 시스템의 구성을 나타낸 도면이다.
도 1 을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 컬러링 시스템은 서버(100), 관리자 단말(101) 및 사용자 단말(102)을 포함할 수 있다. 본 발명의 서버(100)는 메모리 네트워크를 구성하고 그레이스케일(gray scale) 이미지에 색상을 입히는 컬러링 작업을 수행할 수 있다. 이하의 명세서에서, 컬러링은 이미지의 부분 또는 전체에 색상을 입히는 모든 동작을 의미할 수 있다. 또한, 본 명세서에서 설명되는 서버(100)의 동작은 비록 도 1 에 도시되지 않았지만 서버(100)에 포함된 프로세서에 의해 수행될 수 있다.
또한, 관리자 단말(101)은 서버(100)가 제공하는 딥러닝 기반 컬러링 시스템의 동작을 결정하고 초기 훈련 데이터를 제공하며, 서버(100)가 수행하는 모든 프로세스의 설정을 관리하는 관리자의 단말일 수 있다. 더불어, 사용자 단말(102)은 컬러링을 원하는 이미지를 서버(100)로 요청하고, 컬러링된 이미지를 획득하는 사용자의 단말일 수 있다.
본 발명의 딥러닝 기반 컬러링 시스템 및 방법은 딥러닝(deep learning) 알고리즘을 기반으로 하여 이미지를 채색하는 시스템 및 방법을 제공한다. 기존에도 딥러닝 기반 컬러링 방법들이 존재하였으나, 이를 실제 현장에서 적용하기에는 이하의 2가지 한계가 존재하였다.
첫번째로, 딥러닝 기반 컬러링 모델을 학습(training)하기 위해서는 많은 양의 데이터가 필요하지만, 사용할 수 있는 애니메이션 및 만화 데이터의 수는 제한적이다. 사진은 카메라로 찍을 수 있고 단순히 그레이 스케일(gray scale)로 변환할 수 있기 때문에 풍부한 학습 데이터를 용이하게 얻을 수 있지만, 애니메이션 및 만화 데이터는 손으로 그린 후 복잡하게 색칠한 데이터를 얻어야 하므로 데이터 획득이 쉽지 않다. 이에 기존의 컬러링 모델들은 실제 사진 이미지에 대해 학습을 진행하여 대부분 예전 흑백 사진들에 대해 적용되었으나, 현대 사진들은 대부분 컬러로 제작되기 때문에 이 작업은 더 이상 필요하지 않다. 따라서, 사진을 학습하는 방법과는 별개로 적은 양의 데이터로 애니메이션과 만화를 색칠하는 법을 훈련할 필요가 존재한다.
두번째로, 기존의 컬러링 모델은 희귀한 경우를 무시하고 데이터를 일반화하기 위해 가장 빈번하게 나타나는 색을 학습하는 것을 선택한다. 그러나, 희귀한 경우를 기억하는 것은 컨텐츠에 다양한 등장 인물이 등장할 때 중요하다. 드물게 등장하는 조연 캐릭터는 색칠 네트워크에서 무시되어 조연 캐릭터들이 주연 캐릭터들처럼 색칠되는 도미넌트(dominent) 효과가 생기는 문제점이 존재한다. 도미넌트 효과는 컬러링 모델이 훈련 세트에 있는 몇 가지 지배적인 컬러로만 컬러링을 훈련할 때 발생한다. 이로 이해, 기존 모델은 특정 객체 클래스를 다른 객체 클래스와 구분하는 고유한 색상으로 정의하는 색상 식별을 유지할 수 없게 된다.
본 발명은 이러한 기존 컬러링 모델의 한계를 보완하는 것으로, 본 발명에 의하면 외부 신경 메모리(external neural memory networks)에 의해 보강된 컬러링 네트워크를 제공한다.
도 2 는 본 발명의 서버의 내부 구성을 도시한 도면이다.
도 2 를 참조하면, 본 발명의 서버(100)는 메모리 네트워크(210) 및 컬러링 네트워크(220)를 포함하고, 메모리 네트워크(210)는 쿼리 생성부(211), 이웃 산출부(212), 컬러 피처 결정부(213), 삼중 손실 산출부(214) 및 업데이트부(215)를 포함하며, 컬러링 네트워크(220)는 생성기(221) 및 판별기(222)를 포함한다.
도 3 에서는 비록 메모리 네트워크(210)가 서버(100)에 포함된 것으로 도시되었지만, 이는 반드시 물리적으로 서버(100) 내에 메모리 네트워크(210)가 존재하는 것은 아니다. 메모리 네트워크는 서버(100) 내부 또는 외부의 신경망 네트워크일 수 있으며, 본 발명의 일 실시예에 따르면 한정된 데이터를 효율적으로 컬러링 네트워크(220)에 공급하기 위해 컬러링 네트워크(220) 내부의 메모리에 의존하지 않고 외부적으로 신경망 네트워크(210)를 따로 구성할 수 있다.
먼저, 메모리 네트워크(210)는 공간과 관계된 키(key) 메모리, 색상과 관계된 값(value) 메모리 및 에이지(age)를 포함하도록 메모리 네트워크를 구성한다. 또한, 컬러링 네트워크(220)는 메모리 네트워크 구성부에서 생성한 컬러 피처(color feature)에 기초하여 이미지에 컬러링(coloring)을 수행한다.
도 3 은 본 발명의 일 실시예에 따른 메모리 네트워크의 동작을 시계열적으로 나타낸 것이다.
또한, 도 4 는 본 발명의 일 실시예에 따른 메모리 네트워크 및 컬러링 네트워크의 동작을 설명하기 위한 것이다.
이하에서는, 도 2 내지 도 4 를 함께 참조하여 본 발명의 딥러닝 기반 컬러링 방법을 설명하기로 한다. 도 2 및 도 4 에서 볼 수 있는 바와 같이, 본 발명의 컬러링 시스템 혹은 컬러링 모델은 메모리 네트워크(510)와 컬러링 네트워크(520)를 포함한다. 본 발명의 컬러링 시스템은 희소한 경우를 기억하고 제한된 데이터로 고품질의 색상을 생성하기 위해 메모리 네트워크(510)를 사용하여 컬러 네트워크(520)를 보강할 수 있다. 본 발명의 메모리 네트워크(510)는 키와 값 메모리가 어떻게 구성되는지를 일 특징으로 한다. 본 발명에 따르면, 추가적인 클래스 라벨 정보(additional class label information) 없이도 메모리 네트워크(510)의 비지도 학습을 가능하게 하는 임계 삼중 손실(threshold triplet loss)이 제공된다. 또한, 본 발명의 컬러 네트워크(520)는 색상화 성능을 향상시키기 위하여 적응 인스턴스 정규화(Adaptive Instance Normalization)를 활성화한다.
먼저, 메모리 네트워크(210)는 컬러링 네트워크(220)에 입력으로 주어지는 쿼리 이미지를 동일하게 입력받고, 해당 쿼리 이미지를 컬러링하는데 필요한 정보를 효율적으로 도출할 수 있도록 학습된다. 본 발명의 일 실시예에 따르면 메모리 네트워크(210)는 키(key) 메모리, 값(value) 메모리, 에이지(age)의 3가지 다른 종류의 정보를 저장하기 위해 구성된다(S1). 보다 상세히, 키 메모리 K 는 입력 데이터의 공간 피처(Spatial Features)에 관한 정보를 저장한다. 키 메모리는 입력 쿼리와의 코사인(consin) 유사성을 계산하는데 사용된다. 값 메모리 V 는 추후 컬러링 네트워크의 조건으로 사용되는 컬러 피처(Color Features)를 저장한다. 키 메모리(511) 및 값 메모리(512)는 학습 데이터에서 추출된다. 또한, 에이지 벡터 A 는 사용하지 않고 메모리에 저장된 항목의 수명을 나타낸다.
본 발명의 전체 메모리 구조 M 은 하기의 [수학식 1] 과 같이 나타낼 수 있다. 이때, KV 는 동일한 이미지에서 뽑은 값이며 동일한 이미지에 대해 K 는 인공 신경망을 통과시켜 뽑은 공간 피처, V는 이미지에서 색 정보를 추출한 컬러 피처를 담고 있다.
Figure pat00001
[수학식 1]
상기 [수학식 1]에서 m 은 메모리 크기를 나타낸다.
먼저, 메모리 네트워크(210)의 쿼리 생성부(211)는 질의 q 를 생성한다(S2). 도4 에서 알 수 있는 바와 같이, 질의 q 는 먼저 ImageNet(J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 248-255. Ieee, 2009.)에서 미리 훈련된 ResNet18-pool5 layers (K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770- 778, 2016.) 을 통한 입력 이미지 X 를 전달함으로서 구성된다. 이는,
Figure pat00002
로 표시될 수 있다. 이때, X rp5 는 ResNet 을 통과시켜 뽑은 고차원의 표현이며, 쿼리q 와 동일하다. 또한 R 512 은 512 차원(dimension)을 뜻하는 것이다.
또한, 본 발명에서는 공간 정보를 요약하기 위해 레이어를 풀링(pooling)하는 것으로부터 피처(feature) 벡터를 사용한다. 예를 들어, 장미는 이미지에 공간적으로 어디에 위치하는지에 관계없이 같은 장미로 인식되어야 한다. 본 발명은 학습 가능한 파라미터인
Figure pat00003
Figure pat00004
와 함께 선형 레이어를 통해 피처 표현을 전달한다. 이때, W는 가중치이고, b 는 뉴럴넷에서의 바이어스(bias)를 뜻한다. 마지막으로, 본 발명은 쿼리 q 를 생성하기 위해 벡터를 아래의 [수학식 2]와 같이 정규화한다. 하기의 [수학식 2]에서
Figure pat00005
이다.
Figure pat00006
[수학식 2]
다음으로, 이웃 산출부(212)는 쿼리와 키들 간의 유사성에 기초하여 k 번째 가까운 이웃(k-nearest neighbor)을 산출한다(S3). 본 발명의 일 실시예에 따르면, k번째 가까운 이웃은 쿼리와 키 메모리값의 코사인 유사도에 기초하여, 상기 쿼리와 상기 공간 피처 간의 유사도가 1 내지 k 번째까지인 메모리 슬롯으로 결정된다. q가 주어진 경우, 메모리 네트워크는 쿼리와 키들의 코사인 유사성에 대해 가장 가까운 이웃 k 를 하기의 [수학식 3]과 같이 계산하고, 1번째 가까운 값(1-nearest neighbors)인
Figure pat00007
을 반납한다.
Figure pat00008
q 와 제일 유사한 메모리 슬롯의 (K,V) 쌍 중에서 V 를 뜻하는 것이다.
이는 추후 컬러링 네트워크에 대한 조건으로 사용된다.
Figure pat00009
Figure pat00010
[수학식 3]
상기 [수학식 3]에서, NN(q,M)은 M(메모리) 안에서 쿼리 q 와 제일 공간 피처가 유사한 것을 가져오는 계산을 뜻하는 것으로서, (n 1 , ?, n k )q 와 공간 피처가 유사한 메모리 상의 메모리 슬롯을 유사한 순서대로 (n1: 제일 유사, nk: k번째로 유사) k개 까지 나열한 것이다.
다음으로, 컬러 피처 결정부(213)는 값 메모리에 저장된 색상 정보를 나타내기 위해 컬러 피처(color feature)를 생성한다. 본 발명은 값 메모리에 저장된 색상 정보를 나타내기 위해, 색상 분포 및 RGB 색상 값이라는 두가지 변이값(variant)을 사용한다. 즉, 본 발명의 일 실시예에 따르면 입력 데이터에 따라 필요한 정보가 다르기 때문에 컬러 피처 V 에 대해 2가지 변이값을 설정한다.
전자는
Figure pat00011
으로 표시되는 313개의 양자화된 색상 값에 대한 색상 분포 형식을 가진다. C dist 는 대규모 이미지 데이터에 존재하는 모든 색 정보를 313개의 색으로 요약한 다음, 이미지 별 각 313개의 색이 얼만큼 있는지에 대한 확률값을 구한 것이다. 이는 입력 RGB 이미지를 CIE Lab 색상 공간으로 변환하고 ab 값을 313 색 빈(313 clolor bin)으로 양자화하여 계산한다. 더불어, 본 발명은 ab 값을 양자화하기 위하여 기존의 기술인 매개변이값화(parametrization)를 사용할 수 있다. 색상 분포는 다양한 색상과 복잡한 드로잉이 있는 이미지에 적합하다.
두번째 변이값은 RGB 색상 값으로서,
Figure pat00012
로 표시되는 이미지의 10개의 지배적인 RGB 색상값의 세트이며, 이는 Color Thief 라 불리는 도구를 사용하여 입력 이미지에서 가장 지배적인 10개의 색(픽셀값)을 추출한 것이다. 신경망은 복잡한 색상 분포 정보보다 직접적인 RGB 값을 사용하는 경우 쉽고 빠르게 학습이 가능하므로,
Figure pat00013
를 컬러 피처로 사용하면 원샷(one shot) 컬러링 셋팅이 더 잘 작동한다. 따라서, 본 발명의 값 메모리는 하기의 [수학식 4]와 같이 나타낼 수 있다.
Figure pat00014
[수학식 4]
상술한 발명과 같이 추출된 색상 정보는 본 발명의 컬러링 네트워크(220)에 대한 조건으로 사용될 수 있다. 상술한 두 변이값 중 하나 또는 두가지를 모두 사용할 수 있지만, 본 발명은 차후 식에서 혼동을 방지하기 위해 값 메모리에
Figure pat00015
라는 표현을 사용하기로 한다.
다음으로, 삼중 손실 산출부(214)는 컬러 피처들 간의 거리와 임계값의 비교에 기초하여 임계값 삼중 손실을 산출한다(S5). 본 발명의 일 실시예에서는 쿼리와 양의 키(positive key) 사이의 유사성을 최대화하고 쿼리와 음의 키(negative key) 사이의 유사성을 최소화하기 위한 삼중 손실을 채택한다. 양의 키란 쿼리 이미지의 컬러 피처값과 거리가 일정 임계값 미만인 값 메모리값 중, 가장 가까운 값 메모리값(V[n p ])과 동일한 인덱스인 키 메모리값(K[n p ])을 의미한다. 반대로 음의 키란 쿼리 이미지의 컬러 피처값과 거리가 일정 임계값 초과인 값 메모리값 중, 가장 거리가 작은 값 메모리값(V[n b ])과 동일한 인덱스인 키 메모리값(K[n b ])을 의미한다.
기존의 삼중 손실 방법은 특정 클래스(양의 이웃)의 이미지를 다른 클래스(음의 이웃)의 이미지보다 서로 더 가깝게 만드는 주요 목표를 가지고 있다. 기존에 존재하는 지도(supervised) 삼중 손실은
Figure pat00016
가 입력 쿼리 q 와 동일한 클래스 라벨(class label)을 가지는 경우, 가장 작은 인덱스 p 를 도입하며, 이는 n p q 의 양의 이웃으로 만든다. q 의 음의 이웃은 가장 작은 인덱스 b 로 정의되며,
Figure pat00017
q 와 상이한 클래스 라벨을 갖는다.
그러나, 기존의 지도 삼중 손실은 클래스 라벨 정보를 필요로 하기 때문에, 컬러링 작업을 하기 위한 대부분의 데이터는 라벨 정보를 제공하지 않아 그 사용이 제한적일 수 밖에 없다. 예를 들어, 애니메이션의 모든 단일 프레임에 그것의 클래스 라벨(예를 들어, 특정 문자, 객체 혹은 배경이 주어진 프레임에 표시되는지 여부)로 애니메이션의 모든 단일 프레임에 라벨링을 하는 것은 불가능하다.
이러한 문제점을 해결하기 위해, 본 발명의 임계값 삼중 손실(threshold based triplet loss)은 완전한 비지도(unsupervised) 셋팅에 적용할 수 있는 것을 특징으로 한다. 본 발명의 일 실시예에 따르면, 2개의 이미지가 있다고 가정할 때, 2 이미지 사이의 컬러 피처들 간의 거리가 특정 임계값 내에 있으면, 2 이미지는 유사한 공간 피처를 가진다고 간주되며, 따라서 동일한 클래스에 있을 가능성이 높다고 본다. 본 발명에서는 상술한 특정 임계값을 하이퍼 파라미터(hyperparameter) δ 로 표시한다.
2개의 칼라 피처들 간의 거리 측정치
Figure pat00018
로서, 본 발명에서는 양자화된 ab 값에 대한 색상 분포(color distributions)의 KL 발산(Kullback-Leibler divergence)을 계산한다.
Figure pat00019
에 대하여, 본 발명에서는 CIEDE2000을 사용하여 RGB 값을 CIE Lab 값으로 변환하여 색상 분포를 산출한다. 보다 상세히, 본 발명의 일 실시예에 따르면 컬러 피처 간의 거리를 측정하는 방법은 컬러 피처의 종류마다 다르게 설정된다.
Figure pat00020
의 경우 313 dimension으로 구성된 확률값이므로, 확률값 간의 거리를 측정하는 방법인 KL 발산을 사용한다. 반면
Figure pat00021
는 실제 픽셀값으로 구성된 색 피쳐이므로, CIEDE2000을 사용한다. CIEDE2000는 Euclidean distance에 비해 인간의 눈이 다른 색보다 특정 색에 더 민감하다는 특성을 고려하여 최대한 사람의 지각과 최대한 유사하게 색 간의 거리를 측정하는 방법이며, 이를 사용하기 위해 RGB 픽셀값을 CIE Lab 픽셀값으로 변환한 후 거리를 측정한다.
본 발명의 비지도 임계값 삼중 손실 설정에서, 본 발명은
Figure pat00022
와 올바른 목표값(correct desired value) v (예를 들어, 쿼리 이미지의 컬러 피처) 사이의 거리가 컬러 임계값 δ로 내일 때 최소 인덱스를 갖는 메모리 슬롯(memory slot)으로서 새롭게 양의 이웃 n p 를 정의한다. 본 발명의 메모리 네트워크를 학습하는 목적은 쿼리 이미지가 주어져 있을 때, 해당 이미지의 공간 피처(키 메모리)만 보고 그에 해당하는 색상 피처(값 메모리)를 자동으로 추출하기 위함이다. 따라서 학습 시에는 쿼리 이미지의 컬러 피처와 최대한 유사한 값 메모리를 가져오도록 학습되기 때문에 이를 올바른 목표값 v 라고 칭한다. 이때, 컬러 임계값 δ,
Figure pat00023
, v 의 관계는 하기의 [수학식 5]와 같이 나타낼 수 있다.
Figure pat00024
[수학식 5]
유사하게, 본 발명은
Figure pat00025
와 올바른 목표값 v 사이의 거리가 컬러 임계값 δ를 초과하는 가장 작은 인덱스를 갖는 메모리 슬롯으로서 n b 를 정의할 수 있으며, 이때 컬러 임계값 δ 는 하기의 [수학식 6]과 같이 나타낼 수 있다.
Figure pat00026
[수학식 6]
마지막으로, 본 발명의 일 실시예에 따른 임계값 삼중 손실은 하기의 [수학식 7]과 같이 나타낼 수 있다.
Figure pat00027
[수학식 7]
상기와 같은 본 발명의 임계값 삼중 손실은 양의 키 및 쿼리 사이의 거리를 최소화하면서 음의 키와 쿼리 간의 거리를 최대화한다.
도 5 는 본 발명의 일 실시예에 따른 임계값 삼중 손실에 기초한 컬러링 결과를 예시한 것이다.
본 발명에 따르면 i) 유사한 공간 피처를 가지고(예를 들어, k번째 가까운 이웃), ii) 유사한 칼라 피처를 가진(예를 들어, 특정 임계값 내의 컬러 거리) 이미지들은 동일 클래스 내에 속한다. 본 발명에 따르면 임계값 삼중 손실은 상기 i) 및 ii) 를 전제로 하여 산출된다. 도 5 는 대상 이미지에 대하여 본 발명의 메모리 네트워크로부터 도출된 상위 3가지 컬러 피처를 적용한 예시이다. 도 5 를 참조하면, 임계값 삼중 손실을 사용하여, 본 발명의 메모리 네트워크는 쿼리 이미지의 컨텐츠와 관련성이 높은 컬러 피처를 도출하도록 훈련된 것을 알 수 있다.
보다 상세히, 도 5 의 상위 3개(top-1, top-2, top-3)에 대응하는 이미지는 쿼리 이미지와 동일한 클래스를 가진 것을 알 수 있다. 특히, 첫번째 행, 즉 만화 이미지에서는 상위 3개의 이미지들이 동일한 캐릭터, 옷, 배경을 공유한다. 이는 임계값 삼중 손실이 본 발명의 메모리 네트워크로 하여금 쿼리 이미지의 내용과 관련성이 높은 컬러 피처를 검색할 수 있도록 임계값 삼중 손실이 역할할 수 있도록 한다.
다음으로, 업데이트부(215)는 최상위 값과 새롭게 입력된 쿼리의 값 간의 거리가 임계값 이내인지 여부에 기초하여 메모리를 업데이트한다(S6). 본 발명의 일 실시예에 따른 메모리 M 은 새로운 쿼리 q가 네트워크에 도입된 후에 업데이트된다. 메모리는 최상위 값(top-1 value)
Figure pat00028
과 올바른 값 v (예를 들어, 새로운 쿼리 이미지의 컬러 피처) 간의 거리가 컬러 임계값 내에 있는지에 따라 하기의 (i) 및 (ii)과 같이 업데이트될 수 있다.
(i)
Figure pat00029
v 사이의 거리가 컬러 임계값 내인 경우(도 4 의 Case 1 에 해당함), 본 발명은
Figure pat00030
및 q 을 평균하고 정규화하여 키를 업데이트한다. n 1 의 에이지도 0으로 재설정된다.
Figure pat00031
일때 업데이트의 표기는 하기의 [수학식 8]과 같이 나타낼 수 있다.
Figure pat00032
[수학식 8]
(ii)
Figure pat00033
과 v 사이의 거리가 컬러 임계값을 초과하는 경우(도 4 의 Case 2 에 해당함), 이는 현재 메모리에서 v와 일치하는 메모리 슬롯이 없음을 나타낸다. 따라서, (q,v)는 메모리에 새롭게 기록될 수 있다. 본 발명에서는 랜덤하게 가장 오래된 에이지를 가진 메모리 슬롯(예를 들어, 가장 최근에 사용된 슬롯)을 선택하고, 선택된 메모리 슬롯을 n r 로 표기하고, 그 슬롯을 (q,v)로 대체한다. 또한, 본 발명에서는 교체된 슬롯의 에이지를 0으로 재설정할 수 있다. 보다 상세히,
Figure pat00034
일 때, 업데이트는 하기의 [수학식 9]와 같이 나타낼 수 있다.
Figure pat00035
[수학식 9]
다음으로, 컬러링 네트워크(220)는 메모리 네트워크에서 생성한 컬러 피처에 기초하여 컬러링을 수행한다. 본 발명의 컬러링 네트워크는 생성기(generator, 221) G 와 판별기(discriminator, 222) D 로 이루어진 조건부 생성적 적대적 네트워크(conditional generative adversarial networks)이다. 생성기(221) 및 판별기(222)에 대해서는, 하기에서 설명하는 본 발명의 특징적인 구성을 제외하면 기존의 딥러닝 알고리즘의 알려진 구성을 차용할 수 있다.
본 발명의 일 실시예에 따르면 판별기(222)는 그레이 스케일 이미지와 컬러 피처를 조건으로 사용하여 실제 이미지와 컬러 출력을 구분하는 반면, 생성기(221)는 그레이스케일 입력 X 및 컬러 피처 C 가 있는 사실적인 컬러 이미지를 생성함으로써 판별기(222)를 속인다. 생성된 출력 G (x, C)와 그라운드 트루스(ground-truth) 이미지 y 사이의 부드러운 L 1 손실은 생성기의 목적 함수에 하기의 [수학식 10]과 같이 더해진다.
Figure pat00036
[수학식 10]
상기와 같은 본 발명에 따르면, 생성기(221)가 그라운드 트루스 이미지에서 너무 멀리 벗어나지 않는 출력을 생성할 수 있다. DG 에 대한 본 발명의 완전한 목적 함수는 하기의 [수학식 11] 및 [수학식 12]와 같이 나타낼 수 있다.
Figure pat00037
[수학식 11]
Figure pat00038
[수학식 12]
훈련 과정에서, 본 발명은 그라운드 트루스 이미지로부터 컬러 피처를 추출하여 생성기(221)과 판별기(222)를 훈련시킨다.
도 6 은 본 발명의 일 실시예에 따른 시험 기간 동안 색상 값을 생성기에 제공하는 것을 설명하기 위한 도면이다.
도 6 을 참조하면, 시험 시간(test time) 동안, 본 발명은 메모리 네트워크에서 검색된 색상 값을 사용하여 도 5 와 같이 훈련된 생성기에 조건으로 제공한다. 보다 상세히, 입력 이미지로부터 생성된 쿼리 q 에 기초하여 k-가장 가까운 이웃을 결정하고, 최상위 컬러 피처를 추출하여 다층신경망(MLP, Multi-layer Perceptron)을 통과시켜 AdaIn 파라미터(AdaIN Parameters)를 생성하여 검색된 색상 값을 생성기에 제공한다. 또한, 본 발명은 발전기 네트워크의 아키넥처를 판별기의 아키텍처에 적용한다.
본 발명의 일 실시예에 따른 컬러링 과정을 보다 상세히 살펴보면, 본 발명은 입력 이미지를 적응형 인스턴스 정규화로 채색(Coloring with Adaptive Instance Normalization)한다. 컬러링(colorization)는 일반적으로 스타일 이전(style transfer)과 관련하여 처음으로 인지되는 것은 아니다. 스타일 이전은 참조 이미지의 색상을 대상 이미지로 전송하는 작업으로서, 본 발명의 컬러화 작업은 실제 목표 회색 음영 이미지로 컬러 피처를 전송하는 작업과 같은 것으로 볼 수 있다. 이러한 관점에서 본 발명은 효과적으로 스타일을 이전하기 위하여 스타일 정보 전달에 효과적인 Adaptive Instance Normalization (AdaIN) 를 적용한다. 즉, 하기의 [수학식 13]과 같은 본 발명의 파라미터-회귀 네트워크(parameter-regression networks)에 컬러 피처를 직접적으로 공급함으로써, 본 발명은 AdaIN 모듈에서 사용된 아핀 변환 파라미터(affine transformation parameters)를 획득할 수 있다.
Figure pat00039
[수학식 13]
상기 [수학식 13] 에서, z 는 이전 컨볼루션(convolution) 레이어의 활성화로서, 이는 첫번째로 표준화되고 또한 표준 편차에 의해 스케일되며 컬러 피처 C 의 평균에 의해 쉬프트되는 것이다.
더불어, 도 4 에 나타난 바와 같이, 본 발명은 판별기(222)의 조건 입력(conditional input)으로 그레이스케일 이미지 및 컬러 피처를 모두 입력하여, 컬러링 성능을 높일 수 있다.
도 7 은 기존의 방법과 본 발명의 컬러링 방법을 적용한 결과를 나타낸 예시이다.
도 7 의 첫번째 열은 그라운드 트루스 이미지를 나타내고, 두번째 열은 기존의 컬러링 모델에 따른 결과를 나타내며, 세번째 열은 본 발명의 일 실시예에 따른 딥러닝 기반 컬러링 방법에 따른 결과를 나타낸 것이다. 두번째 및 세번째 열의 산출물은 각 접근법의 동일한 반복으로부터 획득된 것이다. 단순한 요소별 추가(Element-wise addition)로 색상 조건을 통합하는 기존의 컬러링 모델들과 비교할 때, 본 발명의 AdaIN 기반 방법을 사용하면 도 7 의 세번째 열과 같은 보다 생생하고 고퀄리티의 컬러링 결과를 얻을 수 있다.
상술한 바와 같은 본 발명은 다음과 같은 효과를 가진다. 첫번째로, 본 발명은 최소한의 데이터로 컬러링을 배울 수 있으므로 원샷(one shot) 혹은 몇개의 샷(few shot) 컬러링을 가능하게 할 수 있다. 이는, 본 발명의 메모리 네트워크가 주어진 훈련 데이터로부터 유용한 컬러 정보를 추출 및 저장하기 때문에 가능하다. 본 발명의 컬러링 모델에 입력이 주어지면 외부 메모리 네트워크에 질의하여 컬러링과 관련된 색 정보를 추출할 수 있다. 두번째로, 본 발명의 컬러링 모델은 빈번하지 않은 클래스의 이미지를 캡처할 수 있으며 기존의 컬러링 모델의 문제점이었던 도미넌트 컬러 효과를 해결할 수 있다. 보다 상세히, 본 발명에 따르면 메모리 네트워크는 공간 피처와 가장 유사한 키 메모리 값에 해당하는 값 메모리를 가져오도록 학습되므로, 희귀한 경우에도 지배적인 캐릭터의 색으로 일반화하여 채색하는 것이 아니라, 해당 캐릭터ㅢ 색에 맞는 컬러 피처를 채색하여 도미넌트 컬러 효과를 해결할 수 있다. 세번째로, 본 발명은 비감독(unsupervised) 환경에서 메모리 네트워크의 훈련을 가능케 하는 새로운 임계값 삼중 손실(threshold triplet loss)을 제공한다. 본 발명의 컬러링 모델에 따르면, 이미지를 성공적으로 색칠하기 위해 라벨링된 데이터를 필요로 하지 않는다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims (15)

  1. 공간 피처(spatial feature)와 관계된 키(key) 메모리, 컬러 피처(color feature)와 관계된 값(value) 메모리를 포함하도록 구성되고, 특정 쿼리에 대응하여 컬러 피처를 제공하는 메모리 네트워크; 및
    상기 메모리 네트워크에서 생성한 컬러 피처에 기초하여 컬러링(coloring)을 수행하는 컬러링 네트워크;
    를 포함하는 딥러닝 기반 컬러링 시스템에 있어서,
    상기 메모리 네트워크는,
    쿼리를 생성하는 쿼리 생성부;
    상기 쿼리와 키 메모리값들 간의 유사성에 기초하여 k번째 가까운 이웃(k-nearest neighbor)을 산출하는 이웃 산출부;
    상기 값 메모리에 저장된 색상 정보를 나타내기 위한 컬러 피처를 생성하는 컬러 피처 결정부;
    상기 컬러 피처들 간의 거리와 임계값의 비교에 기초하여 임계값 삼중 손실을 산출하는 임계값 삼중 손실 산출부;
    최상위 값과 새롭게 입력된 쿼리의 값 간의 거리가 임계값 이내인지 여부에 기초하여 메모리를 업데이트하는 메모리 업데이트부;
    를 포함하는, 딥러닝 기반 컬러링 시스템.
  2. 제 1 항에 있어서,
    상기 k번째 가까운 이웃은, 상기 쿼리와 상기 키 메모리값의 코사인 유사도에 기초하여, 상기 쿼리와 상기 공간 피처 간의 유사도가 1 내지 k 번째까지인 메모리 슬롯으로 결정되는, 딥러닝 기반 컬러링 시스템.
  3. 제 2 항에 있어서,
    상기 최상위 값은, 상기 k번째 가까운 이웃 중 1번째 가까운 이웃을 산출하였을 때 상기 쿼리와 코사인 유사도가 가장 높은 키 메모리값과 동일한 인덱스를 갖는 값 메모리값인, 딥러닝 기반 컬러링 시스템.
  4. 제 1 항에 있어서,
    상기 임계값 삼중 손실은 쿼리와 양의 키(positive key) 사이의 유사성을 최대화하고 쿼리와 음의 키(negative key) 사이의 유사성을 최소화하는 값인, 딥러닝 기반 컬러링 시스템.
  5. 제 4 항에 있어서,
    상기 양의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 미만인 값 메모리값 중, 가장 가까운 값 메모리값과 동일한 인덱스의 키 메모리값이고,
    상기 음의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 초과인 값 메모리값 중, 가장 거리가 작은 값 메모리값과 동일한 인덱스의 키 메모리값인, 딥러닝 기반 컬러링 시스템.
  6. 제 1 항에 있어서,
    상기 컬러 피처는 2가지 변이값(variant)를 가지며, 상기 2가지 변이값은 이미지 별로 기설정된 313개의 색이 얼만큼 있는지에 대한 확률값을 구한 것인 Cdist와, 기설정된 라이브러리를 이용하여 이미지 별 가장 지배적인 10개의 픽셀값을 추출한 CRGB 인, 딥러닝 기반 컬러링 시스템.
  7. 제 1 항에 있어서,
    상기 메모리 네트워크는,
    상기 k번째 가까운 이웃에 대응하는 공간 피처 및 상기 임계값 미만의 쿼리와의 컬러 거리에 대응하는 컬러 피처를 갖는 이미지들은 서로 동일 클래스에 속한다고 판단하는, 딥러닝 기반 컬러링 시스템.
  8. 제 1 항에 있어서,
    상기 컬러링 네트워크는 생성기 및 판별기를 포함하고,
    상기 판별기는 그레이스케일(gray scale) 입력 이미지 및 상기 컬러 피처를 입력받는, 딥러닝 기반 컬러링 시스템.
  9. 제 1 항에 있어서,
    상기 메모리 네트워크는 에이지(age)를 추가적으로 저장하도록 구성되며, 상기 에이지는 메모리에 저장된 항목의 수명을 나타내는, 딥러닝 기반 컬러링 시스템.
  10. 쿼리를 생성하는 단계;
    상기 쿼리와 키 메모리값들 간의 유사성에 기초하여 k번째 가까운 이웃(k-nearest neighbor)을 산출하는 단계;
    상기 값 메모리에 저장된 색상 정보를 나타내기 위해 컬러 피처를 생성하는 단계;
    상기 컬러 피처들 간의 거리와 임계값의 비교에 기초하여 임계값 삼중 손실을 산출하는 단계;
    최상위 값과 새롭게 입력된 쿼리의 값 간의 거리가 상기 임계값 이내인지 여부에 기초하여 메모리를 업데이트하는 단계;
    를 포함하는, 딥러닝 기반 컬러링 방법.
  11. 제 10 항에 있어서,
    상기 k번째 가까운 이웃은, 상기 쿼리와 상기 키 메모리값의 코사인 유사도에 기초하여, 상기 쿼리와 공간 피처 간의 유사도가 1 내지 k 번째까지인 메모리 슬롯으로 결정되는, 딥러닝 기반 컬러링 방법.
  12. 제 11 항에 있어서,
    상기 최상위 값은, 상기 k번째 가까운 이웃 중 1번째 가까운 이웃을 산출하였을 때 상기 쿼리와 코사인 유사도가 가장 높은 키 메모리값과 동일한 인덱스를 갖는 값 메모리값인, 딥러닝 기반 컬러링 방법.
  13. 제 10 항에 있어서,
    상기 임계값 삼중 손실은 쿼리와 양의 키(positive key) 사이의 유사성을 최대화하고 쿼리와 음의 키(negative key) 사이의 유사성을 최소화하는 값으로서,
    상기 양의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 미만인 값 메모리값 중, 가장 가까운 값 메모리값과 동일한 인덱스의 키 메모리값이고,
    상기 음의 키는 상기 쿼리의 컬러 피처값과 거리가 상기 임계값 초과인 값 메모리값 중, 가장 거리가 작은 값 메모리값과 동일한 인덱스의 키 메모리값인, 딥러닝 기반 컬러링 방법.
  14. 제 10 항에 있어서,
    상기 컬러 피처는 2가지 변이값(variant)를 가지며, 상기 2가지 변이값은 이미지 별로 기설정된 313개의 색이 얼만큼 있는지에 대한 확률값을 구한 것인 Cdist와, 기설정된 라이브러리를 이용하여 이미지 별 가장 지배적인 10개의 픽셀값을 추출한 CRGB 인, 딥러닝 기반 컬러링 방법.
  15. 제10항 내지 제14항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
KR1020190038612A 2019-04-02 2019-04-02 딥러닝 기반 컬러링 방법, 시스템 및 프로그램 KR102211762B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190038612A KR102211762B1 (ko) 2019-04-02 2019-04-02 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
PCT/KR2020/004476 WO2020204610A1 (ko) 2019-04-02 2020-04-01 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
US17/449,710 US11816145B2 (en) 2019-04-02 2021-10-01 Method, system and computer program for coloring based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190038612A KR102211762B1 (ko) 2019-04-02 2019-04-02 딥러닝 기반 컬러링 방법, 시스템 및 프로그램

Publications (2)

Publication Number Publication Date
KR20200116767A true KR20200116767A (ko) 2020-10-13
KR102211762B1 KR102211762B1 (ko) 2021-02-04

Family

ID=72667199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190038612A KR102211762B1 (ko) 2019-04-02 2019-04-02 딥러닝 기반 컬러링 방법, 시스템 및 프로그램

Country Status (3)

Country Link
US (1) US11816145B2 (ko)
KR (1) KR102211762B1 (ko)
WO (1) WO2020204610A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220048577A (ko) * 2020-10-13 2022-04-20 엔에이치엔 주식회사 딥러닝 기반 이미지 채색 방법 및 시스템
WO2023211000A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 컨볼루션 뉴럴 네트워크를 이용한 영상 처리 방법, 전자 디바이스, 및 저장매체

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101191172B1 (ko) * 2012-02-15 2012-10-15 (주)올라웍스 이미지 데이터베이스의 이미지들을 관리하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2017006104A1 (en) * 2015-07-07 2017-01-12 Touchtype Ltd. Improved artificial neural network for language modelling and prediction
KR20190028235A (ko) * 2017-09-08 2019-03-18 삼성전자주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
KR20190118816A (ko) * 2018-04-11 2019-10-21 한국전자통신연구원 통계적 메모리 네트워크 방법 및 장치
US10496924B1 (en) * 2018-08-07 2019-12-03 Capital One Services, Llc Dictionary DGA detector model

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460231B2 (en) * 2015-12-29 2019-10-29 Samsung Electronics Co., Ltd. Method and apparatus of neural network based image signal processor
KR102400017B1 (ko) * 2017-05-17 2022-05-19 삼성전자주식회사 객체를 식별하는 방법 및 디바이스
AU2018308418A1 (en) 2017-07-26 2020-01-16 Magic Leap, Inc. Training a neural network with representations of user interface devices
KR102002902B1 (ko) * 2017-10-13 2019-07-24 네이버랩스 주식회사 퍼스널 모빌리티
US11663642B2 (en) * 2019-10-07 2023-05-30 Salesforce, Inc. Systems and methods of multicolor search of images
US11709885B2 (en) * 2020-09-18 2023-07-25 Adobe Inc. Determining fine-grain visual style similarities for digital images by extracting style embeddings disentangled from image content
US20230222154A1 (en) * 2022-01-07 2023-07-13 Capital One Services, Llc Using tracking pixels to determine areas of interest on a zoomed in image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101191172B1 (ko) * 2012-02-15 2012-10-15 (주)올라웍스 이미지 데이터베이스의 이미지들을 관리하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2017006104A1 (en) * 2015-07-07 2017-01-12 Touchtype Ltd. Improved artificial neural network for language modelling and prediction
KR20190028235A (ko) * 2017-09-08 2019-03-18 삼성전자주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
KR20190118816A (ko) * 2018-04-11 2019-10-21 한국전자통신연구원 통계적 메모리 네트워크 방법 및 장치
US10496924B1 (en) * 2018-08-07 2019-12-03 Capital One Services, Llc Dictionary DGA detector model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220048577A (ko) * 2020-10-13 2022-04-20 엔에이치엔 주식회사 딥러닝 기반 이미지 채색 방법 및 시스템
WO2023211000A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 컨볼루션 뉴럴 네트워크를 이용한 영상 처리 방법, 전자 디바이스, 및 저장매체

Also Published As

Publication number Publication date
KR102211762B1 (ko) 2021-02-04
WO2020204610A1 (ko) 2020-10-08
US20220092106A1 (en) 2022-03-24
US11816145B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
Haeusser et al. Associative deep clustering: Training a classification network with no labels
Wang et al. Low-shot learning from imaginary data
CN110021051B (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
Cakir et al. Mihash: Online hashing with mutual information
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
Deng et al. High-performance visual tracking with extreme learning machine framework
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
Han et al. Spatial-temporal context-aware tracking
Sinha et al. Dibs: Diversity inducing information bottleneck in model ensembles
JP4543644B2 (ja) データ認識装置
Deng et al. Facial landmark localization by enhanced convolutional neural network
US11816145B2 (en) Method, system and computer program for coloring based on deep learning
CN112001488A (zh) 训练生成型对抗性网络
SG171858A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
Porikli Learning object trajectory patterns by spectral clustering
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
Huo et al. Semisupervised learning based on a novel iterative optimization model for saliency detection
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN115205903A (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
Zhou et al. Illumination correction of dyed fabrics approach using Bagging-based ensemble particle swarm optimization–extreme learning machine
Yeh et al. Dynamic visual category learning
Nascimento et al. Modeling and classifying human activities from trajectories using a class of space-varying parametric motion fields
Martinel Accelerated low-rank sparse metric learning for person re-identification
Yamashita et al. Cost-alleviative learning for deep convolutional neural network-based facial part labeling

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant