KR102580658B1 - 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법 - Google Patents
스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법 Download PDFInfo
- Publication number
- KR102580658B1 KR102580658B1 KR1020220079047A KR20220079047A KR102580658B1 KR 102580658 B1 KR102580658 B1 KR 102580658B1 KR 1020220079047 A KR1020220079047 A KR 1020220079047A KR 20220079047 A KR20220079047 A KR 20220079047A KR 102580658 B1 KR102580658 B1 KR 102580658B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- catalog
- sketch
- object detection
- fine
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 101
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 79
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000011426 transformation method Methods 0.000 claims 1
- 238000010187 selection method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009246 art therapy Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G06T3/0056—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법에 관한 것으로, 상기 장치는 드로잉 카탈로그를 생성하는 드로잉 카탈로그 생성부; 카탈로그 이미지 생성 모델을 상기 드로잉 카탈로그 별로 구축하는 모델 구축부; 각 스케치 이미지에 대해 상기 드로잉 카탈로그별 스타일 이미지들로 변환하는 이미지 변환부; 상기 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 상기 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성하는 미세조정 수행부; 및 상기 미세조정된 객체 탐지 모델들의 특정 성능지표를 기준으로 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정하는 카탈로그 결정부;를 포함한다.
Description
본 발명은 이미지 변환 기술에 관한 것으로, 보다 상세하게는 그람 매트릭스를 통해 도출한 드로잉 이미지의 특징을 클러스터링하여 드로잉 카탈로그 벡터를 추출 및 선별하고, 선별된 카탈로그를 활용하여 CycleGAN으로 형태를 유지하면서 스타일을 바꾸는 스케치 이미지 변환 시스템에 관한 것이다.
객체 탐지(Object Detection)는 이미지 및 비디오로부터 시맨틱(Semantic) 객체 인스턴스를 감지하는 기술로, 영상 처리와 컴퓨터 비전 분야에서 활용되고 있다. 객체 탐지는 경계 박스(Bounding Box) 예측을 통한 객체 위치 탐지와 각 객체가 어떠한 객체인지 파악하는 분류를 동시에 시행하여 이미지의 객체 정보를 식별할 수 있다. 최근에는 딥러닝 기술의 발전으로 다양한 객체 탐지 알고리즘이 고안되고 있으며, 대표적으로 YOLO(You Only Look Once) 계열 알고리즘이 속도 및 성능 면에서 우수성을 보이고 있다.
이러한 이미지 딥러닝의 발전에도, 객체 탐지는 학습 및 추론에 사용되는 이미지 자체의 종류나 품질에 따라 문제 해결 난이도가 상이한 문제가 있다. 이러한 현상은 사전학습된 모델의 일반화 성능, 즉 학습된 데이터가 아닌 상이한 도메인 데이터를 추론할 때 성능 저하를 야기할 수 있다. 해당 문제를 해결하기 위해 가장 흔히 사용되는 방법은 도메인 별 데이터를 각각 사전학습된 모델로 미세조정하여, 개별 도메인 특화 모델을 만드는 것이다.
하지만, 이러한 데이터 자체를 변환하는 기술의 발전에도 불구하고, 스케치 이미지의 경우 기존에 존재하는 방법으로는 객체 탐지의 성능이 떨어진다는 한계가 있다. 일반적으로 스케치는 특정 대상의 특징, 모양 및 형태를 개략적으로 그린 것으로, 형태적 비일관성과 묘사의 간소화 등으로 객체 탐지 성능 하락의 문제가 발생할 수 있다.
본 발명의 일 실시예는 그람 매트릭스로 유사한 스타일의 드로잉 이미지를 클러스터링하여 객체 카탈로그 후보를 선정하고, CycleGAN으로 스케치 이미지를 변환한 뒤, 객체 탐지 성능 비교를 통해 스케치 특화 객체 카탈로그를 선정할 수 있는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법을 제공하고자 한다.
실시예들 중에서, 스케치 이미지 객체 탐지를 위한 이미지 변환 장치는 드로잉(drawing) 이미지 데이터셋의 각 드로잉 이미지로부터 추출된 그람 매트릭스(gram matrix)들을 클러스터링(clustering)하여 드로잉 카탈로그를 생성하는 드로잉 카탈로그 생성부; 스케치(sketch) 이미지를 입력으로 수신하여 각 드로잉 카탈로그의 스타일로 변환된 스타일 이미지를 출력으로 생성하는 카탈로그 이미지 생성 모델을 상기 드로잉 카탈로그 별로 구축하는 모델 구축부; 상기 카탈로그 이미지 생성 모델을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 상기 드로잉 카탈로그별 스타일 이미지들로 변환하는 이미지 변환부; 상기 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 상기 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성하는 미세조정 수행부; 및 상기 미세조정된 객체 탐지 모델들의 특정 성능지표를 기준으로 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정하는 카탈로그 결정부;를 포함한다.
상기 드로잉 카탈로그 생성부는 상기 각 드로잉 이미지를 CNN(Convolution Neural Network)에 입력하고 상기 CNN의 개별 레이어 간의 채널(Channel)별 내적(product)을 통해 상기 그람 매트릭스를 생성할 수 있다.
상기 드로잉 카탈로그 생성부는 IMSAT(Information Maximizing Self-Augmented Training) 알고리즘을 이용하여 상기 그람 매트릭스들의 값에 관한 군집들을 상기 드로잉 카탈로그로서 생성할 수 있다.
상기 모델 구축부는 제1 도메인의 참조 이미지의 스타일을 제2 도메인의 타겟 이미지로 변환하는 CycleGAN을 기초로 상기 카탈로그 이미지 생성 모델을 구축할 수 있다.
상기 모델 구축부는 상기 스케치 이미지를 상기 제1 도메인으로 지정하고 상기 드로잉 카탈로그를 상기 제2 도메인으로 지정하여 상기 드로잉 카탈로그 별로 상기 CycleGAN에 관한 학습을 독립적으로 수행할 수 있다.
상기 미세조정 수행부는 상기 사전학습된 YOLO(You Only Look Once)를 미세조정하여 미세조정된 YOLO를 생성할 수 있다.
상기 카탈로그 결정부는 상기 미세조정된 객체 탐지 모델들의 mAP를 산출한 다음 가장 높은 mAP에 해당하는 모델을 상기 최상위 모델로 결정할 수 있다.
상기 이미지 변환 장치는 사용자 단말로부터 특정 스케치 이미지가 입력되면 상기 특정 스케치 이미지를 상기 스케치 특화 객체 카탈로그의 스타일로 변환하는 제1 과정과 스타일 변환된 특정 스케치 이미지 내에서 객체를 탐지하는 제2 과정을 수행하여 상기 특정 스케치 이미지에 관한 객체 탐지 결과를 생성하는 객체 탐지부;를 더 포함할 수 있다.
상기 객체 탐지부는 상기 제1 과정에서 상기 스케치 특화 객체 카탈로그의 카탈로그 이미지 생성 모델을 적용하고 상기 제2 과정에서 상기 스케치 특화 객체 카탈로그의 미세조정된 객체 탐지 모델을 적용할 수 있다.
실시예들 중에서, 스케치 이미지 객체 탐지를 위한 이미지 변환 방법은 드로잉 카탈로그 생성부를 통해, 드로잉(drawing) 이미지 데이터셋의 각 드로잉 이미지로부터 추출된 그람 매트릭스(gram matrix)들을 클러스터링(clustering)하여 드로잉 카탈로그를 생성하는 단계; 모델 구축부를 통해, 스케치(sketch) 이미지를 입력으로 수신하여 각 드로잉 카탈로그의 스타일로 변환된 스타일 이미지를 출력으로 생성하는 카탈로그 이미지 생성 모델을 상기 드로잉 카탈로그 별로 구축하는 단계; 이미지 변환부를 통해, 상기 카탈로그 이미지 생성 모델을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 상기 드로잉 카탈로그별 스타일 이미지들로 변환하는 단계; 미세조정 수행부를 통해, 상기 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 상기 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성하는 단계; 및 카탈로그 결정부를 통해, 상기 미세조정된 객체 탐지 모델들의 특정 성능지표를 기준으로 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정하는 단계;를 포함한다.
상기 상기 드로잉 카탈로그 별로 구축하는 단계는 제1 도메인의 참조 이미지의 스타일을 제2 도메인의 타겟 이미지로 변환하는 CycleGAN을 기초로 상기 카탈로그 이미지 생성 모델을 구축하는 단계를 포함할 수 있다.
상기 미세조정된 객체 탐지 모델들을 생성하는 단계는 상기 사전학습된 YOLO(You Only Look Once)를 미세조정하여 미세조정된 YOLO를 생성하는 단계를 포함할 수 있다.
상기 이미지 변환 방법은 객체 탐지부를 통해, 사용자 단말로부터 특정 스케치 이미지가 입력되면 상기 특정 스케치 이미지를 상기 스케치 특화 객체 카탈로그의 스타일로 변환하는 제1 과정과 스타일 변환된 특정 스케치 이미지 내에서 객체를 탐지하는 제2 과정을 수행하여 상기 특정 스케치 이미지에 관한 객체 탐지 결과를 생성하는 단계;를 더 포함할 수 있다.
상기 객체 탐지 결과를 생성하는 단계는 상기 제1 과정에서 상기 스케치 특화 객체 카탈로그의 카탈로그 이미지 생성 모델을 적용하고 상기 제2 과정에서 상기 스케치 특화 객체 카탈로그의 미세조정된 객체 탐지 모델을 적용하는 단계를 포함할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법은 딥러닝을 활용한 객체 탐지 분야에서 난제로 여겨진 스케치 이미지의 분류 성능 및 객체 탐지 알고리즘의 강건함을 향상시킬 수 있다.
본 발명의 일 실시예에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법은 CycleGAN을 활용하여 이미지 변환을 수행함으로써 객체의 외관을 훼손하지 않아 객체의 크기 및 위치가 중요한 태스크(Task)에도 적용 가능하며, 특정 도메인 스케치 이미지 데이터의 효율적 선택 방안을 제공할 수 있다.
도 1은 본 발명에 따른 이미지 변환 시스템을 설명하는 도면이다.
도 2는 도 1의 이미지 변환 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 이미지 변환 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 설명하는 순서도이다.
도 5는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 과정을 설명하는 도면이다.
도 6은 본 발명에 따른 그람 매트릭스의 생성 과정을 설명하는 도면이다.
도 7은 본 발명에 따른 드로잉 카탈로그의 일 실시예를 설명하는 도면이다.
도 8은 본 발명에 따른 카탈로그 이미지 생성 모델의 구축을 위한 CycleGAN의 학습 과정을 설명하는 도면이다.
도 9는 본 발명에 따른 CycleGAN을 이용한 추론 이미지 생성 과정의 일 실시예를 설명하는 도면이다.
도 10은 본 발명에 따른 mAP 기준 드로잉 카탈로그 선정 과정의 일 실시예를 설명하는 도면이다.
도 2는 도 1의 이미지 변환 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 이미지 변환 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 설명하는 순서도이다.
도 5는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 과정을 설명하는 도면이다.
도 6은 본 발명에 따른 그람 매트릭스의 생성 과정을 설명하는 도면이다.
도 7은 본 발명에 따른 드로잉 카탈로그의 일 실시예를 설명하는 도면이다.
도 8은 본 발명에 따른 카탈로그 이미지 생성 모델의 구축을 위한 CycleGAN의 학습 과정을 설명하는 도면이다.
도 9는 본 발명에 따른 CycleGAN을 이용한 추론 이미지 생성 과정의 일 실시예를 설명하는 도면이다.
도 10은 본 발명에 따른 mAP 기준 드로잉 카탈로그 선정 과정의 일 실시예를 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명에 따른 이미지 변환 시스템을 설명하는 도면이다.
도 1을 참조하면, 이미지 변환 시스템(100)은 사용자 단말(110), 이미지 변환 장치(130) 및 데이터베이스(150)을 포함할 수 있다.
사용자 단말(110)은 사용자에 의해 운용되는 단말 장치에 해당할 수 있다. 본 발명의 실시예에서 사용자는 하나 이상의 사용자로 이해될 수 있으며, 하나 이상의 사용자들 각각은 하나 이상의 사용자 단말(110)에 대응될 수 있다. 즉, 도 1에서는 하나의 사용자 단말(110)로 표현되어 있으나, 제1 사용자는 제1 사용자 단말, 제2 사용자는 제2 사용자 단말, ..., 제n(상기 n은 자연수) 사용자는 제n 사용자 단말에 각각 대응될 수 있다.
또한, 사용자 단말(110)은 본 발명에 따른 이미지 변환 시스템(100)을 구성하는 하나의 장치로서 구현될 수 있으며, 이미지 변환 시스템(100)은 스케치 이미지 객체 탐지를 위한 이미지 변환 목적에 따라 다양한 형태로 변형되어 구현될 수 있다.
또한, 사용자 단말(110)은 이미지 변환 장치(130)와 연결되어 동작 가능한 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 포함하여 다양한 디바이스로도 구현될 수 있다. 특히, 사용자 단말(110)은 스케치 이미지를 입력할 수 있는 전용 인터페이스를 제공하도록 구현될 수 있다. 예를 들어, 사용자는 사용자 단말(110) 상에서 실행되는 전용 인터페이스를 통해 스케치 이미지를 직접 입력할 수 있다.
한편, 사용자 단말(110)은 이미지 변환 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 이미지 변환 장치(130)와 동시에 연결될 수도 있다.
이미지 변환 장치(130)는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 또한, 이미지 변환 장치(130)는 사용자 단말(110)과 유선 네트워크 또는 블루투스, WiFi, LTE 등과 같은 무선 네트워크로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 송·수신할 수 있다. 또한, 이미지 변환 장치(130)는 독립된 외부 시스템(도 1에 미도시함)과 연결되어 동작하도록 구현될 수 있다.
데이터베이스(150)는 이미지 변환 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(150)는 다양한 드로잉 이미지들 또는 스케치 이미지들을 포함하는 이미지 데이터셋에 관한 정보를 저장하거나 또는 그람 매트릭스 추출, 클러스터링, 카탈로그 학습 등을 위한 학습 알고리즘 및 학습 모델에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 이미지 변환 장치(130)가 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
또한, 도 1에서, 데이터베이스(150)는 이미지 변환 장치(130)와 독립적인 장치로서 도시되어 있으나, 반드시 이에 한정되지 않고, 논리적인 저장장치로서 이미지 변환 장치(130)에 포함되어 구현될 수 있음은 물론이다.
도 2는 도 1의 이미지 변환 장치의 시스템 구성을 설명하는 도면이다.
도 2를 참조하면, 이미지 변환 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함할 수 있다.
프로세서(210)는 본 발명의 실시예에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 프로시저를 실행할 수 있고, 이러한 과정에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄 할 수 있다. 프로세서(210)는 이미지 변환 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 이미지 변환 장치(130)의 CPU(Central Processing Unit) 또는 GPU(Graphics Processing Unit)로 구현될 수 있다.
메모리(230)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 이미지 변환 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다. 또한, 메모리(230)는 전기적으로 연결된 프로세서(210)에 의해 실행됨으로써 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 실행하는 명령들의 집합을 저장할 수 있다.
사용자 입출력부(250)은 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치 스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)은 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 이미지 변환 장치(130)는 독립적인 서버로서 수행될 수 있다.
네트워크 입출력부(270)은 네트워크를 통해 사용자 단말(110)과 연결되기 위한 통신 환경을 제공하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다. 또한, 네트워크 입출력부(270)는 학습 데이터의 무선 전송을 위해 WiFi, 블루투스 등의 근거리 통신 기능이나 4G 이상의 무선 통신 기능을 제공하도록 구현될 수 있다.
도 3은 도 1의 이미지 변환 장치의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 이미지 변환 장치(130)는 드로잉 카탈로그 생성부(310), 모델 구축부(320), 이미지 변환부(330), 미세조정 수행부(340), 카탈로그 결정부(350), 객체 탐지부(360) 및 제어부(도 3에 미도시함)를 포함할 수 있다.
드로잉 카탈로그 생성부(310)는 드로잉(drawing) 이미지 데이터셋의 각 드로잉 이미지로부터 추출된 그람 매트릭스(gram matrix)들을 클러스터링(clustering)하여 드로잉 카탈로그를 생성할 수 있다. 즉, 드로잉 카탈로그 생성부(310)는 데이터셋에 포함된 각 드로잉 이미지들에서 그람 매트릭스를 추출하고 그람 매트릭스 간의 유사성을 기초로 군집(cluster)들을 생성할 수 있다.
여기에서, 드로잉 이미지는 실물 이미지가 아닌 사람에 의해 만들어진 이미지에 해당할 수 있다. 예를 들어, 드로잉 이미지는 사람이 드로잉 툴(drawing tool)을 이용하여 그린 그림을 포함할 수 있다. 따라서, 드로잉 이미지 데이터셋은 드로잉 이미지들의 집합에 해당할 수 있다. 또한, 그람 매트릭스는 이미지로부터 추출된 특징 정보에 해당할 수 있으며, 행렬(matrix) 또는 벡터 형태로 표현될 수 있다. 한편, 그람 매트릭스의 집합(또는 군집)에 대응되는 드로잉 카탈로그는 드로잉 이미지들에서 추출된 드로잉 스타일을 나타낼 수 있으며, 유사한 스타일의 이미지들에 공통적으로 포함되는 특징 정보에 해당할 수 있다. 드로잉 카탈로그는 그람 매트릭스의 표현 형태에 따라 행렬(matrix) 또는 벡터 형태로 표현될 수 있다.
일 실시예에서, 드로잉 카탈로그 생성부(310)는 각 드로잉 이미지를 CNN(Convolution Neural Network)에 입력하고 CNN의 개별 레이어 간의 채널(Channel)별 내적(product)을 통해 그람 매트릭스를 생성할 수 있다. 여기에서, CNN은 이미지에서 특징 정보를 추출하기 위한 네트워크와 클래스를 분류하기 위한 네트워크로 구분될 수 있으며, 특징 추출 영역은 합성곱 층(convolution layer)과 풀링 층(pooling layer)이 여러 층으로 연결된 구조로 구성될 수 있다. 드로잉 카탈로그 생성부(310)는 드로잉 이미지가 입력되어 진행하는 동안 갱신되는 개별 레이어들 중 일부를 선택적으로 추출하여 채널별 내적을 통해 그람 매트릭스를 생성할 수 있다. 예를 들어, 선으로 이루어진 스케치 이미지를 객체 탐지에 유리한 그림 형태로 변환하는 경우, 그람 매트릭스는 저수준 레이어의 합성곱 층을 이용하여 생성될 수 있다.
일 실시예에서, 드로잉 카탈로그 생성부(310)는 IMSAT(Information Maximizing Self-Augmented Training) 알고리즘을 이용하여 그람 매트릭스들의 값에 관한 군집들을 드로잉 카탈로그로서 생성할 수 있다. 여기에서, IMSAT 알고리즘은 이미지를 이산 표현(discrete representation)으로 출력하는 과정에서 증강 데이터(augmented data)를 입력으로 사용하여 획득한 출력과의 차이를 줄이기 위하여 정규화(regularization)를 수행할 수 있으며, 입력과 출력의 상호정보량(mutual information)을 최대화하는 방향으로 학습이 진행될 수 있다. 드로잉 카탈로그 생성부(310)는 IMSAT 알고리즘을 활용하여 그람 매트릭스들에 관한 군집들을 생성하고 드로잉 카탈로그로 결정할 수 있다.
모델 구축부(320)는 스케치(sketch) 이미지를 입력으로 수신하여 각 드로잉 카탈로그의 스타일로 변환된 스타일 이미지를 출력으로 생성하는 카탈로그 이미지 생성 모델을 드로잉 카탈로그 별로 구축할 수 있다. 여기에서, 스케치는 생각하고 있는 이미지를 빠른 시간 안에 대략적으로 묘사하는 행위에 해당할 수 있으며, 스케치 이미지는 스케치로 생성된 그림에 해당할 수 있다. 주로 스케치 이미지는 선으로 이루어진 그림을 포함할 수 있으며, 스케치 도구와 방법에 따라 다양한 스타일로 생성될 수 있다.
즉, 모델 구축부(320)에 의해 구축되는 카탈로그 이미지 생성 모델은 스케치 이미지를 드로잉 카탈로그의 스타일로 변환한 스타일 이미지를 생성하는 딥러닝 모델에 해당할 수 있다. 카탈로그 이미지 생성 모델은 드로잉 카탈로그 별로 독립적으로 구축될 수 있다.
일 실시예에서, 모델 구축부(320)는 제1 도메인의 참조 이미지의 스타일을 제2 도메인의 타겟 이미지로 변환하는 CycleGAN을 기초로 카탈로그 이미지 생성 모델을 구축할 수 있다. CycleGAN은 두 도메인 사이에서 양방향으로 모델을 학습할 수 있으며, 구체적인 학습 과정은 도 8을 통해 설명한다. 모델 구축부(320)는 참조 이미지와 타켓 이미지를 CycleGAN의 각 도메인에 대응시킨 후 양방향 학습을 통해 카탈로그 이미지 생성 모델을 구축할 수 있다. 이에 따라, 카탈로그 이미지 생성 모델은 참조 이미지의 스타일(제1 도메인) 또는 타겟 이미지의 스타일(제2 도메인)로 변환된 이미지를 생성할 수 있다.
일 실시예에서, 모델 구축부(320)는 스케치 이미지를 제1 도메인으로 지정하고 드로잉 카탈로그를 제2 도메인으로 지정하여 드로잉 카탈로그 별로 CycleGAN에 관한 학습을 독립적으로 수행할 수 있다. 예를 들어, CycleGAN에 관한 학습은 스케치 이미지 데이터셋의 스케치 이미지를 특정 드로잉 카탈로그의 가짜 이미지로 생성하고, 생성된 가짜 이미지를 스케치 이미지로 복원하는 과정과 이를 역방향으로 수행하는 과정을 반복 수행하여 진행될 수 있다.
이미지 변환부(330)는 카탈로그 이미지 생성 모델을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 드로잉 카탈로그별 스타일 이미지들로 변환할 수 있다. 이미지 변환부(330)에 의해 변환된 스케치 이미지들은 객체 탐지 모델의 구축 과정에 활용될 수 있다. 카탈로그 이미지 생성 모델은 드로잉 카탈로그 별로 생성될 수 있으며, 이에 따라 하나의 스케치 이미지에 대해 드로잉 카탈로그의 개수만큼의 스타일 이미지들이 생성될 수 있다.
미세조정 수행부(340)는 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성할 수 있다. 여기에서, 객체 탐지 모델은 이미지를 입력으로 수신하여 이미지 내에서 객체 검출 결과를 출력으로 생성하는 딥러닝 모델에 해당할 수 있으며, 이미지와 객체 정보를 학습 데이터로 하여 사전학습을 통해 구축될 수 있다. 미세조정 수행부(340)는 사전학습된 객체 탐지 모델을 변환된 스케치 이미지로 미세조정하여 드로잉 카탈로그의 개수만큼 미세조정된 객체 탐지 모델들을 생성할 수 있다. 예를 들어, 드로잉 카탈로그가 3개인 경우 미세조정 수행부(340)는 하나의 사전학습된 객체 탐지 모델을 기초로 총 3개의 미세조정된 객체 탐지 모델들을 생성할 수 있다.
일 실시예에서, 미세조정 수행부(340)는 사전학습된 YOLO(You Only Look Once)를 미세조정하여 미세조정된 YOLO를 생성할 수 있다. 여기에서, YOLO는 딥러닝 기반의 객체 탐지 알고리즘에 해당할 수 있으며, 단일 신경망 구조의 모델로 구현될 수 있다. 즉, YOLO는 구성이 단순하다는 점에서 다른 딥러닝 알고리즘에 비해 처리 속도가 빠른 장점을 가질 수 있으며, 높은 mAP(mean Average Precision)를 제공할 수 있다. 미세조정 수행부(340)는 드로잉 카탈로그 별로 스타일 변환된 스케치 이미지들을 이용하여 사전학습된 YOLO(You Only Look Once)에 대한 추가적인 학습을 진행함으로써 사전 구축된 모델의 파라미터들을 업데이트할 수 있다. 결과적으로, 미세조정된 YOLO는 각 드로잉 카탈로그의 스타일을 가진 스케치 이미지에 대해 보다 높은 객체 탐지 성능을 제공할 수 있다.
카탈로그 결정부(350)는 미세조정된 객체 탐지 모델들의 특정 성능지표를 기준으로 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정할 수 있다. 여기에서, 스케치 특화 객체 카탈로그는 스케치 이미지에 대해 최상의 객체 탐지 성능을 제공할 수 있는 드로잉 카탈로그에 해당할 수 있다. 즉, 카탈로그 결정부(350)는 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 이용하여 스케치 이미지들에 관한 객체 탐지 성능을 평가할 수 있으며, 평가 결과 도출된 성능지표 간의 비교를 통해 가장 높은 성능을 제공하는 최상위 모델을 결정할 수 있다.
일 실시예에서, 카탈로그 결정부(350)는 미세조정된 객체 탐지 모델들의 mAP(mean Average Precision)를 산출한 다음 가장 높은 mAP에 해당하는 모델을 최상위 모델로 결정할 수 있다. 여기에서, mAP는 객체 탐지에 있어 탐지 정확도를 평가하는 성능지표에 해당할 수 있다. 카탈로그 결정부(350)는 미세조정된 객체 탐지 모델을 이용하여 평가를 위한 객체 탐지를 수행할 수 있으며, 이미지 상에서 탐지된 객체의 각 클래스(class)에 대해 평균 정확도(AP, Average Precision)를 산출할 수 있다. 카탈로그 결정부(350)는 산출된 AP들을 평균하여 mAP를 산출할 수 있으며, 산출된 mAP를 기준으로 최상위 모델을 결정할 수 있다.
객체 탐지부(360)는 사용자 단말(110)로부터 특정 스케치 이미지가 입력되면 특정 스케치 이미지를 스케치 특화 객체 카탈로그의 스타일로 변환하는 제1 과정과 스타일 변환된 특정 스케치 이미지 내에서 객체를 탐지하는 제2 과정을 수행하여 특정 스케치 이미지에 관한 객체 탐지 결과를 생성할 수 있다. 이때, 객체 탐지 결과는 특정 스케치 이미지 내에서 탐지된 객체의 레이블(label), 경계 박스(bounding box) 등을 포함할 수 있다. 이에 따라, 스타일 특화 객체 카탈로그의 스타일로 변환된 이미지 내에서 탐지된 객체 정보는 특정 스케치 이미지 상에서의 객체 정보에 대응될 수 있다. 객체 탐지부(360)는 객체 탐지를 위해 스케치 이미지를 그대로 활용하는 대신 객체 탐지에 최적화된 스타일로 변환 후 변환된 이미지를 이용하여 객체 탐지를 수행함으로써 보다 정확도 높은 탐지 결과를 생성할 수 있다.
일 실시예에서, 객체 탐지부(360)는 제1 과정에서 스케치 특화 객체 카탈로그의 카탈로그 이미지 생성 모델을 적용하고 제2 과정에서 스케치 특화 객체 카탈로그의 미세조정된 객체 탐지 모델을 적용할 수 있다. 객체 탐지부(360)는 스케치 특화 객체 카탈로그를 선정하는 과정에서 구축된 카탈로그 이미지 생성 모델과 미세조정된 객체 탐지 모델을 활용하여 스케치 이미지에 관한 객체 탐지 동작을 수행할 수 있다. 특히, 카탈로그 이미지 생성 모델은 CycleGAN을 활용하여 이미지 변환을 수행할 수 있으며, 이로 인해 객체의 외관을 훼손하지 않아 객체의 크기 및 위치가 중요한 태스크(Task)에도 적용될 수 있다. 예를 들어, 피검사자가 직접 그린 스케치로 심리 검사를 수행하는 미술치료 분야에서의 자동화에 기여할 수 있다.
제어부(도 3에 미도시함)는 이미지 변환 장치(130)의 전체적인 동작을 제어하고, 드로잉 카탈로그 생성부(310), 모델 구축부(320), 이미지 변환부(330), 미세조정 수행부(340), 카탈로그 결정부(350) 및 객체 탐지부(360) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 4는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 설명하는 순서도이다.
도 4를 참조하면, 이미지 변환 장치(130)는 드로잉 카탈로그 생성부(310)를 통해 드로잉(drawing) 이미지 데이터셋의 각 드로잉 이미지로부터 추출된 그람 매트릭스(gram matrix)들을 클러스터링(clustering)하여 드로잉 카탈로그를 생성할 수 있다(단계 S410). 이미지 변환 장치(130)는 모델 구축부(320)를 통해 스케치(sketch) 이미지를 입력으로 수신하여 각 드로잉 카탈로그의 스타일로 변환된 스타일 이미지를 출력으로 생성하는 카탈로그 이미지 생성 모델을 드로잉 카탈로그 별로 구축할 수 있다(단계 S430).
또한, 이미지 변환 장치(130)는 이미지 변환부(330)를 통해 카탈로그 이미지 생성 모델을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 드로잉 카탈로그별 스타일 이미지들로 변환할 수 있다(단계 S450). 이미지 변환 장치(130)는 미세조정 수행부(340)를 통해 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성할 수 있다(단계 S470).
또한, 이미지 변환 장치(130)는 카탈로그 결정부(350)를 통해 미세조정된 객체 탐지 모델들의 특정 성능지표를 기준으로 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정할 수 있다(단계 S490). 일 실시예에서, 이미지 변환 장치(130)는 객체 탐지부(360)를 통해 사용자 단말(110)로부터 특정 스케치 이미지가 입력되면 특정 스케치 이미지를 스케치 특화 객체 카탈로그의 스타일로 변환하는 제1 과정과 스타일 변환된 특정 스케치 이미지 내에서 객체를 탐지하는 제2 과정을 수행하여 특정 스케치 이미지에 관한 객체 탐지 결과를 생성할 수 있다.
도 5는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 과정을 설명하는 도면이다.
도 5를 참조하면, 이미지 변환 장치(130)는 드로잉 이미지 데이터 셋으로부터 각각의 그람 매트릭스를 추출하고, IMSAT(Information Maximizing Self-Augmented Training) 알고리즘을 통해 비슷한 스타일의 이미지를 클러스터링하여 드로잉 카탈로그로 선정할 수 있다. 또한, 이미지 변환 장치(130)는 CycleGAN을 활용하여 스케치 이미지를 각 드로잉 카탈로그 스타일로 변환하는 카탈로그 이미지 생성 모델을 구축한 다음, 해당 모델들을 이용하여 스케치 이미지를 변환할 수 있다.
이후, 이미지 변환 장치(130)는 각 카탈로그 스타일로 변환된 스케치 이미지들로 사전학습된 YOLO를 미세조정할 수 있으며, 각 카탈로그 별로 미세조정된 YOLO들 중에서 최종적으로 mAP 기준 Top 1을 스케치 특화 객체 카탈로그로 선정할 수 있다.
결과적으로, 이미지 변환 장치(130)는 본 발명에 따른 스케치 이미지 객체 탐지를 위한 이미지 변환 방법을 수행할 수 있으며, 해당 방법은 특정 도메인 스케치 이미지 데이터의 효율적 선택 방안으로 활용될 수 있다. 구체적으로, 대량의 데이터 셋에서 소량만 사용하여 드로잉 카탈로그를 선정한 뒤, 전체 데이터 셋에 이를 적용하면 전처리가 요구되는 데이터의 양을 크게 줄일 수 있다.
도 6은 본 발명에 따른 그람 매트릭스의 생성 과정을 설명하는 도면이다.
도 6을 참조하면, 그람 매트릭스는 CNN의 개별 레이어 간의 채널(Channel)별 내적을 통해 생성될 수 있으며, 각각의 채널은 이미지의 계층적 특징을 표현하기 때문에 그람 매트릭스는 이미지를 표현하는 스타일 또는 카탈로그로 정의될 수 있다.
이미지 변환 장치(130)는 선으로 이루어진 스케치 이미지를 객체 탐지에 유리한 그림 형태로 변환하기 위해, 일반적인 질감 및 색상의 특징을 표현하는 저수준 레이어의 합성곱 층을 사용하여 그람 매트릭스를 생성할 수 있다.
먼저, 이미지 변환 장치(130)는 드로잉 이미지 데이터셋에 존재하는 모든 이미지로부터 그람 매트릭스를 추출할 수 있다. 이후, 이미지 변환 장치(130)는 딥러닝 기반으로 클러스터링의 성능을 향상시키는 IMSAT(Information Maximizing Self-Augmented Training) 알고리즘을 활용하여, 그람 매트릭스의 값이 유사한 군집을 도출할 수 있다. 이러한 과정은 드로잉 카탈로그 후보를 선별하는 과정에 해당할 수 있으며, 해당 후보가 이후 사용될 CycleGAN의 드로잉 카탈로그 데이터셋이 될 수 있다.
도 7은 본 발명에 따른 드로잉 카탈로그의 일 실시예를 설명하는 도면이다.
도 7을 참조하면, 이미지 변환 장치(130)는 드로잉 카탈로그 생성부(310)를 통해 IMSAT(Information Maximizing Self-Augmented Training) 알고리즘을 이용하여 그람 매트릭스들의 값에 관한 군집들을 드로잉 카탈로그로서 생성할 수 있다. 즉, 도 7에서 도시된 바와 같이, 드로잉 카탈로그 별로 드로잉 이미지들을 분류하면 각 드로잉 카탈로그 별로 드로잉 이미지들 간에 공통적인 스타일 정보를 포함할 수 있다. 이에 따라, 군집의 개수는 드로잉 카탈로그의 개수에 대응될 수 있다.
도 8은 본 발명에 따른 카탈로그 이미지 생성 모델의 구축을 위한 CycleGAN의 학습 과정을 설명하는 도면이다.
도 8을 참조하면, CycleGAN은 짝 지어진 학습 데이터 없이 X 도메인으로부터 얻은 이미지를 Y 도메인으로 변환하는 알고리즘에 해당할 수 있다. CycleGAN은 두 도메인 사이에서 양방향으로 모델을 학습시킬 수 있으며, CycleGAN 카탈로그 학습은 2개의 생성자(Generator) 모델과 2개의 판별자(Discriminator) 모델을 통해 생성과 복원을 반복함으로써 수행될 수 있다.
도 8의 좌측 그림은 순방향 주기 일관성(Forward Cycle Consistency)에 해당할 수 있으며, 도메인 X의 진짜 이미지를 도메인 Y의 가짜 이미지로 생성하고 생성된 도메인 Y의 가짜 이미지를 도메인 X 이미지로 복원하는 동작이 수행될 수 있다. 도 8의 우측 그림은 역방향 주기 일관성(Backward Cycle Consistency)에 해당할 수 있으며, 순방향 학습 과정의 역방향으로 진행하는 동작이 수행될 수 있다.
따라서, 모델의 입력으로 사용되는 그림 이미지를 CycleGAN으로 학습했을 경우, 다른 도메인 버전의 이미지로 변환 및 복원이 가능할 수 있다. 일 실시예에서, 이미지 변환 장치(130)는 스케치 이미지를 도메인 X, 드로잉 카탈로그를 도메인 Y로 지정해 CycleGAN을 학습할 수 있다. 그 결과, 이미지 변환 장치(130)는 스케치 이미지 각각의 드로잉 카탈로그로 변환하는 여러 개의 카탈로그 이미지 생성 모델을 구축할 수 있다.
도 9는 본 발명에 따른 CycleGAN을 이용한 추론 이미지 생성 과정의 일 실시예를 설명하는 도면이다.
도 9를 참조하면, 이미지 변환 장치(130)는 이미지 변환부(330)를 통해 카탈로그 이미지 생성 모델(CycleGAN)을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 드로잉 카탈로그별 스타일 이미지들로 변환할 수 있다. 도 9에서, 하나의 스케치 이미지(Sketch Image)에 대해 각각 카탈로그 1, 카탈로그 2, 카탈로그 3에 대응되는 스타일을 가진 이미지들로 변환될 수 있다. 이후, 스타일 변환된 이미지들은 사전학습된 객체 탐지 모델의 미세조정 과정에 사용될 수 있다.
도 10은 본 발명에 따른 mAP 기준 드로잉 카탈로그 선정 과정의 일 실시예를 설명하는 도면이다.
도 10을 참조하면, 이미지 변환 장치(130)는 이전 과정에서 변환된 다양한 버전의 스케치 이미지들 중에서 최적의 드로잉 카탈로그를 선정할 수 있다. 이를 위하여, 이미지 변환 장치(130)는 사전 학습된 YOLO를 사용할 수 있다.
구체적으로, 이미지 변환 장치(130)는 이전 과정에서 생성된 N개 버전의 드로잉 카탈로그 이미지로 사전학습된 YOLO를 미세조정하여, N개의 미세조정된 YOLO를 획득할 수 있다. 이미지 변환 장치(130)는 미세조정된 YOLO를 통해 각각 mAP를 도출하고 내림차순으로 정렬할 수 있다.
최종적으로, 이미지 변환 장치(130)는 TOP 1의 mAP에 대응되는 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 선정함으로써, 스케치 이미지의 객체 탐지 성능을 향상하는 시스템을 구축할 수 있다. 도 10의 경우, 카탈로그 2의 mAP가 0.81로 가장 높으므로 스케치 특화 객체 카탈로그로 선정될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 이미지 변환 시스템
110: 사용자 단말 130: 이미지 변환 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 드로잉 카탈로그 생성부 320: 모델 구축부
330: 이미지 변환부 340: 미세조정 수행부
350: 카탈로그 결정부 360: 객체 탐지부
110: 사용자 단말 130: 이미지 변환 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 드로잉 카탈로그 생성부 320: 모델 구축부
330: 이미지 변환부 340: 미세조정 수행부
350: 카탈로그 결정부 360: 객체 탐지부
Claims (14)
- 드로잉(drawing) 이미지 데이터셋의 각 드로잉 이미지로부터 추출된 그람 매트릭스(gram matrix)들을 클러스터링(clustering)하여 드로잉 카탈로그를 생성하는 드로잉 카탈로그 생성부;
스케치(sketch) 이미지를 입력으로 수신하여 각 드로잉 카탈로그의 스타일로 변환된 스타일 이미지를 출력으로 생성하는 카탈로그 이미지 생성 모델을 상기 드로잉 카탈로그 별로 구축하는 모델 구축부;
상기 카탈로그 이미지 생성 모델을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 상기 드로잉 카탈로그별 스타일 이미지들로 변환하는 이미지 변환부;
상기 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 상기 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성하는 미세조정 수행부; 및
상기 미세조정된 객체 탐지 모델들 중에서 특정 성능지표를 기준으로 가장 높은 성능을 제공하는 모델에 해당하는 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정하는 카탈로그 결정부;를 포함하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제1항에 있어서, 상기 드로잉 카탈로그 생성부는
상기 각 드로잉 이미지를 CNN(Convolution Neural Network)에 입력하고 상기 CNN의 개별 레이어 간의 채널(Channel)별 내적(product)을 통해 상기 그람 매트릭스를 생성하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제1항에 있어서, 상기 드로잉 카탈로그 생성부는
IMSAT(Information Maximizing Self-Augmented Training) 알고리즘을 이용하여 상기 그람 매트릭스들의 값에 관한 군집들을 상기 드로잉 카탈로그로서 생성하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제1항에 있어서, 상기 모델 구축부는
제1 도메인의 참조 이미지의 스타일을 제2 도메인의 타겟 이미지로 변환하는 CycleGAN을 기초로 상기 카탈로그 이미지 생성 모델을 구축하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제4항에 있어서, 상기 모델 구축부는
상기 스케치 이미지를 상기 제1 도메인으로 지정하고 상기 드로잉 카탈로그를 상기 제2 도메인으로 지정하여 상기 드로잉 카탈로그 별로 상기 CycleGAN에 관한 학습을 독립적으로 수행하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제1항에 있어서, 상기 미세조정 수행부는
상기 사전학습된 YOLO(You Only Look Once)를 미세조정하여 미세조정된 YOLO를 생성하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제1항에 있어서, 상기 카탈로그 결정부는
상기 미세조정된 객체 탐지 모델들에 관한 성능지표인 mAP(mean Average Precision)를 산출한 다음 가장 높은 mAP에 해당하는 모델을 상기 최상위 모델로 결정하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제1항에 있어서,
사용자 단말로부터 특정 스케치 이미지가 입력되면 상기 특정 스케치 이미지를 상기 스케치 특화 객체 카탈로그의 스타일로 변환하는 제1 과정과 스타일 변환된 특정 스케치 이미지 내에서 객체를 탐지하는 제2 과정을 수행하여 상기 특정 스케치 이미지에 관한 객체 탐지 결과를 생성하는 객체 탐지부;를 더 포함하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 제8항에 있어서, 상기 객체 탐지부는
상기 제1 과정에서 상기 스케치 특화 객체 카탈로그의 카탈로그 이미지 생성 모델을 적용하고 상기 제2 과정에서 상기 스케치 특화 객체 카탈로그의 미세조정된 객체 탐지 모델을 적용하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 장치.
- 드로잉 카탈로그 생성부를 통해, 드로잉(drawing) 이미지 데이터셋의 각 드로잉 이미지로부터 추출된 그람 매트릭스(gram matrix)들을 클러스터링(clustering)하여 드로잉 카탈로그를 생성하는 단계;
모델 구축부를 통해, 스케치(sketch) 이미지를 입력으로 수신하여 각 드로잉 카탈로그의 스타일로 변환된 스타일 이미지를 출력으로 생성하는 카탈로그 이미지 생성 모델을 상기 드로잉 카탈로그 별로 구축하는 단계;
이미지 변환부를 통해, 상기 카탈로그 이미지 생성 모델을 이용하여 스케치 이미지 데이터셋의 각 스케치 이미지에 대해 상기 드로잉 카탈로그별 스타일 이미지들로 변환하는 단계;
미세조정 수행부를 통해, 상기 드로잉 카탈로그별 스타일 이미지들을 이용하여 사전학습된 객체 탐지 모델에 대한 미세조정(fine tuning)을 수행하여 상기 드로잉 카탈로그 별로 미세조정된 객체 탐지 모델들을 생성하는 단계; 및
카탈로그 결정부를 통해, 상기 미세조정된 객체 탐지 모델들 중에서 특정 성능지표를 기준으로 가장 높은 성능을 제공하는 모델에 해당하는 최상위 모델의 해당 드로잉 카탈로그를 스케치 특화 객체 카탈로그로 결정하는 단계;를 포함하는 스케치 이미지 객체 탐지를 위한 이미지 변환 방법.
- 제10항에 있어서, 상기 상기 드로잉 카탈로그 별로 구축하는 단계는
제1 도메인의 참조 이미지의 스타일을 제2 도메인의 타겟 이미지로 변환하는 CycleGAN을 기초로 상기 카탈로그 이미지 생성 모델을 구축하는 단계를 포함하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 방법.
- 제10항에 있어서, 상기 미세조정된 객체 탐지 모델들을 생성하는 단계는
상기 사전학습된 YOLO(You Only Look Once)를 미세조정하여 미세조정된 YOLO를 생성하는 단계를 포함하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 방법.
- 제10항에 있어서,
객체 탐지부를 통해, 사용자 단말로부터 특정 스케치 이미지가 입력되면 상기 특정 스케치 이미지를 상기 스케치 특화 객체 카탈로그의 스타일로 변환하는 제1 과정과 스타일 변환된 특정 스케치 이미지 내에서 객체를 탐지하는 제2 과정을 수행하여 상기 특정 스케치 이미지에 관한 객체 탐지 결과를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 방법.
- 제13항에 있어서, 상기 객체 탐지 결과를 생성하는 단계는
상기 제1 과정에서 상기 스케치 특화 객체 카탈로그의 카탈로그 이미지 생성 모델을 적용하고 상기 제2 과정에서 상기 스케치 특화 객체 카탈로그의 미세조정된 객체 탐지 모델을 적용하는 단계를 포함하는 것을 특징으로 하는 스케치 이미지 객체 탐지를 위한 이미지 변환 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220079047A KR102580658B1 (ko) | 2022-06-28 | 2022-06-28 | 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220079047A KR102580658B1 (ko) | 2022-06-28 | 2022-06-28 | 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102580658B1 true KR102580658B1 (ko) | 2023-09-21 |
Family
ID=88189168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220079047A KR102580658B1 (ko) | 2022-06-28 | 2022-06-28 | 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102580658B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190138438A (ko) * | 2018-06-05 | 2019-12-13 | 네이버 주식회사 | 모바일 환경에서 실시간 추론이 가능한 dnn 구성을 위한 최적화 기법 |
KR20200087340A (ko) | 2018-12-31 | 2020-07-21 | 아주대학교산학협력단 | 딥러닝을 이용한 객체 인식 방법 및 장치 |
KR20200093424A (ko) * | 2019-01-28 | 2020-08-05 | 주식회사 스트라드비젼 | 도메인 적응에 적용될 수 있는 사이클 gan을 이용하여 실제 이미지 상의 객체 검출에 사용되는, 실제 세계 상의 실제 이미지를 가상 세계 상의 가상 이미지로 변환하는 런타임 입력 변환을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 |
KR102404166B1 (ko) * | 2021-07-20 | 2022-06-02 | 국민대학교산학협력단 | 스타일 전이를 활용한 엑스레이 영상의 유체 탐지 방법 및 장치 |
-
2022
- 2022-06-28 KR KR1020220079047A patent/KR102580658B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190138438A (ko) * | 2018-06-05 | 2019-12-13 | 네이버 주식회사 | 모바일 환경에서 실시간 추론이 가능한 dnn 구성을 위한 최적화 기법 |
KR20200087340A (ko) | 2018-12-31 | 2020-07-21 | 아주대학교산학협력단 | 딥러닝을 이용한 객체 인식 방법 및 장치 |
KR20200093424A (ko) * | 2019-01-28 | 2020-08-05 | 주식회사 스트라드비젼 | 도메인 적응에 적용될 수 있는 사이클 gan을 이용하여 실제 이미지 상의 객체 검출에 사용되는, 실제 세계 상의 실제 이미지를 가상 세계 상의 가상 이미지로 변환하는 런타임 입력 변환을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 |
KR102404166B1 (ko) * | 2021-07-20 | 2022-06-02 | 국민대학교산학협력단 | 스타일 전이를 활용한 엑스레이 영상의 유체 탐지 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853903B2 (en) | SGCNN: structural graph convolutional neural network | |
US12093306B2 (en) | Automatically detecting user-requested objects in digital images | |
AU2020201988B2 (en) | Selectiontell: a natural language interface for selection in image | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
EP3686848A1 (en) | Semantic image synthesis for generating substantially photorealistic images using neural networks | |
Chai et al. | Autohair: Fully automatic hair modeling from a single image | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
EP3467723A1 (en) | Machine learning based network model construction method and apparatus | |
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
US20170220864A1 (en) | Method for Implementing a High-Level Image Representation for Image Analysis | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
US20200380304A1 (en) | Labeling using interactive assisted segmentation | |
KR102305230B1 (ko) | 객체 경계정보의 정확도 개선방법 및 장치 | |
Sun et al. | PGCNet: patch graph convolutional network for point cloud segmentation of indoor scenes | |
KR20200119370A (ko) | 인공지능 기반의 유사 디자인 검색 장치 | |
Qi et al. | Personalized sketch-based image retrieval by convolutional neural network and deep transfer learning | |
CN112115744A (zh) | 点云数据的处理方法及装置、计算机存储介质、电子设备 | |
CN111079374A (zh) | 字体生成方法、装置和存储介质 | |
CN117541668A (zh) | 虚拟角色的生成方法、装置、设备及存储介质 | |
Zhang et al. | Facial component-landmark detection with weakly-supervised lr-cnn | |
Kmiec et al. | Learnable pooling methods for video classification | |
CN117671666A (zh) | 一种基于自适应图卷积神经网络的目标识别方法 | |
KR102580658B1 (ko) | 스케치 이미지 객체 탐지를 위한 이미지 변환 장치 및 방법 | |
CN116958027A (zh) | 三维工业异常检测方法、装置、存储介质及电子设备 | |
KR20230092360A (ko) | Node 기반 조건부 테이블 데이터 적대적 생성 신경망 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |