KR102208690B1 - 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 - Google Patents
데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 Download PDFInfo
- Publication number
- KR102208690B1 KR102208690B1 KR1020200091766A KR20200091766A KR102208690B1 KR 102208690 B1 KR102208690 B1 KR 102208690B1 KR 1020200091766 A KR1020200091766 A KR 1020200091766A KR 20200091766 A KR20200091766 A KR 20200091766A KR 102208690 B1 KR102208690 B1 KR 102208690B1
- Authority
- KR
- South Korea
- Prior art keywords
- spatial image
- spatial
- generating
- image
- class
- Prior art date
Links
- 238000013434 data augmentation Methods 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims description 34
- 230000003190 augmentative effect Effects 0.000 claims abstract description 24
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 238000007635 classification algorithm Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 47
- 230000008859 change Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 239000002023 wood Substances 0.000 description 14
- 239000003086 colorant Substances 0.000 description 13
- 239000000463 material Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000002184 metal Substances 0.000 description 5
- 229910052751 metal Inorganic materials 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000004744 fabric Substances 0.000 description 4
- 239000010985 leather Substances 0.000 description 4
- 239000011449 brick Substances 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 229920000742 Cotton Polymers 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 239000004567 concrete Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000004579 marble Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 229910001220 stainless steel Inorganic materials 0.000 description 2
- 239000010935 stainless steel Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- -1 white Substances 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 1
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 1
- 241000280258 Dyschoriste linearis Species 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000012237 artificial material Substances 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 235000005607 chanvre indien Nutrition 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000011487 hemp Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000005445 natural material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000007779 soft material Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G06T5/002—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Architecture (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치는 하나 이상의 프로세서를 포함하여, 프로세서가 수행하는 동작은 복수의 공간 이미지를 획득하여 스타일 정보를 특정하는 클래스를 레이블링하거나, 클래스가 레이블링된 복수의 공간 이미지를 획득하여 학습 데이터를 생성하는 동작, 제1 공간 이미지가 포함하는 픽셀 정보를 소정의 범위 내에서 변경한 제2 공간 이미지를 생성하여 학습 데이터를 증강하는 동작, 제1 공간 이미지에 레이블링된 클래스를 제2 공간 이미지에 레이블링하는 동작, 및 이미지 분류 알고리즘 기반으로 설계된 모델에 증강된 학습 데이터를 입력하여 공간 이미지와 레이블링된 클래스와의 상관관계를 도출하는 모델의 가중치를 학습시킴으로써 공간 이미지의 스타일에 대한 클래스를 판별하는 모델을 생성하는 동작을 포함할 수 있다.
Description
본 발명은 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법에 관한 것이다.
한국인터넷진흥원(KISA)에 따르면 2019년에 집계된 국내 온라인 쇼핑 시장의 규모는 약 133조 원으로 2018년의 111조 원 대비 약 20% 성장세를 보인다. 이처럼 온라인 쇼핑 시장의 성장세가 가파르게 증가하면서, 온라인 쇼핑 플랫폼에 등록되는 스토어 및 상품의 수가 비약적으로 증가하고 있으며, 소비자들이 오프라인 매장보다 온라인 매장을 통해 물건을 구입하는 비율이 대폭 상승하고 있다.
한편, 오프라인 쇼핑의 형태는 소비자가 매장을 골라 매장 내에 구비된 상품들을 눈으로 확인하여 마음에 드는 상품을 구입하는 형태였다면, 온라인 쇼핑의 형태는 소비자들이 원하는 상품의 키워드를 통해 상품을 검색하여 구입하는 형태로써, 상품이 판매되는 플랫폼이 변화함에 따라 소비자가 상품을 찾게 되는 형태도 달라지고 있다.
그렇기 때문에, 온라인 쇼핑에서는 상품 페이지에 소비자들의 트래픽을 유입시킬 수 있도록 상품과 연관된 키워드를 잘 설정하는 것이 매우 중요해지고 있다. 다만, 국내 상위 10개의 온라인 쇼핑몰에 업로드된 상품의 개수만 하더라도 4억 개가 넘는 상황에서 상품마다 키워드를 일일이 설정하는 것은 어려운 상황이기 때문에, 온라인 쇼핑몰에는 상품에 대한 이미지 파일만으로 상품의 키워드를 설정할 수 있는 기능의 솔루션이 요구되고 있다.
이때 상품의 이미지를 구성하는 요소는 크게 공간, 사물, 상품이 쓰이는 배경의 스타일(분위기), 색채로 나눌 수 있다. 구매자가 역시 상품을 검색할 때 상품이 사용되는 공간의 용도, 상품 자체, 공간의 분위기, 상품의 색채를 중요한 요소로 여기기 때문에, 상품의 이미지를 구성하는 요소인 공간, 사물, 스타일, 색채 중 어느 하나의 키워드를 조합하여 검색하게 된다.
이처럼, 상품의 이미지로부터 자동으로 공간, 사물, 스타일, 색채에 대한 키워드를 추출할 수 있는 솔루션이 요구되는 상황에서 도입 가능한 대표적인 기술로는 인공지능을 이용한 이미지 분류 알고리즘들이 있다. 한편, 상품의 이미지로부터 공간, 사물, 스타일, 색채를 정확히 분류해내기 위해서는, 데이터의 품질, 데이터의 수량, 레이블링 방법, 학습의 용이성 등 고려해야 할 요소가 많다. 이에 따라, 다양한 학습 데이터를 생성하고 인공지능 모델의 학습을 용이하게 하면서 정확한 성능을 갖는 모델을 생성시킬 수 있는 기술이 필요한 실정이다.
본 발명의 실시예에서 해결하고자 하는 과제는 이미지로부터 자동으로 해당 이미지가 나타내는 공간의 스타일을 분류할 수 있는 모델을 생성하는 기술을 제공하고자 한다.
이때 본 발명의 실시예가 사용하는 기술인 이미지 분류 인공지능 알고리즘은 학습에 사용하는 학습 데이터의 양과 질에 따라 모델의 성능에 큰 차이가 발생할 수 있다. 특히, 인공지능 모델 학습의 경우 한정된 학습 데이터만으로도 우수한 성능을 가진 모델을 만들기 위해서는, 모델이 실제로 사용될 다양한 환경이나 다양한 상황의 변수를 포함하는 학습 데이터를 통해 모델을 학습시키는 것이 중요하다. 본 발명은 공간 이미지가 나타내는 스타일을 분류하는 모델을 생성하면서, 모델이 실제로 사용될 다양한 환경이나 상황의 변수를 포함하는 학습 데이터를 생성하는 데이터 증강 기술을 제시한다.
다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.
본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치는 소정의 동작을 수행하도록 하는 명령어들을 저장하는 하나 이상의 메모리 및 상기 하나 이상의 메모리와 동작할 수 있도록 연결되어 상기 명령어들을 실행하도록 설정된 하나 이상의 프로세서를 포함하고, 상기 프로세서가 수행하는 동작은 복수의 공간 이미지를 획득하여 상기 복수의 공간 이미지 각각에 해당하는 스타일 정보를 특정하는 클래스를 레이블링하거나, 상기 클래스가 레이블링된 복수의 공간 이미지를 획득하여 학습 데이터를 생성하는 동작, 상기 복수의 공간 이미지 중 제1 공간 이미지가 포함하는 픽셀 정보를 소정의 범위 내로 변경한 제2 공간 이미지를 생성하여 상기 학습 데이터를 증강하는 동작, 상기 제1 공간 이미지에 레이블링된 클래스를 상기 제2 공간 이미지에 레이블링하는 동작 및 소정의 이미지 분류 알고리즘 기반으로 설계된 모델에 상기 증강된 학습 데이터를 입력하고, 상기 학습 데이터에 포함된 공간 이미지와 상기 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 상기 모델의 가중치를 학습시킴으로써, 상기 상관관계를 기초로 공간 이미지의 스타일에 대한 클래스를 판별하는 모델을 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은,
[수학식 1]
(src(I): 픽셀 정보의 변경 전 원소값 (x, y, z), : 기 설정된 값인 n 이하의 난수, dst(I): 픽셀 정보의 변경 후 원소값 (x', y', z')) 상기 수학식 1을 기초로 상기 제1 공간 이미지로부터 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은 상기 제1 공간 이미지에 포함된 픽셀 정보의 RGB 정보를 구성하는 (x, y, z) 원소값에 대하여, 소정의 기준값보다 큰 값을 가지는 원소값이 더 큰 값을 갖도록 변경하고, 상기 기준값보다 작은 값을 가지는 원소값이 더 작은 원소값을 갖도록 변경하여 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은,
[수학식 2]
(src(I): 픽셀 정보의 변경 전 원소값 (x, y, z), : 상수, : 상수, dst(I): 픽셀 정보의 변경 후 원소값 (x', y', z')) 상기 수학식 2를 기초로 상기 제1 공간 이미지로부터 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은,
[수학식 3]
(R: 픽셀 정보의 RGB 정보 (x, y, z) 중 x, G: 픽셀 정보의 RGB 정보 (x, y, z) 중 y, B: 픽셀 정보의 RGB 정보 (x, y, z) 중 z, Y: 픽셀 정보의 변경 후 원소값 (x', y', z')) 상기 수학식 3을 기초로 상기 제1 공간 이미지로부터 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은,
[수학식 4]
[수학식 5]
(R: 상기 dst(I)의 (x', y', z') 중 x', G: 상기 dst(I)의 (x', y', z') 중 y', B: 상기 dst(I)의 (x', y', z') 중 z', Y: 픽셀 정보의 변경 후 원소값 (x'', y'', z'')) 상기 수학식 4 및 5를 기초로 상기 제1 공간 이미지로부터 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은 상기 제1 공간 이미지에 포함된 픽셀 정보의 일부에 노이즈 정보를 추가하여 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은,
[수학식 6]
(src(I): 픽셀 정보의 변경 전 원소값 (x, y, z), : 난수, dst(I): 픽셀 정보의 변경 후 원소값 (x', y', z')) 상기 수학식 6을 기초로 상기 제1 공간 이미지의 픽셀 정보에 노이즈 정보를 부가하여 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은 상기 제1 공간 이미지가 포함하는 픽셀 중 제1 픽셀을 정중앙에 포함하는 NxN (N은 3 이상의 자연수) 행렬 크기에 포함된 복수의 픽셀의 R, G, B 각각의 원소값 중 최대 원소값인 ()에서 상기 복수의 픽셀의 R, G, B 각각의 원소 평균값인 ()을 뺀 값인 ()을 구하고, 상기 ()의 원소값 중 어느 하나가 기 설정된 값보다 작은 경우, 상기 제1 픽셀을 블러 처리를 하는 연산을 수행하여 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 제2 공간 이미지를 생성하는 동작은 상기 제1 공간 이미지가 포함하는 모든 픽셀의 개수만큼, 평균 0 및 표준편차 100의 표준 가우시안 정규 분포를 따르는 난수 정보를 생성하고, 상기 모든 픽셀의 각각에 상기 난수 정보 각각을 합산하여 노이즈가 삽입된 상기 제2 공간 이미지를 생성하는 동작을 포함할 수 있다.
또한, 상기 모델을 생성하는 동작은 ResNet(Deep Residual Learning for Image Recognition) 알고리즘을 기초로 설계된 신경망의 입력 레이어에 상기 학습 데이터에 포함된 공간 이미지가 입력되도록 설정하고, 출력 레이어에 상기 공간 이미지 각각에 레이블링된 클래스가 입력되도록 설정하여, 상기 학습 데이터에 포함된 공간 이미지와 상기 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 신경망의 가중치를 학습시키는 동작을 포함할 수 있다.
또한, 상기 ResNet 알고리즘을 기초로 설계된 신경망의 하이퍼 파라미터 중 네트워크 계층 수는 [18, 34, 50, 101, 152, 200] 중 하나의 값을 갖고, 클래스 개수는 모던/로맨틱/클래식/내추럴/캐주얼/북유럽/빈티지로 분류되는 7가지의 클래스를 포함하고, 미니 배치 크기는 [32, 64, 128, 256] 중 하나의 값을 갖고, 학습 횟수는 10 내지 15, 또는 30의 값 중 하나를 갖고, 학습률은 0.005 또는 0.01로 설정되고, 손실함수는 SGD 또는 Adam으로 설정될 수 있다.
본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 방법은 복수의 공간 이미지를 획득하여 상기 복수의 공간 이미지 각각에 해당하는 스타일 정보를 특정하는 클래스를 레이블링하거나, 상기 클래스가 레이블링된 복수의 공간 이미지를 획득하여 학습 데이터를 생성하는 단계, 상기 복수의 공간 이미지 중 제1 공간 이미지가 포함하는 픽셀 정보를 소정의 범위 내에서 변경한 제2 공간 이미지를 생성하여 상기 학습 데이터를 증강하는 단계, 상기 제1 공간 이미지에 레이블링된 클래스를 상기 제2 공간 이미지에 레이블링하는 단계 및 소정의 이미지 분류 알고리즘 기반으로 설계된 모델에 상기 증강된 학습 데이터를 입력하여, 상기 학습 데이터에 포함된 공간 이미지와 상기 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 상기 모델의 가중치를 학습시킴으로써, 상기 상관관계를 기초로 공간 이미지의 스타일에 대한 클래스를 판별하는 모델을 생성하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 같은 공간을 촬영하더라도 촬영하는 카메라의 특성, 촬영 시간, 촬영하는 사람의 습관 등 실제 다양한 환경이나 상황에 의해, 같은 공간을 촬영하는 경우에도 생성되는 이미지가 달라질 수 있다는 변수를 학습할 수 있도록, 원본 학습 데이터를 변형시켜 다양한 학습 데이터를 확보하는 데이터 증강 기술을 통해 학습 데이터의 수량을 증가시키면서도 고품질의 학습 데이터를 확보한다.
특히, 데이터 증강을 위해 RGB 정보를 변경하는 경우, 상대적으로 큰 폭의 RGB 정보의 변경은 스타일 자체의 변화를 야기하여 증강된 데이터에 대하여 2차적으로 다시 레이블링하는 작업을 발생시킬 수 있다. 이에 따라, 본 발명의 실시예는 스타일 변화가 없는 정도의 범위 내에서 학습 데이터의 RGB 정보를 변경하여, 증강된 학습 데이터에 대한 클래스를 원본 학습 데이터와 동일하게 레이블링하여 자동화함으로써, 학습이 용이하면서 성능이 향상된 이미지 분류 모델을 제공할 수 있다.
이러한 이미지 분류 모델을 사용하여, 온라인 쇼핑몰은 상품의 이미지만으로 상품과 연관된 키워드를 사용함으로써 상품 페이지에 소비자들의 트래픽을 효과적으로 유입시킬 수 있으며, 소비자 또한 자신이 원하는 이미지를 이용하여 자신에게 필요한 키워드를 찾아 검색에 이용할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치가 생성한 모델을 이용하여 이미지가 나타내는 스타일에 대한 클래스를 분류하는 기능을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치가 분류하는 스타일의 클래스를 설명하기 위한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치의 기능 블록도이다.
도 4는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치가 제1 공간 이미지(a)의 픽셀 정보를 소정 범위 내로 변경시킨 제2 공간 이미지(b)의 예시도이다.
도 5는 제1 공간 이미지에 포함된 픽셀 정보를 변경하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 6A는 제1 공간 이미지에 포함된 픽셀 정보에 그레이 스케일을 적용하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 6B는 제1 공간 이미지에 포함된 픽셀 정보의 일부에 노이즈를 추가하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 7은 제1 공간 이미지에 포함된 사물의 테두리 영역을 구분하고, 테두리가 아닌 영역에 블러를 적용하여 제2 공간 이미지를 생성하는 방법을 설명하기 위한 예시도이다.
도 8은 제1 공간 이미지에 가우시안 정규 분포에 따른 노이즈 정보를 추가하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 9는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치가 분류하는 스타일의 클래스를 설명하기 위한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치의 기능 블록도이다.
도 4는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치가 제1 공간 이미지(a)의 픽셀 정보를 소정 범위 내로 변경시킨 제2 공간 이미지(b)의 예시도이다.
도 5는 제1 공간 이미지에 포함된 픽셀 정보를 변경하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 6A는 제1 공간 이미지에 포함된 픽셀 정보에 그레이 스케일을 적용하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 6B는 제1 공간 이미지에 포함된 픽셀 정보의 일부에 노이즈를 추가하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 7은 제1 공간 이미지에 포함된 사물의 테두리 영역을 구분하고, 테두리가 아닌 영역에 블러를 적용하여 제2 공간 이미지를 생성하는 방법을 설명하기 위한 예시도이다.
도 8은 제1 공간 이미지에 가우시안 정규 분포에 따른 노이즈 정보를 추가하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
도 9는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 방법의 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 실제로 필요한 경우 외에는 생략될 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성의 조합일 수 있다.
또한 어떤 구성 요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성 요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성 요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성 요소가 다른 구성 요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성 요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다.
또한 '제1, 제2' 등과 같은 표현은 복수의 구성을 구분하기 위한 용도로만 사용된 표현으로써, 구성들 사이의 순서나 기타 특징들을 한정하지 않는다.
이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치(100)가 생성한 인공지능 모델을 이용하여 이미지가 나타내는 스타일에 대한 클래스를 분류하는 기능을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치(100)는 도 1에 도시된 인터페이스의 상단 메뉴의 공간 분류, 사물 검출, 스타일 분석, 상품 추천 기능 중 스타일 분석 기능을 제공할 수 있다. 데이터 증강 기반 스타일 분석 모델 학습 장치(100)는 도 1의 인터페이스에 사용되는 인공지능 모델을 생성한다. 인공지능 모델은 도 1의 좌측 하단에 입력되는 공간 이미지를 분석하여 공간 이미지가 어떠한 스타일을 갖는지 클래스를 판별(ex. nordic style: 97.78%, natural style: 2.07%)할 수 있다.
한편, 공간의 스타일은 인테리어 분위기를 결정짓는 중요한 요소로서, 공간의 스타일은 크게 공간에 포함된 객체들의 소재, 색상, 질감, 형태에 따라서 달라질 수 있으며, 일 실시예에 따르면 도 2와 같이 크게 7가지 스타일로 인테리어 공간을 분류할 수 있다.
도 2는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치(100)가 분류하는 스타일(분위기)의 클래스를 설명하기 위한 예시도이다.
도 2를 참조하면, 데이터 증강 기반 스타일 분석 모델 학습 장치(100)는 입력되는 공간 이미지가 나타내는 스타일을 구분하도록 학습되어 클래스를 판별할 수 있다. 예를 들어, 공간 이미지의 클래스는 모던 스타일, 로맨틱 스타일, 클래식 스타일, 내추럴 스타일, 캐주얼 스타일, 북유럽 스타일, 빈티지 스타일을 포함할 수 있다.
도 2(a)는 모던 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 모던 스타일은 심플하고 현대적인 인테리어 스타일로서 주로 2가지 이하 색상을 사용하는 것이 특징이다. 스테인리스, 유리, 스틸, 철, 가죽, 금속, 대리석 등 딱딱한 느낌을 주는 소재를 사용하거나, 모노톤 컬러(흰색, 검은색, 무채색, 선명한 색, 네이비색, 그레이색)의 색을 주로 사용하면서 회색이나 기타 어두운 톤의 색들이 첨가될 수 있다. 또한, 차가움, 반들반들, 매끈, 단단한 느낌을 주며, 무늬가 없이 광택이 나는 마감을 갖고, 직선이나 비정형의 형태를 보인다. 패턴을 사용할 경우, 스트라이프나 체크 등 기하학적인 디자인 패턴을 이용할 수 있고, 기능성과 실용성을 강조한다는 점에서 심플한 간결함을 추구하는 '미니멀 스타일 (Minimal Style)'을 포함할 수 있다. 이때 모던 스타일의 클래스는 "트렌디, 현대적, 실용성, 기능성, 모노톤, 기하학적 패턴, 차가운 소재"의 키워드를 갖는 상품과 매칭될 수 있다.
도 2(b)는 로맨틱 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 로맨틱 스타일은 포근한 느낌으로 여성들에게 인기 있는 인테리어로서 내추럴한 소재와 색채를 강조하는 것이 특징이다. 부드러운 직물과 포근하고 따뜻한 느낌의 소재(면직물, 나무, 벽돌, 실크, 린넨)를 사용하며, 하늘색과 녹색톤의 파스텔톤(옅은 핑크, 블루 등)과 함께 사용될 수 있고, 낭만적이고 동화적 느낌을 주는 인테리어이며 차분하고 고급스러워 보이는 분위기이다. 또한, 우아한 곡선과 식물, 꽃무늬 등의 패턴을 활용하며, 은은한 조명을 사용하여 전체적으로 섬세하면서도 감성적인 분위기를 조성하는 스타일로서 투박하지만 품격 있는 '프로방스 스타일 (Provence Style)'을 포함할 수 있다. 이때 로맨틱 스타일의 클래스는 "로맨틱, 감성적, 낭만적, 파스텔톤, 소프트한 소재, 곡선, 은은한 조명"의 키워드를 갖는 상품과 매칭될 수 있다.
도 2(c)는 클래식 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 클래식 스타일은 중세 이후 유럽의 전통적인 건축 양식과 장식 양식을 바탕으로 한 격식 있는 인테리어로서 가죽, 패브릭, 금속, 천연목, 대리석 등 오래되고 고급스러운 소재를 사용하는 것이 특징이다. 또한, 나무와 가죽의 컬러를 기본으로 하면서, 갈색 또는 검은색 같은 선명하고 톤다운된 차분하고 짙은 컬러를 사용한다. 고풍스럽고 고상한 분위기이며 공간이 넓을 때 더 어울리는 스타일이다. 또한, 유럽풍의 클래식한 가구들을 활용하여 화려하고 장식적인 모양을 가지며, 고풍스러운 느낌의 '앤티크 스타일 (Antique Style)'이나 화려함과 곡선미를 강조한 '아르누보 스타일 (Art Nouveau Style)'을 포함할 수 있다. 이때 클래식 스타일의 클래스는 "웅장함, 고풍스러움, 화려한 장식, 조형미, 차분한 컬러, 화려한 컬러, 묵직한 컬러, 나무, 직물"의 키워드를 갖는 상품과 매칭될 수 있다.
도 2(d)는 내추럴 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 내추럴 스타일은 자연 친화적인 소재를 이용한 소박한 스타일로서 따뜻한 색감의 인테리어로 이루어진 가구가 사용되는 것이 특징이다. 또한, 나무, 흙, 가죽 면, 마 같이 자연적인 소재가 활용되면서 흰색, 크림색, 녹색, 갈색 같은 목재색이 주로 사용되고, 파스텔보다는 우드톤이 더 활용될 수 있다. 또한, 무광 또는 광택이 자연스러운 느낌 또는 자연 소재를 연상시키는 질감의 소재를 강조한 단순한 디자인으로 화이트 배경에 원목 가구들이 주로 배치될 수 있다. 따라서, 식물로 자연을 연출하는 '플랜테리어(Planterior)'나 '보태닉 스타일 (Botanic Style)'도 내추럴 스타일에 포함될 수 있다. 이때 내추럴 스타일의 클래스는 "오가닉, 자연스러움, 천연 소재, 나무, 화이트, 브라운"의 키워드를 갖는 상품과 매칭될 수 있다.
도 2(e)는 캐주얼 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 캐주얼 스타일은 자유롭고 편한 이미지와 젊고 운동감 넘치는 개성있고 경쾌한 인테리어로서 밝은 색조의 나무와 금속, 유리, 플라스틱 등 자연재와 인공재의 혼용재를 많이 사용하는 것이 특징이다. 또한, 흰색과 회색 등의 기본 색상에 밝고 화려하고 산뜻한 색채를 포인트 컬러로 사용하여 생동감 나는 재질감과 함께 강한 색채의 대비로 리듬감을 부여할 수 있고, 격식을 차리지 않는 자유로운 분위기로서 기능적이고 가벼운 감각의 디자인 요소가 중심이다. 또한, 체크와 가로형 스트라이프, 물방울무늬가 대표적 패턴으로 사용(기하학적 무늬나 추상적 무늬도 사용)될 수 있다. 이때 캐주얼 스타일의 클래스는 "독특함, 장식적, 화려함, 도시적, 혼란함, 세련된 밝음, 컬러풀함, 자유로움"의 키워드를 갖는 상품과 매칭될 수 있다.
도 2(f)는 북유럽 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 북유럽 스타일은 밝고 편안한 색채의 마감재가 공간을 채운 인테리어로서 다양한 소품과 패브릭의 활용이 포인트이다. 또한, 천연목, 타일, 스테인리스 등 다양한 소재가 사용되고 기본적으로 흰색과 베이지색, 우드톤이 사용되면서 부드러운 파스텔톤으로 포인트를 줄 수 있다. 또한, 단조로운 디자인의 가구와 소품들을 사용하고, 소재 본래의 질감과 매끄러운 마감이 가미되어 기능적이고 단순하면서 따뜻함을 추구한다. 이때 북유럽 스타일의 클래스는 "깨끗함, 깔끔함, 산뜻함, 심플함, 단순함, 매끄러움, 부드러움, 여유로움, 안락함, 포근함, 따뜻함"의 키워드를 갖는 상품과 매칭될 수 있다.
도 2(g)는 빈티지 스타일의 클래스로 분류되는 공간 이미지에 대한 예시이다. 빈티지 스타일은 추억이나 향수를 불러일으키는 과거의 흔적이 자연스럽게 묻어나는 스타일로서 거친 금속제품, 낡은 우드, 노출 콘크리트, 철제, 벽돌 등 다듬어지지 않은 소재를 사용하는 것이 특징이다. 또한, 진한 갈색이나 검은색, 회색을 활용하여 바래거나 벗겨진 듯한 컬러를 연출하고 거칠고 투박한 느낌을 준다. 또한, 편안하고 자연스러운 모양으로 천장, 벽 등을 그대로 노출하여 '인더스트리얼 스타일(Industrial Style)'을 포함할 수 있다. 이때 빈티지 스타일의 클래스는 "산업화, 기계적, 공장, 창고, 금속, 폐원목, 벽돌, 노출 콘크리트"의 키워드를 갖는 상품과 매칭될 수 있다.
한편, 상술한 공간의 스타일 분류는 예시일 뿐으로 실시예의 변형에 따라 다양한 스타일의 공간을 판별할 수 있도록 학습될 수 있으며, 공간 이미지가 나타내는 스타일을 판별하는 실시예를 구현하기 위해 데이터 증강 기반 스타일 분석 모델 학습 장치(100)가 가지는 구성을 도 3과 함께 설명한다.
도 3은 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치(100)의 기능 블록도이다.
도 3을 참조하면, 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치(100)는 메모리(110), 프로세서(120), 입력 인터페이스(130), 디스플레이부(140) 및 통신 인터페이스(150)를 포함할 수 있다.
메모리(110)는 학습 데이터 DB(111), 신경망 모델(113), 및 명령어 DB(115)를 포함할 수 있다.
학습 데이터 DB(111)는 실내 공간, 외부 공간 등 특정한 공간을 촬영한 공간 이미지 파일을 포함할 수 있다. 공간 이미지는 외부 서버, 외부 DB를 통해 획득하거나 인터넷상의 공간 이미지를 획득할 수 있다. 이때 공간 이미지는 다수의 픽셀(ex. 가로 M개, 세로 N개 행렬 형태로 구성된 M*N 개의 픽셀)로 구성될 수 있고, 각각의 픽셀은 R (Red), G(Green), B(Blue)의 고유 색상을 나타내는 RGB 원소값 (x, y, z)으로 구성된 픽셀 정보를 포함할 수 있다.
신경망 모델(113)은 입력된 공간 이미지를 분석하여 공간 이미지가 어떠한 스타일을 나타내는 공간인지를 특정하는 클래스를 판별하는 이미지 분류 인공지능 알고리즘 기반으로 학습된 인공지능 모델일 수 있다. 인공지능 모델은 후술할 프로세서(120)의 동작에 의해 생성되어 메모리(110)에 저장될 수 있다.
명령어 DB(115)는 프로세서(120)의 동작을 수행시킬 수 있는 명령어들을 저장할 수 있다. 예를 들어, 명령어 DB(115)는 후술할 프로세서(120)의 동작들과 대응되는 동작을 수행하도록 하는 컴퓨터 코드를 저장할 수 있다.
프로세서(120)는 데이터 증강 기반 스타일 분석 모델 학습 장치(100)가 포함하는 구성들, 메모리(110), 입력 인터페이스(130), 디스플레이부(140) 및 통신 인터페이스(150)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 레이블링 모듈(121), 증강 모듈(123), 학습 모듈(125) 및 제어 모듈(127)을 포함할 수 있다. 프로세서(120)는 메모리(110)에 저장된 명령어들을 실행해 레이블링 모듈(121), 증강 모듈(123), 학습 모듈(125) 및 제어 모듈(127)을 구동시킬 수 있고, 레이블링 모듈(121), 증강 모듈(123), 학습 모듈(125) 및 제어 모듈(127)에 의해 수행되는 동작은 프로세서(120)에 의해 수행되는 동작으로 이해될 수 있다.
레이블링 모듈(121)은 복수의 공간 이미지 각각의 이미지가 나타내는 스타일 정보(ex. 모던, 로맨틱, 클래식, 내추럴, 캐주얼, 북유럽, 빈티지 등)를 특정하는 클래스를 레이블링(매핑)하여 인공지능 모델의 학습에 사용될 학습 데이터를 생성하고 학습 데이터 DB(111)에 저장할 수 있다. 레이블링 모듈(121)은 외부 서버, 외부 DB를 통해 공간 이미지를 획득하거나 인터넷상의 공간 이미지를 획득할 수 있다. 공간 이미지에는 해당 이미지의 스타일 정보를 특정하는 클래스(ex. 모던, 로맨틱, 클래식, 내추럴, 캐주얼, 북유럽, 빈티지 등)가 기 레이블링 되어 있을 수 있다.
증강 모듈(123)은 학습 데이터 DB(111)에 저장된 공간 이미지(증강 모듈이 변형을 가하지 않은 공간 이미지를 이하, '제1 공간 이미지'로 지칭)가 포함하는 픽셀 정보를 소정 범위 내에서 변경한 공간 이미지(증강 모듈이 변형을 가한 공간 이미지를 이하, '제2 공간 이미지'로 지칭)를 생성하여 학습 데이터를 증강시키고, 제2 공간 이미지를 학습 데이터 DB(111)에 추가하여 저장할 수 있다.
본 발명의 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 장치(100)가 학습시키는 모델은 공간 이미지가 나타내는 스타일의 클래스를 분류하는 기능을 갖는다. 이때, 공간 이미지는 같은 공간이 촬영되는 것이라도 촬영에 사용되는 카메라의 특성, 촬영이 행해지는 시간, 촬영하는 사람의 습관 등 실제 공간 이미지가 생성되는 다양한 환경이나 상황에 의해, 동일한 공간을 촬영하는 경우라도 다양한 변수에 의해 이미지 파일에 포함되는 정보가 달라질 수 있다. 따라서, 인공지능 모델의 성능 향상을 위해서는 학습에 사용되는 데이터의 양과 질이 중요하다. 특히, 촬영에 사용되는 카메라의 특성, 촬영 시간, 촬영하는 사람의 습관에 따라 발생할 수 있는 변수들을 학습할 수 있도록, 증강 모듈(123)은 하나의 공간 이미지에 대하여 실제로 발생할 수 있는 변수를 반영하는 도 5 내지 도 8의 데이터 증강 알고리즘을 통해 학습 데이터의 수량을 증가시킬 수 있다.
한편, 상술한 도 2의 설명처럼 공간 이미지의 색감 또는 색상은 공간의 스타일을 결정하는 중요한 요소 중 하나이다. 여기서, 증강 모듈(123)이 데이터 증강을 위해 RGB 정보를 상대적으로 큰 폭으로 변경하는 경우에 생성되는 제2 공간 이미지는 원본인 제1 공간 이미지와는 다른 색상을 가질 가능성이 높아, 제2 공간 이미지가 나타내는 공간의 스타일 자체가 제1 공간 이미지와 상이할 수 있다. 이러한 경우, 원본인 제1 공간 이미지와 새롭게 생성된 제2 공간 이미지는 서로 스타일 자체가 달라져, 증강된 학습 데이터인 제2 공간 이미지에 대한 레이블링 작업 시, 원본인 제1 공간 이미지와 변경된 제2 공간 이미지는 서로 다른 스타일 클래스를 레이블링해야 할 필요가 있다. 이러한 경우, 색상의 지나친 변경은 현실감과 동떨어진 데이터를 생성하면서, 제2 공간 이미지에 대해 제1 공간 이미지의 클래스와 상이한 클래스를 다시 레이블링해야 하는 작업을 발생시킬 수 있다.
이러한 작업이 발생하는 것을 방지하기 위해, 본 발명의 실시예는 도 4의 예시와 같이 공간의 스타일 변화가 없는 정도의 범위 내에서 제1 공간 이미지(도 4(a))의 RGB 정보를 변경하여 제2 공간 이미지(도 4(b))를 생성하고, 레이블링 모듈(121)은 새롭게 생성된 레이블링이 수행되기 전의 제2 공간 이미지에 대하여, 제1 공간 이미지에 레이블링된 클래스를 제2 공간 이미지에 동일하게 레이블링을 수행하여, 학습 데이터의 수량을 증가시키면서 증강된 학습 데이터에 대한 레이블링을 자동화하여 성능이 향상된 이미지 분류 모델을 제공할 수 있다.
학습 모듈(125)은 이미지 분류 알고리즘 기반으로 설계된 모델에 증강된 학습 데이터를 입력하여, 학습 데이터에 포함된 공간 이미지와 공간 이미지 각각에 레이블링된 스타일 클래스와의 상관관계를 도출하는 가중치를 학습시킴으로써, 가중치의 상관관계를 기초로 새롭게 입력되는 공간 이미지에 대한 스타일 클래스를 판별하는 인공지능 모델을 생성할 수 있다. 예를 들어, 학습 모듈(125)은 이미지 분류 알고리즘 중 ResNet(Deep Residual Learning for Image Recognition) 알고리즘을 기초로 설계된 신경망의 입력 레이어에 학습 데이터에 포함된 공간 이미지가 입력되도록 설정하고, 출력 레이어에 공간 이미지 각각이 나타내는 스타일이 레이블링된 클래스가 입력되도록 설정하여, 학습 데이터에 포함된 공간 이미지와 공간 이미지 각각에 레이블링된 스타일 클래스와의 상관관계를 도출하도록 신경망의 가중치를 학습시켜 신경망을 생성할 수 있다.
제어 모듈(127)은 학습이 완료된 인공지능 모델에 공간 이미지를 입력하여, 입력된 공간 이미지에 대하여 인공지능 모델이 판별한 스타일 클래스를 해당 공간 이미지의 키워드, 또는 스타일 클래스와 매칭되는 단어(ex. 도 2와 함께 상술한 키워드의 예시)를 키워드로 도출할 수 있다. 이에 따라, 제어 모듈(127)은 공간 이미지를 포함하는 상품 페이지에 해당 키워드 정보를 사용할 수 있도록 온라인 쇼핑몰 서버의 상품 DB에 키워드를 저장할 수 있다.
입력 인터페이스(130)는 사용자의 입력을 수신할 수 있다. 예를 들면, 학습 데이터에 대한 클래스를 레이블링하는 경우 사용자의 입력을 수신할 수 있다.
디스플레이부(140)는 디스플레이 패널을 포함하여 화상을 출력하는 하드웨어 구성을 포함할 수 있다.
통신 인터페이스(150)는 외부 장치(ex. 온라인 쇼핑몰 서버, 사용자 단말 등)와 통신하여 정보를 송수신 할 수 있게 한다. 이를 위해, 통신 인터페이스(150)는 무선 통신모듈 또는 유선 통신모듈을 포함할 수 있다.
이하, 데이터 증강 기반 스타일 분석 모델 학습 장치(100)를 구성하는 각 구성이 구현하는 다양한 실시예들을 도 5 내지 도 8과 함께 설명한다.
도 5는 제1 공간 이미지에 포함된 픽셀 정보를 변경하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
증강 모듈(123)은 아래 수학식 1을 통해 제1 공간 이미지가 포함하는 픽셀 정보를 소정 범위 내에서 변경한 제2 공간 이미지를 생성할 수 있다.
수학식 1에 따르면, 는 기 설정된 값인 n보다 작은 값을 갖는 난수이다. 따라서, 증강 모듈(123)은 제1 공간 이미지가 포함하는 픽셀 중 어느 하나의 값인 (x, y, z) 원소값을 변경시키기 위해 난수 를 발생시켜, 해당 픽셀의 원소값을 으로 변경할 수 있고, 이러한 연산은 제1 공간 이미지가 포함하는 모든 픽셀 또는 선택된 일부 픽셀에 대해 적용되는 방식으로 제2 공간 이미지를 생성할 수 있다. 이에 따라, 빛이 공간에 들어오거나 들어오지 않음에 따라, 또는 시간에 따라 촬영되는 이미지의 색상이 어느 정도 변경될 수 있다는 변수를 학습에 반영하도록, 수학식 1에 따른 방식으로 데이터를 새롭게 생성하여 해당 변수를 학습시킬 수 있다.
또한, 증강 모듈(123)은 제1 공간 이미지의 픽셀 중에서 밝은 부분을 더 밝게 하고 어두운 부분을 더 어둡게 하여 대비를 증가시키도록 변형하거나, 또는 제1 공간 이미지의 픽셀 중에서 밝은 부분을 덜 밝게 하고 어두운 부분을 덜 어둡게 하여 대비를 감소시키도록 변형하여, 카메라의 성능이나 기종에 따라 하나의 공간에 대한 이미지가 다르게 생성될 수 있는 변수까지 학습되도록 하는 제2 공간 이미지를 생성할 수 있다.
이를 위해, 증강 모듈(123)은 제1 공간 이미지에 포함된 픽셀 정보의 RGB 정보를 구성하는 (x, y, z) 원소값에 대하여, 소정의 기준값보다 큰 값을 가지는 원소값이 더 큰 값을 갖도록 변경하고, 기준값보다 작은 값을 가지는 원소값이 더 작은 원소값을 갖도록 변경하여 제2 공간 이미지를 생성할 수 있다.
예를 들어, 증강 모듈(123)은 제1 공간 이미지가 갖는 모든 픽셀이 갖는 픽셀 정보에 대해, 하기 수학식 1을 적용하여 픽셀 정보가 변경된 제2 공간 이미지를 생성할 수 있다.
수학식 2에 따르면, 가 1보다 큰 값을 갖도록 설정하는 경우, 제1 공간 이미지의 픽셀 중에서 밝은 부분을 더 밝게 하고 어두운 부분을 더 어둡게 하여 대비를 증가시킬 수 있고, 가 0보다 크고 1보다 작은 값을 갖도록 설정하는 경우, 제1 공간 이미지의 픽셀 중에서 밝은 부분을 덜 밝게 하고 어두운 부분을 덜 어둡게 하여 대비를 감소시킬 수 있다.
또한, R, G, B의 원소값은 일반적으로 0부터 255 사이의 값을 가지기 때문에, 에 의해 출력되는 원소값이 255보다 지나치게 커지지 않도록 를 설정할 수 있고, 함수를 사용하여 최댓값이 255보다 커지지 않도록 설정할 수 있다.
또한, R, G, B의 원소값은 일반적으로 0부터 255 사이의 값을 가지기 때문에, 함수를 사용하여 에 의해 출력되는 원소값이 0보다 작아지지 않도록 max 함수를 사용하여 할 수 있다.
도 5A를 참조하면, 좌측은 제1 공간 이미지이고, 우측은 을 설정하여 수학식 2를 적용한 경우의 제2 공간 이미지이다. 도 5A의 우측 제2 공간 이미지는 제1 공간 이미지에 비해, 밝은 부분이 더 밝게 변하고 어두운 부분이 더 어둡게 변하여 대비가 증가된 새로운 학습 데이터가 생성됨을 확인할 수 있다.
도 5B를 참조하면, 좌측은 제1 공간 이미지이고, 우측은 을 설정하여 수학식 2를 적용한 경우의 제2 공간 이미지이다. 도 5B의 우측 제2 공간 이미지는 제1 공간 이미지에 비해, 밝은 부분이 덜 밝게 변하고 어두운 부분이 덜 어둡게 변하여 대비가 감소된 새로운 학습 데이터가 생성됨을 확인할 수 있다.
도 5C를 참조하면, 좌측은 하나의 색 (R, G, B) = (183, 191, 194)으로 통일된 제1 공간 이미지이고, 우측은 을 설정하여 수학식 2를 적용한 경우의 제2 공간 이미지이다. 도 5C를 통해 하나의 픽셀 정보가 수학식 2에 따라 변하는 정도를 확인할 수 있다.
도 6A는 제1 공간 이미지에 포함된 픽셀 정보에 그레이 스케일을 적용하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
공간 이미지에 대한 클래스 판별은 사물의 배치나, 사물의 패턴에 큰 영향을 받기 때문에, 증강 모듈(123)은 색상을 단조롭게 변환시킨 후 사물의 배치와 사물의 패턴을 보다 잘 학습되도록 변수를 반영한 학습 데이터를 생성할 수 있다.
이를 위해, 증강 모듈(123)은 도 6A의 좌측 이미지와 같이, 제1 공간 이미지가 갖는 모든 픽셀 정보에 대해, 하기 수학식 3을 적용하여 픽셀 정보가 단조로운 색상을 가지면서 배치와 패턴이 드러나는 제2 공간 이미지를 생성할 수 있다.
(R: 픽셀 정보의 RGB 정보 (x, y, z) 중 x, G: 픽셀 정보의 RGB 정보 (x, y, z) 중 y, B: 픽셀 정보의 RGB 정보 (x, y, z) 중 z, Y: 픽셀 정보의 변경 후 원소값 (x', y', z')
더하여, 증강 모듈(123)은 도 6A의 우측 이미지와 같이, 하기 수학식 4를 통해 제1 공간 이미지의 대비를 증가시킨 후 도출된 원소값에, 하기 수학식 5를 적용하여, 제1 공간 이미지에 포함된 사물의 배치와 패턴이 보다 극명하게 드러나는 제2 공간 이미지를 생성할 수 있다.
(R: 수학식 4에서 구해진 dst(I)의 (x', y', z') 중 x', G: 수학식 4에서 구해진 dst(I)의 (x', y', z') 중 y', B: 수학식 4에서 구해진 dst(I)의 (x', y', z') 중 z', Y: 픽셀 정보의 변경 후 원소값 (x'', y'', z'')
또한, 증강 모듈(123)은 수학식 4와 5를 사용하는 위 실시예에서 수학식 4 대신, 수학식 1을 적용하고 수학식 5를 적용하는 방식을 통해, 소정 범위 내로 변경된 픽셀 정보의 패턴이 극명하게 나타나도록 변경된 제2 공간 이미지를 생성할 수도 있다.
도 6B는 제1 공간 이미지에 포함된 픽셀 정보의 일부에 노이즈를 추가하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
증강 모듈(123)은 카메라를 확대하여 촬영하는 경우 이미지에 노이즈가 발생하는 경우를 학습하기 위한 학습 데이터를 생성할 수 있다. 이를 위해, 증강 모듈(123)은 제1 공간 이미지에 포함된 픽셀 정보의 일부에 노이즈 정보를 추가하여 제2 공간 이미지를 생성할 수 있다. 예를 들어, 증강 모듈(123)은 난수 발생 알고리즘을 통해 임의의 좌표 정보를 생성하여, 제1 공간 이미지에 포함된 픽셀 중 일부의 좌표를 선택하고, 선택된 좌표의 픽셀이 갖는 원소값에 대해 하기 수학식 6을 이용하여, 픽셀 정보에 난수 발생 알고리즘을 이용해 산출되는 난수를 부가하여 노이즈 정보가 추가된 제2 공간 이미지를 생성할 수 있다.
도 6B를 참조하면, 좌측은 제1 공간 이미지이고, 우측은 수학식 6을 적용하여 노이즈를 추가한 경우의 제2 공간 이미지를 확인할 수 있다.
도 7은 제1 공간 이미지에 포함된 사물의 테두리 영역을 구분하고, 테두리가 아닌 영역에 블러를 적용하여 제2 공간 이미지를 생성하는 방법을 설명하기 위한 예시도이다.
증강 모듈(123)은 카메라의 초점이 잘 맞지 않는 상태에서 촬영된 이미지를 학습하도록 다음의 실시예를 통해 사물의 가장자리가 뭉개진 듯한 제2 공간 이미지를 생성할 수 있다.
도 7A은 설명의 편의를 위해, 가로 5개 x 세로 5개 행렬 형태의 25개 픽셀을 포함하는 제1 공간 이미지를 가정하여 각 픽셀 영역을 구분한 예시이다. 이때 각 픽셀은 R, G, B의 원소값을 갖지만, R (Red)의 원소값을 기준으로 실시예를 설명한다. 도 7A의 각 픽셀 영역에 도시된 숫자는 R의 원소값을 의미한다.
도 7A의 경우, 모든 픽셀에 후술할 방식의 연산이 수행되지만 설명의 편의를 위해 정중앙의 픽셀을 기준으로 연산을 설명한다. 도 5A의 경우 증강 모듈(123)은 연산이 수행되는 픽셀을 중앙으로 하는 NxN 영역(도 7A에서 N은 3을 가정)에 포함된 픽셀 중 R 원소값의 최댓값(R_max = 130) 과 R 원소값의 평균값(R_avg = 120)의 차이(R_max - R_avg = 10)를 계산하여, 도출되는 값이 기 설정된 값 n보다 작은 경우의 픽셀(사물의 안쪽 영역에 존재하는 픽셀로 판별)과 기 설정된 값 n보다 큰 경우의 픽셀(사물의 테두리 영역에 존재하는 픽셀로 판별)을 구분하여, 도 7B의 우측과 같이 제1 공간 이미지에 포함된 사물의 테두리를 판별할 수 있다. 여기서, 증강 모듈(123)은 테두리 영역을 제외한 영역의 픽셀에 대해서만 가우시안 블러 알고리즘을 적용하여 도 7C의 우측 이미지와 같은 이미지를 생성할 수 있다. 한편, 연산이 수행되는 픽셀을 기준으로 하는 NxN 영역에 픽셀이 존재하지 않는 영역(ex. 이미지의 가장자리 쪽)이 존재한다면, 해당 픽셀에 대해서는 상술한 연산을 생략하고 블러 처리를 할 수 있다.
이처럼, 증강 모듈(123)은 제1 공간 이미지가 포함하는 모든 픽셀 각각에 대하여 위의 연산을 수행할 수 있다. 연산이 수행되는 픽셀의 경우, 해당 픽셀을 중앙에 포함하는 NxN (N은 3 이상의 홀수) 행렬 크기에 포함되는 복수의 픽셀을 커널 영역으로 선택하고, 커널 영역에 포함된 복수의 픽셀의 R, G, B 각각의 원소값 중 최대 원소값인 (R_max, G_max, B_max)에서, 커널 영역에 포함된 복수의 픽셀의 R, G, B 각각의 원소 평균값인 (R_avg, G_avg, B_avg)을 뺀 값인 (R_max-R_avg, G_max-G_avg, B_max-B_avg)을 구하고, (R_max-R_avg, G_max-G_avg, B_max-B_avg) 중 적어도 어느 하나의 원소값이 기 설정된 값 n보다 작으면 해당 픽셀에 가우시안 블러 알고리즘을 적용하여 제2 공간 이미지를 생성할 수 있다.
이와 같은 연산을 제1 공간 이미지에 포함된 모든 픽셀에 대해 수행하면, 색상 차이가 크게 벌어지는 테두리 영역의 픽셀만이 픽셀 정보를 그대로 가지고, 색상 차이가 없는 영역의 픽셀은 블러 처리되어, 카메라의 초점이 잘 맞지 않는 상태에서 촬영된 이미지를 학습할 수 있는 제2 공간 이미지를 생성할 수 있다. 이때 블러 처리는 가우시안 블러 알고리즘을 적용할 수 있으나 이에 한정되지 않고 다양한 블러 필터를 사용할 수 있다.
도 7B를 참조하면, 좌측은 제1 공간 이미지이고, 우측은 도 7을 통해 설명한 실시예에서 기 설정된 값 n보다 큰 경우와 n보다 작은 경우의 픽셀을 구분하여 생성된 이미지이다. 도 7B의 우측 이미지 역시 사물의 테두리를 극명하게 나타내기 때문에, 사물의 배치와 패턴을 명확하게 인식시키기 위한 목적으로 학습 데이터에 추가하여 사용할 수 있다.
도 7C를 참조하면, 좌측은 제1 공간 이미지이고, 우측은 상술한 도 7의 실시예에서 N = 7, n = 20을 적용한 실시예로, 테두리 이외의 영역이 블러 처리된 제2 공간 이미지를 확인할 수 있다.
더하여, 도 7을 통해 설명한 실시예에서 기 설정된 값 n보다 큰 경우의 픽셀을 블러 처리하여 상술한 실시예와 반대의 효과를 발생시킨 제2 공간 이미지를 학습 데이터 DB(111)에 추가할 수도 있다.
도 8은 제1 공간 이미지에 가우시안 정규 분포에 따른 노이즈 정보를 추가하여 데이터를 증강하는 실시예에 따라 생성된 제2 공간 이미지의 예시도이다.
증강 모듈(123)은 이미지의 특정 부분에 초점이 맞지 않는 경우를 학습하기 위한 학습 데이터를 생성할 수 있다. 이를 위해, 증강 모듈(123)은 제1 공간 이미지가 포함하는 모든 픽셀의 개수만큼, 평균 0 및 표준편차 100의 표준 가우시안 정규 분포를 따르는 난수 정보를 생성하고, 모든 픽셀의 각각에 난수 정보 각각을 합산하여 노이즈 정보가 삽입된 제2 공간 이미지를 생성할 수 있다.
레이블링 모듈(121)은 도 5 내지 도 8을 통해 생성된 제2 공간 데이터에 대하여, 변형 전의 원본인 제1 공간 이미지에 레이블링된 클래스를, 변형 후의 제2 공간 이미지에 동일하게 레이블링하여, 증강된 학습 데이터에 대한 레이블링 과정을 자동화하여 레이블링 시간을 단축시킬 수 있다.
이후, 학습 모듈(125)은 이미지 분류 알고리즘 기반으로 설계된 모델에 원본 학습 데이터(제1 공간 이미지)와 도 5 내지 도 8의 실시예들을 통해 증강된 학습 데이터(제2 공간 이미지)를 입력하여, 학습 데이터에 포함된 공간 이미지와 공간 이미지 각각에 레이블링된 스타일 클래스와의 상관관계를 도출하는 모델의 가중치를 학습시킴으로써, 상관관계를 기초로 공간 이미지에 대한 클래스를 판별하는 모델을 생성할 수 있다.
이러한 이미지 분류 알고리즘은 인공 지능 분야에서 다루는 다양한 문제를 정의하고 그것을 해결하는 머신러닝 알고리즘을 포함한다. 본 발명의 실시예는 ResNet, LeNet-5, AlexNet, VGG-F, VGG-M, VGG-S, VGG-16, VGG-19, GoogLeNet(inception v1), SENet의 알고리즘에 따라 설계된 인공지능 모델을 통해 학습을 진행할 수 있다.
인공지능 모델은 시냅스의 결합으로 네트워크를 형성한 노드들로 구성되는, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 인공지능 모델은 모델을 구성하는 레이어 사이의 가중치인, 모델 파라미터를 갱신하는 학습 과정, 출력값을 생성하는 활성화 함수(Activation Function)에 의해 정의될 수 있다.
모델 파라미터는 학습을 통해 결정되는 파라미터를 의미하며, 레이어 연결의 가중치와 뉴런의 편향 등이 포함된다. 그리고, 하이퍼 파라미터는 머신러닝 알고리즘에서 학습 전에 설정되어야 하는 파라미터를 의미하며, 네트워크 계층 수(num_layer), 학습 데이터 개수(num_training_samples), 클래스 개수(num_classes), 학습률(Learning Rate), 학습 횟수(epochs), 미니 배치 크기(mini_batch_size), 손실 함수(optimizer) 등이 포함된다.
본 발명의 일 실시예에 따른 인공지능 모델의 하이퍼 파라미터는 아래와 같은 설정값을 가질 수 있다. 예를 들어, 네트워크 계층 수는 이미지의 크기가 큰 학습 데이터일 경우 [18, 34, 50, 101, 152, 200] 사이에서 선택될 수 있다. 이때 네트워크 계층 수는 학습 시간을 고려하여 초깃값 18로 학습되다가 소정 개수의 학습 데이터가 학습된 이후에는 34 로 변경될 수 있고, 이에 따라 정확도가 향상될 수 있다. 학습 데이터 개수는 전체 이미지 데이터에서 평가 데이터의 개수를 뺀 값으로, 총 83,134장 중에서 66,509장이 학습 데이터로 사용될 수 있고, 나머지 16,625장은 평가 데이터로 사용될 수 있다. 클래스 개수는 모던/로맨틱/클래식/내추럴/캐주얼/북유럽/빈티지로 분류되는 7가지의 클래스를 포함할 수 있다. 미니 배치 크기는 크기값에 따라 수렴 속도 및 최종 loss 값에 차이가 있으므로 [32, 64, 128, 256] 등의 크기를 각각 시도하여 적절한 값을 선택할 수 있고, 바람직하게 128 또는 256의 크기가 설정될 수 있다. 학습 횟수는 10 내지 15, 또는 30 중 어느 하나의 값으로 설정될 수 있다. 학습률은 0.005 또는 0.01로 설정될 수 있다. 손실함수(목적함수)는 기본값인 SGD로 설정될 수 있고, 또는 이미지 분류에 적합한 Adam으로 설정될 수 있다. 다만, 상술한 설정값들은 일 예시일 뿐 실시예들이 위 수치에 한정되는 것은 아니다.
인공지능 모델의 학습 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다. 손실 함수는 인공지능 모델의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표로 이용될 수 있다.
도 9는 본 발명의 일 실시예에 따른 데이터 증강 기반 스타일 분석 모델 학습 방법의 흐름도이다. 도 9에 따른 데이터 증강 기반 스타일 분석 모델 학습 방법의 각 단계는 도 3을 통해 설명된 데이터 증강 기반 스타일 분석 모델 학습 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.
먼저, 레이블링 모듈(121)은 복수의 공간 이미지를 획득하여 복수의 공간 이미지 각각에 해당하는 스타일 정보를 특정하는 클래스를 레이블링하거나, 클래스가 레이블링된 복수의 공간 이미지를 획득하여 학습 데이터를 생성한다(S910). 이후, 증강 모듈(123)은 복수의 공간 이미지 중 제1 공간 이미지가 포함하는 픽셀 정보를 소정의 범위 내로 변경한 제2 공간 이미지를 생성하여 학습 데이터를 증강시킨다(S920). 다음으로, 레이블링 모듈(121)은 제1 공간 이미지에 레이블링된 클래스를 제2 공간 이미지에 레이블링한다(S930). 이에 따라, 학습 모듈(125)는 소정의 이미지 분류 알고리즘 기반으로 설계된 모델에 증강된 학습 데이터를 입력하여, 학습 데이터에 포함된 공간 이미지와 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 모델의 가중치를 학습시킴으로써, 상관관계를 기초로 공간 이미지의 스타일에 대한 클래스를 판별하는 모델을 생성할 수 있다(S940).
한편, 상술한 각 단계의 주체인 구성 요소들이 해당 단계를 실시하기 위한 과정은 도 3 내지 도 8과 함께 설명하였으므로 중복된 설명은 생략한다.
상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드 등이 기록된 컴퓨터 프로그램은 컴퓨터 판독 가능 기록 매체 또는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.
또한 본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
더불어 각 블록 또는 각 단계는 특정된 논리적 기능을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
Claims (14)
- 데이터 증강 기반 스타일 분석 모델 학습 장치에 있어서,
소정의 동작을 수행하도록 하는 명령어들을 저장하는 하나 이상의 메모리; 및 상기 하나 이상의 메모리와 동작할 수 있도록 연결되어 상기 명령어들을 실행하도록 설정된 하나 이상의 프로세서를 포함하고,
상기 프로세서가 수행하는 동작은,
복수의 공간 이미지를 획득하여 상기 복수의 공간 이미지 각각에 해당하는 스타일 정보를 특정하는 클래스를 레이블링하거나, 상기 클래스가 레이블링된 복수의 공간 이미지를 획득하여 학습 데이터를 생성하는 동작;
상기 복수의 공간 이미지 중 제1 공간 이미지가 포함하는 픽셀 정보를 소정의 범위 내에서 변경한 제2 공간 이미지를 생성하여 상기 학습 데이터를 증강하는 동작;
상기 제1 공간 이미지에 레이블링된 클래스를 상기 제2 공간 이미지에 레이블링하는 동작; 및
소정의 이미지 분류 알고리즘 기반으로 설계된 모델에 상기 증강된 학습 데이터를 입력하고, 상기 학습 데이터에 포함된 공간 이미지와 상기 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 상기 모델의 가중치를 학습시킴으로써, 상기 상관관계를 기초로 공간 이미지의 스타일에 대한 클래스를 판별하는 모델을 생성하는 동작을 포함하고,
상기 제2 공간 이미지를 생성하는 동작은,
상기 제1 공간 이미지가 포함하는 픽셀 중 제1 픽셀을 정중앙에 포함하는 NxN (N은 3 이상의 자연수) 행렬 크기에 포함된 복수의 픽셀의 R, G, B 각각의 원소값 중 최대 원소값인 ()에서 상기 복수의 픽셀의 R, G, B 각각의 원소 평균값인 ()을 뺀 값인 ()을 구하고, 상기 ()의 원소값 중 어느 하나가 기 설정된 값보다 작은 경우, 상기 제1 픽셀을 블러 처리를 하는 연산을 수행하여 상기 제2 공간 이미지를 생성하는 동작을 포함하는,
데이터 증강 기반 스타일 분석 모델 학습 장치.
- 제1항에 있어서,
상기 제2 공간 이미지를 생성하는 동작은,
[수학식 4]
(src(I): 픽셀 정보의 변경 전 원소값 (x, y, z), : 기 설정된 값인 n 이하의 난수, dst(I): 픽셀 정보의 변경 후 원소값 (x', y', z'))
[수학식 5]
(R: 상기 dst(I)의 (x', y', z') 중 x', G: 상기 dst(I)의 (x', y', z') 중 y', B: 상기 dst(I)의 (x', y', z') 중 z', Y: 픽셀 정보의 변경 후 원소값 (x'', y'', z''))
상기 수학식 4 및 5를 기초로 상기 제1 공간 이미지로부터 상기 제2 공간 이미지를 생성하는 동작을 포함하는,
데이터 증강 기반 스타일 분석 모델 학습 장치.
- 제1항에 있어서,
상기 제2 공간 이미지를 생성하는 동작은,
상기 제1 공간 이미지에 포함된 픽셀 정보의 일부에 노이즈 정보를 추가하여 상기 제2 공간 이미지를 생성하는 동작을 포함하는,
데이터 증강 기반 스타일 분석 모델 학습 장치.
- 삭제
- 제1항에 있어서,
상기 제2 공간 이미지를 생성하는 동작은,
상기 제1 공간 이미지가 포함하는 모든 픽셀의 개수만큼, 평균 0 및 표준편차 100의 표준 가우시안 정규 분포를 따르는 난수 정보를 생성하고, 상기 모든 픽셀의 각각에 상기 난수 정보 각각을 합산하여 노이즈가 삽입된 상기 제2 공간 이미지를 생성하는 동작을 포함하는,
데이터 증강 기반 스타일 분석 모델 학습 장치.
- 제1항에 있어서,
상기 모델을 생성하는 동작은,
ResNet(Deep Residual Learning for Image Recognition) 알고리즘을 기초로 설계된 신경망의 입력 레이어에 상기 학습 데이터에 포함된 공간 이미지가 입력되도록 설정하고, 출력 레이어에 상기 공간 이미지 각각에 레이블링된 클래스가 입력되도록 설정하여, 상기 학습 데이터에 포함된 공간 이미지와 상기 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 신경망의 가중치를 학습시키는 동작을 포함하는,
데이터 증강 기반 스타일 분석 모델 학습 장치.
- 제10항에 있어서,
상기 ResNet 알고리즘을 기초로 설계된 신경망의 하이퍼 파라미터 중 네트워크 계층 수는 [18, 34, 50, 101, 152, 200] 중 하나의 값을 갖고, 클래스 개수는 모던/로맨틱/클래식/내추럴/캐주얼/북유럽/빈티지로 분류되는 7가지의 클래스를 포함하고, 미니 배치 크기는 [32, 64, 128, 256] 중 하나의 값을 갖고, 학습 횟수는 10 내지 15, 또는 30의 값 중 하나를 갖고, 학습률은 0.005 또는 0.01로 설정되고, 손실함수는 SGD 또는 Adam으로 설정되는,
데이터 증강 기반 스타일 분석 모델 학습 장치.
- 제1항 내지 제7항 및 제9 항 내지 제11항 중 어느 한 항의 장치가 생성한 데이터 증강 기반 스타일 분석 모델을 포함하는 장치.
- 데이터 증강 기반 스타일 분석 모델 학습 장치가 수행하는 방법에 있어서,
복수의 공간 이미지를 획득하여 상기 복수의 공간 이미지 각각에 해당하는 스타일 정보를 특정하는 클래스를 레이블링하거나, 상기 클래스가 레이블링된 복수의 공간 이미지를 획득하여 학습 데이터를 생성하는 단계;
상기 복수의 공간 이미지 중 제1 공간 이미지가 포함하는 픽셀 정보를 소정의 범위 내에서 변경한 제2 공간 이미지를 생성하여 상기 학습 데이터를 증강하는 단계;
상기 제1 공간 이미지에 레이블링된 클래스를 상기 제2 공간 이미지에 레이블링하는 단계; 및
소정의 이미지 분류 알고리즘 기반으로 설계된 모델에 상기 증강된 학습 데이터를 입력하여, 상기 학습 데이터에 포함된 공간 이미지와 상기 공간 이미지 각각에 레이블링된 클래스와의 상관관계를 도출하는 상기 모델의 가중치를 학습시킴으로써, 상기 상관관계를 기초로 공간 이미지의 스타일에 대한 클래스를 판별하는 모델을 생성하는 단계를 포함하고,
상기 제2 공간 이미지를 생성하는 동작은,
상기 제1 공간 이미지가 포함하는 픽셀 중 제1 픽셀을 정중앙에 포함하는 NxN (N은 3 이상의 자연수) 행렬 크기에 포함된 복수의 픽셀의 R, G, B 각각의 원소값 중 최대 원소값인 ()에서 상기 복수의 픽셀의 R, G, B 각각의 원소 평균값인 ()을 뺀 값인 ()을 구하고, 상기 ()의 원소값 중 어느 하나가 기 설정된 값보다 작은 경우, 상기 제1 픽셀을 블러 처리를 하는 연산을 수행하여 상기 제2 공간 이미지를 생성하는 동작을 포함하는,
데이터 증강 기반 스타일 분석 모델 학습 방법.
- 제13항의 방법을 프로세서가 수행하도록 하는 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200091766A KR102208690B1 (ko) | 2020-07-23 | 2020-07-23 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
JP2022531444A JP7325637B2 (ja) | 2020-07-23 | 2020-11-24 | データ増強基盤スタイル分析モデル学習装置及び方法 |
CN202080085323.9A CN114830144A (zh) | 2020-07-23 | 2020-11-24 | 基于数据增强的风格分析模型学习装置及方法 |
PCT/KR2020/016742 WO2022019391A1 (ko) | 2020-07-23 | 2020-11-24 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
EP20945981.7A EP4040348A4 (en) | 2020-07-23 | 2020-11-24 | DEVICE AND METHOD FOR TRAINING STYLE ANALYSIS MODEL BASED ON DATA AUGMENTATION |
KR1020210007440A KR102430740B1 (ko) | 2020-07-23 | 2021-01-19 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
US17/870,525 US20220366675A1 (en) | 2020-07-23 | 2022-07-21 | Apparatus and method for developing style analysis model based on data augmentation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200091766A KR102208690B1 (ko) | 2020-07-23 | 2020-07-23 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210007440A Division KR102430740B1 (ko) | 2020-07-23 | 2021-01-19 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR102208690B1 true KR102208690B1 (ko) | 2021-01-28 |
KR102208690B9 KR102208690B9 (ko) | 2022-03-11 |
Family
ID=74239301
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200091766A KR102208690B1 (ko) | 2020-07-23 | 2020-07-23 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
KR1020210007440A KR102430740B1 (ko) | 2020-07-23 | 2021-01-19 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210007440A KR102430740B1 (ko) | 2020-07-23 | 2021-01-19 | 데이터 증강 기반 스타일 분석 모델 학습 장치 및 방법 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220366675A1 (ko) |
EP (1) | EP4040348A4 (ko) |
JP (1) | JP7325637B2 (ko) |
KR (2) | KR102208690B1 (ko) |
CN (1) | CN114830144A (ko) |
WO (1) | WO2022019391A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116593408B (zh) * | 2023-07-19 | 2023-10-17 | 四川亿欣新材料有限公司 | 一种重质碳酸钙粉体色度检测方法 |
CN117095257A (zh) * | 2023-10-16 | 2023-11-21 | 珠高智能科技(深圳)有限公司 | 多模态大模型微调方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721367A (ja) * | 1993-06-22 | 1995-01-24 | Oyo Keisoku Kenkyusho:Kk | 画像認識装置 |
KR20100102772A (ko) | 2009-03-12 | 2010-09-27 | 주식회사 퍼시스 | 실내환경 분석 시스템 및 그 방법 |
KR20180004824A (ko) * | 2015-09-24 | 2018-01-12 | 주식회사 뷰노 | 영상 생성 방법 및 장치, 및 영상 분석 방법 |
JP2018169672A (ja) * | 2017-03-29 | 2018-11-01 | 三菱電機インフォメーションシステムズ株式会社 | 教師画像を生成する方法、コンピュータおよびプログラム |
KR20200078214A (ko) * | 2018-12-21 | 2020-07-01 | 삼성전자주식회사 | 스타일 변환을 위한 영상 처리 장치 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9864931B2 (en) | 2016-04-13 | 2018-01-09 | Conduent Business Services, Llc | Target domain characterization for data augmentation |
KR102645202B1 (ko) * | 2017-01-03 | 2024-03-07 | 한국전자통신연구원 | 기계 학습 방법 및 장치 |
CN108520278A (zh) | 2018-04-10 | 2018-09-11 | 陕西师范大学 | 一种基于随机森林的路面裂缝检测方法及其评价方法 |
US10489683B1 (en) | 2018-12-17 | 2019-11-26 | Bodygram, Inc. | Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks |
CN110516703A (zh) | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 基于人工智能的车辆识别方法、装置及存储介质 |
-
2020
- 2020-07-23 KR KR1020200091766A patent/KR102208690B1/ko active IP Right Grant
- 2020-11-24 EP EP20945981.7A patent/EP4040348A4/en not_active Withdrawn
- 2020-11-24 JP JP2022531444A patent/JP7325637B2/ja active Active
- 2020-11-24 CN CN202080085323.9A patent/CN114830144A/zh not_active Withdrawn
- 2020-11-24 WO PCT/KR2020/016742 patent/WO2022019391A1/ko unknown
-
2021
- 2021-01-19 KR KR1020210007440A patent/KR102430740B1/ko active IP Right Grant
-
2022
- 2022-07-21 US US17/870,525 patent/US20220366675A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721367A (ja) * | 1993-06-22 | 1995-01-24 | Oyo Keisoku Kenkyusho:Kk | 画像認識装置 |
KR20100102772A (ko) | 2009-03-12 | 2010-09-27 | 주식회사 퍼시스 | 실내환경 분석 시스템 및 그 방법 |
KR20180004824A (ko) * | 2015-09-24 | 2018-01-12 | 주식회사 뷰노 | 영상 생성 방법 및 장치, 및 영상 분석 방법 |
JP2018169672A (ja) * | 2017-03-29 | 2018-11-01 | 三菱電機インフォメーションシステムズ株式会社 | 教師画像を生成する方法、コンピュータおよびプログラム |
KR20200078214A (ko) * | 2018-12-21 | 2020-07-01 | 삼성전자주식회사 | 스타일 변환을 위한 영상 처리 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102430740B1 (ko) | 2022-08-11 |
US20220366675A1 (en) | 2022-11-17 |
JP2023508640A (ja) | 2023-03-03 |
EP4040348A1 (en) | 2022-08-10 |
KR20220012786A (ko) | 2022-02-04 |
CN114830144A (zh) | 2022-07-29 |
JP7325637B2 (ja) | 2023-08-14 |
KR102208690B9 (ko) | 2022-03-11 |
WO2022019391A1 (ko) | 2022-01-27 |
EP4040348A4 (en) | 2023-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102234609B1 (ko) | 이미지 데이터베이스 분석 기반 상품 추천 장치 | |
US11854072B2 (en) | Applying virtual makeup products | |
US11854070B2 (en) | Generating virtual makeup products | |
US20220366675A1 (en) | Apparatus and method for developing style analysis model based on data augmentation | |
CN109784281A (zh) | 基于人脸特征的产品推荐方法、装置及计算机设备 | |
KR20230124091A (ko) | 템플릿 이미지들을 사용한 증강 현실 프리렌더링 생성 | |
Phan et al. | Color orchestra: Ordering color palettes for interpolation and prediction | |
CN101477560A (zh) | 基于方案数据库的服饰搭配系统及方法 | |
CN108985873A (zh) | 化妆品推荐方法、存储有程序的记录介质、为实现其的计算机程序以及化妆品推荐系统 | |
Mould et al. | A benchmark image set for evaluating stylization. | |
KR102430743B1 (ko) | 데이터 증강 기반 사물 분석 모델 학습 장치 및 방법 | |
Trémeau et al. | Deep learning for material recognition: most recent advances and open challenges | |
CN117033688B (zh) | 一种基于ai交互的人物图像场景生成系统 | |
KR102208685B1 (ko) | 데이터 증강 기반 공간 분석 모델 학습 장치 및 방법 | |
Podlasov et al. | Japanese street fashion for young people: A multimodal digital humanities approach for identifying sociocultural patterns and trends | |
KR20220090967A (ko) | 인공지능을 활용한 패션 가상현실시스템 | |
Shamoi et al. | Apparel online shop reflecting customer perception | |
Wickramarathne et al. | Trenditex: An intelligent fashion designer | |
CN114402349A (zh) | 用于推荐化妆调色板或头发着色方案中的至少一个的计算设备、方法和装置 | |
Deng | Product development strategy of non-heritage cultural and creative products under the fusion of traditional crafts and modern technology | |
KR20220128200A (ko) | 퍼스널 컬러 진단 방법 | |
Cheng et al. | Discovering dressing knowledge for an intelligent dressing advising system | |
CN118822835A (zh) | 风格迁移方法、介质、计算机设备和程序产品 | |
KR20210020201A (ko) | 퍼지기반의퍼스널컬러진단키트및그방법 | |
Lei | The Creative Presentation of Color Elements in Chinese Painting Art under the View of Information Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |