KR20180082904A - 영상의 특성 추출을 위한 영상 분석 방법 및 장치 - Google Patents
영상의 특성 추출을 위한 영상 분석 방법 및 장치 Download PDFInfo
- Publication number
- KR20180082904A KR20180082904A KR1020170004368A KR20170004368A KR20180082904A KR 20180082904 A KR20180082904 A KR 20180082904A KR 1020170004368 A KR1020170004368 A KR 1020170004368A KR 20170004368 A KR20170004368 A KR 20170004368A KR 20180082904 A KR20180082904 A KR 20180082904A
- Authority
- KR
- South Korea
- Prior art keywords
- vectors
- image
- target
- sample images
- images
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/008—Vector quantisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
영상의 특성 추출을 위한 영상 분석 방법 및 장치가 개시된다. 본 발명은 영상을 분석하는 장치에서 수행되는 영상 분석 방법으로서, 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델을 통해 복수의 샘플 영상들에 대한 복수의 특성들을 추출하는 단계, 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하는 단계, 복수의 특성들에 대한 복수의 목표 특성들의 확률 분포를 기반으로 복수의 특성들을 부호화하는 단계 및 장치로 복수의 분석 대상 영상들이 수신되는 경우, 부호화된 복수의 특성들을 기반으로 복수의 분석 대상 영상들을 분석하는 단계를 포함한다.
Description
본 발명은 영상을 분석하는 기술에 관한 것으로, 더욱 상세하게는 영상의 품질 평가 및 심미적(aesthetics) 요소와 관련된 영상의 특성을 추출하기 위한 영상 분석 방법 및 장치에 관한 것이다.
최근 다양한 종류의 영상을 획득하거나 공급하기 위한 기술이 급격하게 발달되면서, 많은 사용자들이 방대한 양의 영상들을 손쉽게 얻을 수 있게 되었다. 이와 같은 기술의 발달로 인해 사용자들은 고품질의 영상에 대한 기대감도 높아지게 되었다. 이에 따라, 사용자들의 기대감을 만족시키기 위해 영상의 품질을 자동으로 평가하고, 영상의 심미적(aesthetics) 요소들을 분석하기 위한 기술들이 개발되고 있다.
여기서, 영상의 품질을 평가하는 기술은 주어진 영상의 품질을 일정한 기준에 따라 고 품질(high quality) 및 저 품질(low quality)로 분류하는 기술을 의미할 수 있다. 이러한 영상의 품질을 평가하는 기술은 사용자가 접하는 대량의 영상을 효율적으로 관리하기 위해 필요한 기술 중 하나이다.
아울러, 영상의 심미적 요소들을 분석하는 기술은 영상의 심미적 요소들에 해당하는 영상의 선명도(예를 들어, 모션 블러(motion blur), 색상 및 구조 등과 같이 영상의 심미적인 영향을 주는 요소들을 분석하는 기술을 의미할 수 있다. 이러한 영상의 심미적 요소들을 분석하는 기술은 미학적인 영상들을 생성하기 위한 다양한 어플리케이션에 유용하게 적용될 수 있는 기술 중 하나이다.
구체적으로, 영상의 품질을 평가하는 기술은 미학적인 영상의 구성에 영향을 줄 수 있는 심미적 요소들을 미리 정의하고, 정의된 심미적 요소들을 표현하기 위한 수학적 모델을 디자인하게 된다. 또한, 영상의 심미적 요소들을 분석하는 기술에서도 심미적 요소들을 표현하기 위해 디자인된 수학적 모델이 영상의 심미적 요소들을 분석하기 위한 지표로 사용된다.
그러나, 이와 같이 디자인된 수학적 모델을 실질적인 영상의 품질을 평가하고 심미적 요소들을 분석하기 하기 위해 사용되기에는 한계가 있다. 즉, 디자인된 수학적 모델은 영상의 다양하고 복잡한 특성을 충분히 표현하지 못하는 문제가 있다. 또한, 단순히 수학적 모델을 통해 정의된 심미적 요소들만으로 영상의 품질을 평가하고 심미적 요소들을 분석하는 것은 영상에 대하여 정확하지 못한 분석을 수행하게 되는 문제가 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 영상의 품질을 평가하기 위한 특성 및 심미적 요소를 분석하기 위한 특성을 추출하기 위한 영상 분석 방법 및 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법은 영상을 분석하는 장치에서 수행되는 영상 분석 방법으로서, 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하는 단계, 상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하는 단계, 상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하는 단계 및 상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함한다.
여기서, 상기 미리 학습된 모델은 상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델일 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함할 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하는 단계, 상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하는 단계, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하는 단계 및 상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하는 단계를 포함할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 분석 대상 영상들을 분석하는 단계는 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하는 단계 및 상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 영상의 특성 추출을 위한 영상 분석 장치는, 영상을 분석하는 방법을 수행하는 영상 분석 장치로서, 프로세서(processor) 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고, 상기 적어도 하나의 명령은 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하고, 상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하고, 상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하고, 그리고 상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행된다.
여기서, 상기 미리 학습된 모델은 상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델일 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함할 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함할 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하고, 상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하고, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하고, 그리고 상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서 상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 분석 대상 영상들을 분석하는 과정에서, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하고, 그리고 상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행될 수 있다.
본 발명에 의하면, 영상의 품질을 보다 정확하게 평가할 수 있고, 영상의 심미적 요소들을 기준으로 영상을 정확하게 분류할 수 있다. 이에 따라, 본 발명에 따른 영상 분석 방법을 수행하는 영상 분석 장치는 영상을 분석하거나 분류하는 알고리즘의 정확도를 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치를 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 특징들을 부호화하는 방법을 도시한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 RBM 모델을 도시한 개념도이다.
도 6은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 SVM 기반의 SRBM 모델을 도시한 개념도이다.
도 7은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 분석 대상 영상들을 분석하는 방법을 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치를 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 특징들을 부호화하는 방법을 도시한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 RBM 모델을 도시한 개념도이다.
도 6은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 SVM 기반의 SRBM 모델을 도시한 개념도이다.
도 7은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 분석 대상 영상들을 분석하는 방법을 도시한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법은 영상 분석 장치(100)에서 수행될 수 있다. 영상 분석 장치(100)는 영상 분석 방법을 수행하기 위해 각 기능에 따른 복수의 모델(model)을 포함할 수 있다.
구체적으로, 영상 분석 장치(100)는 복수의 영상들(10)의 특성을 추출하기 위해 미리 학습된 모델(101), 복수의 특성들을 부호화(encoding) 하기 위한 부호화 모델(102) 및 복수의 분석 대상 영상들을 분류하기 위한 분류 모델(103)을 포함할 수 있다. 여기서, 복수의 영상들(10)은 복수의 특성들을 추출하기 위한 샘플 영상을 의미할 수 있으며, 이에 따라 후술되는 복수의 샘플 영상들과 동일한 의미일 수 있다.
먼저, 영상 분석 장치(100)는 복수의 영상들(10)을 미리 학습된 모델(101)을 통해 복수의 영상들(10)에 대한 복수의 특성들(20)을 추출할 수 있다. 이후, 영상 분석 장치(100)는 영상 분석 장치(100)를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들(30)을 결정할 수 있다. 이후, 영상분석 장치(100)는 복수의 목표 특성들(30)을 고려하여 부호화 모델(102)을 통해 복수의 특성들(20)을 부호화할 수 있다.
이후, 영상 분석 장치(100)는 분류 모델(103)을 통해 부호화된 복수의 특성들(40)에 기초하여 복수의 영상들(10)을 분류할 수 있다. 이를 통해, 영상 분석 장치(100)는 부호화된 복수의 특성들(40)을 학습할 수 있다. 이후, 영상 분석 장치(100)는 도 1에는 도시되지 않았으나, 복수의 분석 대상 영상들이 수신되는 경우 학습된 복수의 특성들을 기반으로 복수의 분석 대상 영상들을 분석할 수 있다.
상기에서 설명된 본 발명의 일 실시예에 따른 영상 분석 방법을 수행하는 영상 분석 장치(100)에 포함된 복수의 모델들은 물리적인 구성이 아닌 논리적인 구성을 의미할 수 있다. 예를 들어, 복수의 모델들은 영상 분석 장치(100)에 포함된 프로세서(processor)를 통해 실행 가능한 적어도 하나의 명령들을 통해 구현될 수 있다.
이에 따라, 이하에서는 본 발명의 일 실시예에 따른 영상 분석 방법을 수행하는 영상 분석 장치(100)의 구체적인 구성들이 도 2를 참조하여 설명될 수 있다.
도 2는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치를 도시한 블록도이다.
도 2를 참조하면, 본 발명의 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치(100)는 적어도 하나의 프로세서(110), 메모리(120) 및 네트워크와 연결되어 통신을 수행하는 네트워크 인터페이스 장치(130)를 포함할 수 있다. 또한, 영상 분석 장치(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 영상 분석 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(110)는 메모리(120) 및/또는 저장 장치(160)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU) 또는 본 발명에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120)와 저장 장치(160)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및/또는 랜덤 액세스 메모리(random access memory, RAM)로 구성될 수 있다. 여기서, 프로세서(110)를 통해 실행되는 프로그램 명령은 본 발명에서 제안하는 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 복수의 단계들을 포함할 수 있다.
이하에서는, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법이 도 3 내지 도 7을 참조하여 구체적으로 설명될 수 있다. 또한, 이하에서 설명되는 본 발명의 영상 분석 방법은 도 1 내지 도 2를 참조하여 설명된 영상 분석 장치(100)에서 수행될 수 있다.
도 3은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치는 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델을 통해 복수의 샘플 영상들에 대한 복수의 특성들을 추출할 수 있다(S100).
구체적으로, 영상 분석 장치는 복수의 샘플 영상들을 도 2를 참조하여 설명된 네트워크 인터페이스 장치(130)를 통해 네트워크(예를 들어, 인터넷(internet)과 같은 통신 네트워크)와 연결될 수 있고, 이를 통해 복수의 샘플 영상들을 획득할 수 있다. 또는, 복수의 샘플 영상들은 도 2를 참조하여 설명된 메모리(120) 또는 저장 장치(160)에 미리 저장될 수 있다. 예를 들어, 복수의 샘플 영상들은 이미지넷(ImageNet)의 데이터셋(dataset)에 포함된 복수의 영상들을 의미할 수 있다.
또한, 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델은 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델일 수 있다. 예를 들어, 미리 학습된 모델을 통해 추출되는 복수의 특성들은 DCNN에 포함된 FC1(fully connected layer 1) 단에서 획득되는 복수의 샘플 영상들에 대한 복수의 특성들을 의미할 수 있다.
이후, 영상 분석 장치는 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성(target feature)을 결정할 수 있다(S200). 여기서, 복수의 목표 특성들은 복수의 샘플 영상들을 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성 및 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함할 수 있다.
예를 들어, 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함할 수 있다. 또한, 복수의 샘플 영상들의 심미적 요소는 복수의 샘플 영상들의 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함할 수 있다.
이후, 영상 분석 장치는 복수의 특성들에 대한 복수의 목표 특성들의 확률 분포(probability distribution)를 기반으로 복수의 특성들을 부호화할 수 있다(S300). 영상 분석 장치에서 복수의 특성들을 부호화하는 구체적인 방법은 이하에서 도 4 내지 도 6을 참조하여 설명될 수 있다.
도 4는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 특징들을 부호화하는 방법을 도시한 개념도이다.
도 4를 참조하면, 영상 분석 장치는 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성할 수 있다(S310). 이후, 영상 분석 장치는 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성할 수 있다(S320). 이후, 영상 분석 장치는 복수의 제1 벡터들에 대한 복수의 제2 벡터들의 확률 분포를 산출할 수 있다(S330). 이후, 영상 분석 장치는 산출된 확률 분포를 기반으로 복수의 특성들을 부호화할 수 있다(S340).
구체적으로, 영상 분석 장치는 복수의 제1 벡터들을 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 복수의 특성들을 부호화 할 수 있다. 여기서, RBM 모델은 제한된 볼츠만 머신이라고 하며, 도 5에 도시된 바와 같은 형태를 가질 수 있다. 이하에서, 도 5를 참조하여 본 발명의 일 실시예에 따른 영상 분석 장치가 복수의 특성들을 부호화하는 구체적인 방법이 설명될 수 있다.
도 5는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 RBM 모델을 도시한 개념도이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 사용되는 RBM 모델은 입력 벡터(x)(510), 히든 벡터(h)(520) 및 입력 벡터(x)(510)에 대한 가중치(W)(530)를 포함할 수 있다. 또한, RBM 모델은 입력 벡터(x)(510) 및 히든 벡터(h)(520) 간의 결합 분포를 모델링할 수 있는 이분 그래프(bipartite graph)를 의미할 수 있다. 여기서, 입력 벡터(x)(510)는 x=[x1,…,xL]T와 같이 나타낼 수 있고, 히든 벡터(h)(520)는 h=[h1,…,HD]T와 같이 나타낼 수 있다.
이와 같은 RBM 모델을 본 발명의 일 실시예에 따른 영상의 특성을 추출하기 위한 영상 분석 방법에 적용하면, RBM 모델의 입력 벡터(x)(510)는 복수의 특성들을 벡터의 형태로 변환하여 생성된 복수의 제1 벡터들을 의미할 수 있다. 또한, RBM 모델의 히든 벡터(h)(520)는 부호화된 복수의 특성들을 의미할 수 있다. 구체적으로, RBM 모델에서 결합 분포는 하기의 수학식 1과 같이 정의될 수 있다.
상기 수학식 1에서 E는 에너지 함수(energy function)를 의미할 수 있고, Z는 분배 함수(partition function)를 의미할 수 있다. 특히, 분배 함수를 의미하는 Z는 하기의 수학식 2와 같이 정의될 수 있다. 또한, 에너지 함수를 의미하는 E의 x 및 h는 하기의 수학식 3과 같이 정의될 수 있다.
상기 수학식 2에서 W(W∈R D ×L), b(b∈R D ×1) 및 c(W∈R L × 1)는 RBM 모델을 나타내는 기본적인 파라미터(parameter)를 의미할 수 있다. 이에 따라, RBM 모델에서 입력 벡터(x)(510)의 확률은 하기의 수학식 4와 같이 정의될 수 있다.
또한, 히든 벡터(h)(520)에 대한 입력 벡터(x)(510)의 조건부 확률(conditional probability)은 하기의 수학식 5와 같이 정의될 수 있다. 또한, 입력 벡터(x)(510)에 대한 히든 벡터(h)(520)에 대한 조건부 확률은 하기의 수학식 6과 같이 정의될 수 있다.
상기 수학식 5 및 수학식 6에서 은 시그모이드 함수(sigmoid function)를 의미할 수 있고, 과 같이 나타낼 수 있다. 또한, RBM 모델은 NLL(negative log likelihood)을 최소화함으로써, 입력 벡터(x)(510)를 부호화할 수 있다.
구체적으로, RBM 모델은 깁스 샘플링(Gibbs sampling) 및 기울기 하강(gradient decent)를 기반으로 상기 수학식 7의 파라미터를 업데이트할 수 있다. 이를 통해, RBM 모델은 대조 분산(contrastive divergence)를 기반으로 효율적으로 학습할 수 있다. 즉, RBM 모델은 하기의 수학식 8이 나타내는 업데이트 방법에 기초하여 파라미터를 업데이트할 수 있다.
상기 수학식 8에서 〈·〉는 학습 대상의 평균 값을 의미할 수 있고, T는 깁스 샘플링의 수를 의미할 수 있다. 상술한 바와 같은 과정을 통해, 영상 분석 장치는 RBM 모델을 통해 복수의 특성들을 부호화할 수 있다.
이때, 영상 분석 장치는 RBM 모델을 통해 복수의 특성들을 부호화하는 과정에서, 복수의 제1 벡터들 및 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 복수의 특성들을 부호화할 수 있다. 구체적으로, 영상 분석 장치에서 교차 엔트로피 값이 최소화 되도록 복수의 특성들을 부호화하는 과정은 하기의 수학식 9와 같이 나타낼 수 있다.
상기 수학식 9에서 h는 히든 벡터(h)(520)를 의미하므로, 복수의 특성들이 벡터의 형태로 변환된 복수의 제1 벡터들을 의미할 수 있다. 또한, 상기 수학식 9에서 f는 목표 벡터(target vector)를 의미하므로, 복수의 목표 특성들이 벡터의 형태로 변환된 복수의 제2 벡터들을 의미할 수 있다. 또한, 상기 수학식 9에서 는 교차 엔트로피 손실을 의미할 수 있고, 와 같이 나타낼 수 있다. 여기서, RBM 모델에서 교차 엔트로피에 따라 파라미터를 업데이트 하는 방법은 하기의 수학식 10과 같이 나타낼 수 있다.
상기 수학식 10에서 zd는 히든 벡터(h)(520) 및 목표 벡터(f)의 가중합(weighted sum)을 의미할 수 있고, 와 같이 나타낼 수 있다. 상기 수학식 10에서 가 0이거나 인 경우, 상기 수학식 10은 상기 수학식 8과 동일할 수 있다.
상술한 바와 같은 과정을 통해, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치는 복수의 특성들을 부호화할 수 있다. 또한, 본 발명의 영상 분석 장치는 복수의 특성들을 복수의 목표 특성들을 고려하여 부호화하기 위해 히든 벡터에 복수의 목표 특성들을 공유시킬 수 있다. 즉, 영상 분석 장치는 복수의 목표 특성에 포함된 각 목표 특성들에 대한 범위를 명확히 하는 것을 의미할 수 있다. 이에 따라, 상기 수학식 9는 하기의 수학식 11과 같이 변경될 수 있다.
상기 수학식 11에서 g(i)는 i번째 학습 데이터의 분류 레이블(class label)을 의미할 수 있고, 와 같이 나타낼 수 있다. 또한, 영상 분석 장치는 복수의 목표 벡터들을 각 목표 벡터들에 따라 적절하게 정의할 수 있다.
구체적으로, 본 발명에서 영상 분석 장치는 복수의 목표 특성들에 대한 차별성(discrimination) 및 희소성(sparseness)를 고려하여 복수의 특성들을 부호화할 수 있다. 이하에서, 도 6을 참조하여 영상 분석 장치가 복수의 목표 특성들에 대한 차별성 및 희소성을 고려하여 복수의 특성들을 부호화하는 구체적인 방법이 설명될 수 있다.
도 6은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 SVM 기반의 SRBM 모델을 도시한 개념도이다.
도 6을 참조하면, 본 발명의 영상 분석 장치가 복수의 특성들을 부호화하는 부호화 모델의 논리적인 구성을 확인할 수 있다. 여기서, 영상 분석 장치에서 사용되는 부호화 모델은 SVM(support vector machine) 기반의 SRBM 모델(sparse restricted Boltzmann machine)이라고 칭할 수 있다.
구체적으로, 본 발명의 영상 분석 장치에서 사용되는 SVM 기반의 SRBM 모델은 RBM 모델(N)(610)을 클래스 별 목표 벡터(620)로 분류할 수 있다. 여기서, 클래스 별 목표 벡터는 복수의 목표 벡터들() 각각의 정의를 의미할 수 있다. 즉, 영상 분석 장치는 교차 엔트로피 손실 제어 모듈(H)(630)을 통해 RBM 모델의 히든 벡터(h)에 복수의 목표 특성들이 공유될 수 있도록 제어할 수 있다.
또한, 영상 분석 장치는 클래스 별 목표 벡터(620)에 포함된 각 목표 특성 간의 차별성 및 희소성을 고려하여 각 목표 벡터를 정의할 수 있다. 다시 말해, 영상 분석 장치는 복수의 제2 벡터들 간의 구분을 위해 복수의 제2 벡터들이 서로 차별성을 가지도록 복수의 제2 벡터들 각각을 정의할 수 있다. 또한, 영상 분석 장치는 복수의 제1 벡터들에 대한 복수의 제2 벡터들에 대한 결합 분포가 희소성을 가지도록 복수의 제2 벡터들 각각을 정의할 수 있다.
먼저, 영상 분석 장치는 복수의 제2 벡터들 간의 구분을 위해 복수의 제2 벡터들이 차별성을 가지도록 SVM을 기반으로 미리 학습된 분류 모델에 적용하여 복수의 특성들을 부호화할 수 있다. 여기서, SVM은 복수의 복수의 특성들을 구분 또는 분류하기 위해 미리 학습된 모델을 의미할 수 있다. 즉, 영상 분석 장치는 SVM을 기반으로 미리 학습된 모델을 통해 복수의 목표 특성들을 나타내는 복수의 목표 벡터들이 차별성을 가지도록 정의할 수 있고, 이를 기반으로 복수의 특성들을 부호화할 수 있다.
구체적으로, 영상 분석 장치에서 SVM을 기반으로 미리 학습된 모델을 통해 복수의 목표 벡터들이 차별성을 가지도록 정의하는 구체적인 방법은 하기의 수학식 12와 같이 나타낼 수 있다.
즉, 영상 분석 장치는 SVM 기반의 미리 학습된 모델을 통해 획득되는 정보()를 기반으로 복수의 목표 벡터들이 차별성을 가지도록 정의할 수 있다. 영상 분석 장치는 각 목표 벡터들를 나타내는 가 K개의 기저(basis) 벡터들()의 선형 결합(linear combination)으로 모델링 되는 것으로 가정할 수 있다. 이후, 영상 분석 장치는 상기 수학식 12를 기반으로 계수 벡터를 의미하는 를 산출함으로써, 각 목표 벡터 fc를 정의할 수 있다.
아울러, 영상 분석 장치는 복수의 제1 벡터들에 대한 복수의 제2 벡터들의 결합 분포가 희소성을 가지도록 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교할 수 있고, 비교 결과를 기반으로 복수의 특성들을 부호화할 수 있다.
구체적으로, 영상 분석 장치는 복수의 목표 벡터들에 희소성을 부여할 수 있는 희소성 모델(sparsity model)을 기반으로 복수의 목표 벡터들이 희소성을 가지도록 모델링 할 수 있다. 여기서, 희소성 모델을 기반으로 희소성이 부여된 복수의 목표 벡터들은 하기의 수학식 13과 같이 나타낼 수 있다.
상기 수학식 13에서 는 복수의 목표 벡터들 fc에 포함된 fc,d의 순위(rank)를 기반으로 0 내지 1 사이의 값을 할당하는 함수를 의미할 수 있다. 예를 들어, 영상 분석 장치는 가 0.5 미만인 경우, fc에서 미리 설정된 임계값 보다 큰 값을 가지는 적어도 하나의 목표 벡터를 제외하고 나머지 목표 벡터를 0으로 결정할 수 있다. 이와 같은 방법을 통해, 영상 분석 장치는 복수의 목표 벡터들이 희소성을 가지도록 정의할 수 있고, 이를 기반으로 복수의 특성들을 부호화할 수 있다. 상술한 바와 같은 과정을 통해, 영상 분석 장치는 복수의 특성들을 복수의 목표 특성들의 차별성 및 희소성을 고려하여 부호화할 수 있다.
상기에서 설명된 본 발명의 SVM 기반의 SRBM 모델은 미리 설정된 횟수만큼 반복될 수 있다. SVM 기반의 SRBM 모델이 미리 설정된 횟수만큼 반복된다는 것은 SRBM 모델에 포함된 파라미터가 업데이트 되는 횟수가 미리 설정될 수 있는 것을 의미할 수 있다. 즉, 영상 분석 장치는 미리 설정된 횟수만큼 SVR 기반의 SRBM 모델을 통해 복수의 목표 특성들을 정의할 수 있고, 이를 기반으로 복수의 특성들을 부호화할 수 있다.
한편, 다시 도 1을 참조하면 영상 분석 장치는 영상 분석 장치로 복수의 분석 대상 영상들이 수신되는 경우, 부호화된 복수의 특성들을 기반으로 복수의 분석 대상 영상들을 분석할 수 있다(S400). 구체적으로, 영상 분석 장치에서 복수의 분석 대상 영상들을 분석하는 방법은 이하에서 도 7을 참조하여 설명될 수 있다.
도 7은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 분석 대상 영상들을 분석하는 방법을 도시한 흐름도이다.
도 7을 참조하면, 영상 분석 장치는 복수의 특성들을 부화화할 수 있고, 부호화된 복수의 특성들을 기반으로 복수의 샘플 영상들을 분류함으로써, 부호화된 복수의 특성들을 학습할 수 있다(S410). 이후, 영상 분석 장치는 복수의 분석 대상 영상들이 수신되는 경우, 학습된 복수의 특성들을 기반으로 복수의 분석 대상들을 분석할 수 있다(S4200.
예를 들어, 복수의 목표 특성들에 영상의 품질에 기초하여 분류하기 위한 특성으로 고품질 및 저품질에 관한 특성이 포함될 수 있다. 또한, 복수의 목표 특성들에 영상의 심미적 요소에 기초하여 분류하기 위한 특성으로 모션 블러에 관한 특성이 포함될 수 있다.
이와 같은 경우, 영상 분석 장치는 복수의 목표 특성들을 기반으로 복수의 특성들을 부호화하였으므로, 복수의 분석 대상 영상들을 고품질 영상 및 저품질 여상으로 분류할 수 있다. 또한, 영상 분석 장치는 복수의 분석 대상 영상들 중 모션 블러의 특성을 가지는 영상을 추출할 수 있다.
상기에서 도 3 내지 도 7을 참조하여 설명된 본 발명의 일 실시예에 따른 영상의 특성을 추출하기 위한 영상 분석 방법은 복수의 분석 대상 영상들을 미리 설정된 복수의 목표 특성들에 기초하여 분석하기 위해 적용되는 것으로 설명되었다. 그러나, 본 발명의 일 실시예에 따른 영상 분석 방법이 이에 한정되는 것은 아니다. 즉, 본 발명의 일 실시예에 따른 영상 분석 방법은 복수의 영상들로부터 특성을 추출하거나 분류하는 분야 이외에도 데이터에 포함된 특성을 추출하거나 다양한 종류의 데이터를 분류하는 분야에도 적용될 수 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
Claims (20)
- 영상을 분석하는 장치에서 수행되는 영상 분석 방법으로서,
복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하는 단계;
상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하는 단계;
상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하는 단계; 및
상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함하는 영상 분석 방법. - 청구항 1에 있어서,
상기 미리 학습된 모델은,
상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델인 것을 특징으로 하는 영상 분석 방법. - 청구항 1에 있어서,
상기 복수의 목표 특성들은,
상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함하는 것을 특징으로 하는 영상 분석 방법. - 청구항 1에 있어서,
상기 복수의 목표 특성들은,
상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 분석 방법. - 청구항 1에 있어서,
상기 복수의 특성들을 부호화하는 단계는,
상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하는 단계;
상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하는 단계;
상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하는 단계; 및
상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하는 단계를 포함하는 것을 특징으로 하는 영상 분석 방법. - 청구항 5에 있어서,
상기 복수의 특성들을 부호화하는 단계는,
상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법. - 청구항 6에 있어서,
상기 복수의 특성들을 부호화하는 단계는,
상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법. - 청구항 6에 있어서,
상기 복수의 특성들을 부호화하는 단계는,
상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법. - 청구항 6에 있어서,
상기 복수의 특성들을 부호화하는 단계는,
상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법. - 청구항 1에 있어서,
상기 복수의 분석 대상 영상들을 분석하는 단계는,
상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하는 단계; 및
상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함하는 것을 특징으로 하는 영상 분석 방법. - 영상을 분석하는 방법을 수행하는 영상 분석 장치로서,
프로세서(processor); 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고,
상기 적어도 하나의 명령은,
복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하고;
상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하고;
상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하고; 그리고
상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행되는 것을 특징으로 하는 영상 분석 장치. - 청구항 11에 있어서,
상기 미리 학습된 모델은,
상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델인 것을 특징으로 하는 영상 분석 장치. - 청구항 11에 있어서,
상기 복수의 목표 특성들은,
상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함하는 것을 특징으로 하는 영상 분석 장치. - 청구항 11에 있어서,
상기 복수의 목표 특성들은,
상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 분석 장치. - 청구항 11에 있어서,
상기 적어도 하나의 명령은,
상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하고;
상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하고;
상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하고; 그리고
상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치. - 청구항 15에 있어서,
상기 적어도 하나의 명령은,
상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치. - 청구항 16에 있어서,
상기 적어도 하나의 명령은,
상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치. - 청구항 16에 있어서,
상기 적어도 하나의 명령은,
상기 복수의 특성들을 부호화하는 과정에서 상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치. - 청구항 16에 있어서,
상기 적어도 하나의 명령은,
상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치. - 청구항 11에 있어서,
상기 적어도 하나의 명령은,
상기 복수의 분석 대상 영상들을 분석하는 과정에서, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하고; 그리고
상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170004368A KR101900180B1 (ko) | 2017-01-11 | 2017-01-11 | 영상의 특성 추출을 위한 영상 분석 방법 및 장치 |
US15/442,558 US10181086B2 (en) | 2017-01-11 | 2017-02-24 | Image analysis method for extracting feature of image and apparatus therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170004368A KR101900180B1 (ko) | 2017-01-11 | 2017-01-11 | 영상의 특성 추출을 위한 영상 분석 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180082904A true KR20180082904A (ko) | 2018-07-19 |
KR101900180B1 KR101900180B1 (ko) | 2018-09-18 |
Family
ID=62783195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170004368A KR101900180B1 (ko) | 2017-01-11 | 2017-01-11 | 영상의 특성 추출을 위한 영상 분석 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10181086B2 (ko) |
KR (1) | KR101900180B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101957812B1 (ko) * | 2018-08-31 | 2019-03-13 | 주식회사 뷰노 | 인공지능 영상 분석에 있어 특징 공간을 활용한 부호화 및 복호화를 수행하는 방법 및 이를 이용한 장치 |
KR101993266B1 (ko) * | 2018-12-19 | 2019-06-26 | 주식회사 로민 | 영상 위변조 검출을 위한 가변모델 설계 및 학습방법과, 이를 이용한 영상 위변조 검출방법 |
KR102048948B1 (ko) * | 2019-04-30 | 2020-01-08 | (주)제이엘케이인스펙션 | 영상 분석 장치 및 방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3900328A4 (en) * | 2018-12-20 | 2022-09-21 | Warner Bros. Entertainment Inc. | PROFILE-BASED CONTENT GENERATION WITH STANDARD DYNAMIC RANGE AND HIGH DYNAMIC RANGE |
US11526967B2 (en) | 2019-11-25 | 2022-12-13 | Samsung Electronics Co., Ltd. | System and method for precise image inpainting to remove unwanted content from digital images |
US11295430B2 (en) | 2020-05-20 | 2022-04-05 | Bank Of America Corporation | Image analysis architecture employing logical operations |
US11379697B2 (en) | 2020-05-20 | 2022-07-05 | Bank Of America Corporation | Field programmable gate array architecture for image analysis |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7986806B2 (en) * | 1994-11-16 | 2011-07-26 | Digimarc Corporation | Paper products and physical objects as means to access and control a computer or to navigate over or act as a portal on a network |
US6539106B1 (en) * | 1999-01-08 | 2003-03-25 | Applied Materials, Inc. | Feature-based defect detection |
US7167583B1 (en) * | 2000-06-28 | 2007-01-23 | Landrex Technologies Co., Ltd. | Image processing system for use with inspection systems |
US7333650B2 (en) * | 2003-05-29 | 2008-02-19 | Nidek Co., Ltd. | Defect inspection apparatus |
US7558419B1 (en) * | 2003-08-14 | 2009-07-07 | Brion Technologies, Inc. | System and method for detecting integrated circuit pattern defects |
US7126255B2 (en) * | 2004-04-05 | 2006-10-24 | Ngk Insulators, Ltd. | Piezoelectric/electrostrictive film-type device |
EP2030171A1 (en) * | 2006-04-10 | 2009-03-04 | Avaworks Incorporated | Do-it-yourself photo realistic talking head creation system and method |
JP4982213B2 (ja) * | 2007-03-12 | 2012-07-25 | 株式会社日立ハイテクノロジーズ | 欠陥検査装置及び欠陥検査方法 |
JP5232845B2 (ja) * | 2009-09-30 | 2013-07-10 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置およびそれを用いる画像形成装置 |
EP3029606A3 (en) | 2014-11-14 | 2016-09-14 | Thomson Licensing | Method and apparatus for image classification with joint feature adaptation and classifier learning |
US10095950B2 (en) | 2015-06-03 | 2018-10-09 | Hyperverge Inc. | Systems and methods for image processing |
-
2017
- 2017-01-11 KR KR1020170004368A patent/KR101900180B1/ko active IP Right Grant
- 2017-02-24 US US15/442,558 patent/US10181086B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101957812B1 (ko) * | 2018-08-31 | 2019-03-13 | 주식회사 뷰노 | 인공지능 영상 분석에 있어 특징 공간을 활용한 부호화 및 복호화를 수행하는 방법 및 이를 이용한 장치 |
KR101993266B1 (ko) * | 2018-12-19 | 2019-06-26 | 주식회사 로민 | 영상 위변조 검출을 위한 가변모델 설계 및 학습방법과, 이를 이용한 영상 위변조 검출방법 |
KR102048948B1 (ko) * | 2019-04-30 | 2020-01-08 | (주)제이엘케이인스펙션 | 영상 분석 장치 및 방법 |
WO2020222555A1 (ko) * | 2019-04-30 | 2020-11-05 | (주)제이엘케이 | 영상 분석 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US10181086B2 (en) | 2019-01-15 |
US20180197032A1 (en) | 2018-07-12 |
KR101900180B1 (ko) | 2018-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101900180B1 (ko) | 영상의 특성 추출을 위한 영상 분석 방법 및 장치 | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
EP3467723B1 (en) | Machine learning based network model construction method and apparatus | |
EP3298576B1 (en) | Training a neural network | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
KR102219346B1 (ko) | 베이지안 최적화를 수행하기 위한 시스템 및 방법 | |
WO2021027759A1 (en) | Facial image processing | |
CN114008663A (zh) | 实时视频超分辨率 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
US9563822B2 (en) | Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system | |
WO2015062209A1 (zh) | 随机森林分类模型的可视化优化处理方法及装置 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
KR20100131060A (ko) | 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법 | |
CA3137297C (en) | Adaptive convolutions in neural networks | |
KR20210034462A (ko) | 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법 | |
JP7188856B2 (ja) | 動的な画像解像度評価 | |
Franchi et al. | Latent discriminant deterministic uncertainty | |
CN115526223A (zh) | 潜在空间中的基于得分的生成建模 | |
CN113989420A (zh) | 图像生成系统及方法 | |
JP4902378B2 (ja) | 混合モデル初期値算出装置及び混合モデル初期値算出プログラム | |
US20220366242A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN115810215A (zh) | 面部图像生成方法、装置、设备及存储介质 | |
KR102504722B1 (ko) | 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법 | |
US20210342642A1 (en) | Machine learning training dataset optimization | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |