KR20180082904A - 영상의 특성 추출을 위한 영상 분석 방법 및 장치 - Google Patents

영상의 특성 추출을 위한 영상 분석 방법 및 장치 Download PDF

Info

Publication number
KR20180082904A
KR20180082904A KR1020170004368A KR20170004368A KR20180082904A KR 20180082904 A KR20180082904 A KR 20180082904A KR 1020170004368 A KR1020170004368 A KR 1020170004368A KR 20170004368 A KR20170004368 A KR 20170004368A KR 20180082904 A KR20180082904 A KR 20180082904A
Authority
KR
South Korea
Prior art keywords
vectors
image
target
sample images
images
Prior art date
Application number
KR1020170004368A
Other languages
English (en)
Other versions
KR101900180B1 (ko
Inventor
이승용
이희진
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020170004368A priority Critical patent/KR101900180B1/ko
Priority to US15/442,558 priority patent/US10181086B2/en
Publication of KR20180082904A publication Critical patent/KR20180082904A/ko
Application granted granted Critical
Publication of KR101900180B1 publication Critical patent/KR101900180B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/008Vector quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

영상의 특성 추출을 위한 영상 분석 방법 및 장치가 개시된다. 본 발명은 영상을 분석하는 장치에서 수행되는 영상 분석 방법으로서, 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델을 통해 복수의 샘플 영상들에 대한 복수의 특성들을 추출하는 단계, 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하는 단계, 복수의 특성들에 대한 복수의 목표 특성들의 확률 분포를 기반으로 복수의 특성들을 부호화하는 단계 및 장치로 복수의 분석 대상 영상들이 수신되는 경우, 부호화된 복수의 특성들을 기반으로 복수의 분석 대상 영상들을 분석하는 단계를 포함한다.

Description

영상의 특성 추출을 위한 영상 분석 방법 및 장치{IMGAE ANALYSIS METHOD FOR EXTRACTING FEATURE OF IMAGE AND APPARATUS THEREFOR}
본 발명은 영상을 분석하는 기술에 관한 것으로, 더욱 상세하게는 영상의 품질 평가 및 심미적(aesthetics) 요소와 관련된 영상의 특성을 추출하기 위한 영상 분석 방법 및 장치에 관한 것이다.
최근 다양한 종류의 영상을 획득하거나 공급하기 위한 기술이 급격하게 발달되면서, 많은 사용자들이 방대한 양의 영상들을 손쉽게 얻을 수 있게 되었다. 이와 같은 기술의 발달로 인해 사용자들은 고품질의 영상에 대한 기대감도 높아지게 되었다. 이에 따라, 사용자들의 기대감을 만족시키기 위해 영상의 품질을 자동으로 평가하고, 영상의 심미적(aesthetics) 요소들을 분석하기 위한 기술들이 개발되고 있다.
여기서, 영상의 품질을 평가하는 기술은 주어진 영상의 품질을 일정한 기준에 따라 고 품질(high quality) 및 저 품질(low quality)로 분류하는 기술을 의미할 수 있다. 이러한 영상의 품질을 평가하는 기술은 사용자가 접하는 대량의 영상을 효율적으로 관리하기 위해 필요한 기술 중 하나이다.
아울러, 영상의 심미적 요소들을 분석하는 기술은 영상의 심미적 요소들에 해당하는 영상의 선명도(예를 들어, 모션 블러(motion blur), 색상 및 구조 등과 같이 영상의 심미적인 영향을 주는 요소들을 분석하는 기술을 의미할 수 있다. 이러한 영상의 심미적 요소들을 분석하는 기술은 미학적인 영상들을 생성하기 위한 다양한 어플리케이션에 유용하게 적용될 수 있는 기술 중 하나이다.
구체적으로, 영상의 품질을 평가하는 기술은 미학적인 영상의 구성에 영향을 줄 수 있는 심미적 요소들을 미리 정의하고, 정의된 심미적 요소들을 표현하기 위한 수학적 모델을 디자인하게 된다. 또한, 영상의 심미적 요소들을 분석하는 기술에서도 심미적 요소들을 표현하기 위해 디자인된 수학적 모델이 영상의 심미적 요소들을 분석하기 위한 지표로 사용된다.
그러나, 이와 같이 디자인된 수학적 모델을 실질적인 영상의 품질을 평가하고 심미적 요소들을 분석하기 하기 위해 사용되기에는 한계가 있다. 즉, 디자인된 수학적 모델은 영상의 다양하고 복잡한 특성을 충분히 표현하지 못하는 문제가 있다. 또한, 단순히 수학적 모델을 통해 정의된 심미적 요소들만으로 영상의 품질을 평가하고 심미적 요소들을 분석하는 것은 영상에 대하여 정확하지 못한 분석을 수행하게 되는 문제가 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 영상의 품질을 평가하기 위한 특성 및 심미적 요소를 분석하기 위한 특성을 추출하기 위한 영상 분석 방법 및 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법은 영상을 분석하는 장치에서 수행되는 영상 분석 방법으로서, 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하는 단계, 상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하는 단계, 상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하는 단계 및 상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함한다.
여기서, 상기 미리 학습된 모델은 상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델일 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함할 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하는 단계, 상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하는 단계, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하는 단계 및 상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하는 단계를 포함할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 특성들을 부호화하는 단계는 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화할 수 있다.
여기서, 상기 복수의 분석 대상 영상들을 분석하는 단계는 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하는 단계 및 상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 영상의 특성 추출을 위한 영상 분석 장치는, 영상을 분석하는 방법을 수행하는 영상 분석 장치로서, 프로세서(processor) 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고, 상기 적어도 하나의 명령은 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하고, 상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하고, 상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하고, 그리고 상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행된다.
여기서, 상기 미리 학습된 모델은 상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델일 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함할 수 있다.
여기서, 상기 복수의 목표 특성들은 상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함할 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하고, 상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하고, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하고, 그리고 상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서 상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화하도록 실행될 수 있다.
여기서, 상기 적어도 하나의 명령은 상기 복수의 분석 대상 영상들을 분석하는 과정에서, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하고, 그리고 상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행될 수 있다.
본 발명에 의하면, 영상의 품질을 보다 정확하게 평가할 수 있고, 영상의 심미적 요소들을 기준으로 영상을 정확하게 분류할 수 있다. 이에 따라, 본 발명에 따른 영상 분석 방법을 수행하는 영상 분석 장치는 영상을 분석하거나 분류하는 알고리즘의 정확도를 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치를 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 특징들을 부호화하는 방법을 도시한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 RBM 모델을 도시한 개념도이다.
도 6은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 SVM 기반의 SRBM 모델을 도시한 개념도이다.
도 7은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 분석 대상 영상들을 분석하는 방법을 도시한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법은 영상 분석 장치(100)에서 수행될 수 있다. 영상 분석 장치(100)는 영상 분석 방법을 수행하기 위해 각 기능에 따른 복수의 모델(model)을 포함할 수 있다.
구체적으로, 영상 분석 장치(100)는 복수의 영상들(10)의 특성을 추출하기 위해 미리 학습된 모델(101), 복수의 특성들을 부호화(encoding) 하기 위한 부호화 모델(102) 및 복수의 분석 대상 영상들을 분류하기 위한 분류 모델(103)을 포함할 수 있다. 여기서, 복수의 영상들(10)은 복수의 특성들을 추출하기 위한 샘플 영상을 의미할 수 있으며, 이에 따라 후술되는 복수의 샘플 영상들과 동일한 의미일 수 있다.
먼저, 영상 분석 장치(100)는 복수의 영상들(10)을 미리 학습된 모델(101)을 통해 복수의 영상들(10)에 대한 복수의 특성들(20)을 추출할 수 있다. 이후, 영상 분석 장치(100)는 영상 분석 장치(100)를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들(30)을 결정할 수 있다. 이후, 영상분석 장치(100)는 복수의 목표 특성들(30)을 고려하여 부호화 모델(102)을 통해 복수의 특성들(20)을 부호화할 수 있다.
이후, 영상 분석 장치(100)는 분류 모델(103)을 통해 부호화된 복수의 특성들(40)에 기초하여 복수의 영상들(10)을 분류할 수 있다. 이를 통해, 영상 분석 장치(100)는 부호화된 복수의 특성들(40)을 학습할 수 있다. 이후, 영상 분석 장치(100)는 도 1에는 도시되지 않았으나, 복수의 분석 대상 영상들이 수신되는 경우 학습된 복수의 특성들을 기반으로 복수의 분석 대상 영상들을 분석할 수 있다.
상기에서 설명된 본 발명의 일 실시예에 따른 영상 분석 방법을 수행하는 영상 분석 장치(100)에 포함된 복수의 모델들은 물리적인 구성이 아닌 논리적인 구성을 의미할 수 있다. 예를 들어, 복수의 모델들은 영상 분석 장치(100)에 포함된 프로세서(processor)를 통해 실행 가능한 적어도 하나의 명령들을 통해 구현될 수 있다.
이에 따라, 이하에서는 본 발명의 일 실시예에 따른 영상 분석 방법을 수행하는 영상 분석 장치(100)의 구체적인 구성들이 도 2를 참조하여 설명될 수 있다.
도 2는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치를 도시한 블록도이다.
도 2를 참조하면, 본 발명의 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치(100)는 적어도 하나의 프로세서(110), 메모리(120) 및 네트워크와 연결되어 통신을 수행하는 네트워크 인터페이스 장치(130)를 포함할 수 있다. 또한, 영상 분석 장치(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 영상 분석 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(110)는 메모리(120) 및/또는 저장 장치(160)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU) 또는 본 발명에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120)와 저장 장치(160)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및/또는 랜덤 액세스 메모리(random access memory, RAM)로 구성될 수 있다. 여기서, 프로세서(110)를 통해 실행되는 프로그램 명령은 본 발명에서 제안하는 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 복수의 단계들을 포함할 수 있다.
이하에서는, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법이 도 3 내지 도 7을 참조하여 구체적으로 설명될 수 있다. 또한, 이하에서 설명되는 본 발명의 영상 분석 방법은 도 1 내지 도 2를 참조하여 설명된 영상 분석 장치(100)에서 수행될 수 있다.
도 3은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 도시한 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치는 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델을 통해 복수의 샘플 영상들에 대한 복수의 특성들을 추출할 수 있다(S100).
구체적으로, 영상 분석 장치는 복수의 샘플 영상들을 도 2를 참조하여 설명된 네트워크 인터페이스 장치(130)를 통해 네트워크(예를 들어, 인터넷(internet)과 같은 통신 네트워크)와 연결될 수 있고, 이를 통해 복수의 샘플 영상들을 획득할 수 있다. 또는, 복수의 샘플 영상들은 도 2를 참조하여 설명된 메모리(120) 또는 저장 장치(160)에 미리 저장될 수 있다. 예를 들어, 복수의 샘플 영상들은 이미지넷(ImageNet)의 데이터셋(dataset)에 포함된 복수의 영상들을 의미할 수 있다.
또한, 복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델은 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델일 수 있다. 예를 들어, 미리 학습된 모델을 통해 추출되는 복수의 특성들은 DCNN에 포함된 FC1(fully connected layer 1) 단에서 획득되는 복수의 샘플 영상들에 대한 복수의 특성들을 의미할 수 있다.
이후, 영상 분석 장치는 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성(target feature)을 결정할 수 있다(S200). 여기서, 복수의 목표 특성들은 복수의 샘플 영상들을 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성 및 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함할 수 있다.
예를 들어, 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함할 수 있다. 또한, 복수의 샘플 영상들의 심미적 요소는 복수의 샘플 영상들의 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함할 수 있다.
이후, 영상 분석 장치는 복수의 특성들에 대한 복수의 목표 특성들의 확률 분포(probability distribution)를 기반으로 복수의 특성들을 부호화할 수 있다(S300). 영상 분석 장치에서 복수의 특성들을 부호화하는 구체적인 방법은 이하에서 도 4 내지 도 6을 참조하여 설명될 수 있다.
도 4는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 특징들을 부호화하는 방법을 도시한 개념도이다.
도 4를 참조하면, 영상 분석 장치는 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성할 수 있다(S310). 이후, 영상 분석 장치는 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성할 수 있다(S320). 이후, 영상 분석 장치는 복수의 제1 벡터들에 대한 복수의 제2 벡터들의 확률 분포를 산출할 수 있다(S330). 이후, 영상 분석 장치는 산출된 확률 분포를 기반으로 복수의 특성들을 부호화할 수 있다(S340).
구체적으로, 영상 분석 장치는 복수의 제1 벡터들을 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 복수의 특성들을 부호화 할 수 있다. 여기서, RBM 모델은 제한된 볼츠만 머신이라고 하며, 도 5에 도시된 바와 같은 형태를 가질 수 있다. 이하에서, 도 5를 참조하여 본 발명의 일 실시예에 따른 영상 분석 장치가 복수의 특성들을 부호화하는 구체적인 방법이 설명될 수 있다.
도 5는 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 RBM 모델을 도시한 개념도이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 사용되는 RBM 모델은 입력 벡터(x)(510), 히든 벡터(h)(520) 및 입력 벡터(x)(510)에 대한 가중치(W)(530)를 포함할 수 있다. 또한, RBM 모델은 입력 벡터(x)(510) 및 히든 벡터(h)(520) 간의 결합 분포를 모델링할 수 있는 이분 그래프(bipartite graph)를 의미할 수 있다. 여기서, 입력 벡터(x)(510)는 x=[x1,…,xL]T와 같이 나타낼 수 있고, 히든 벡터(h)(520)는 h=[h1,…,HD]T와 같이 나타낼 수 있다.
이와 같은 RBM 모델을 본 발명의 일 실시예에 따른 영상의 특성을 추출하기 위한 영상 분석 방법에 적용하면, RBM 모델의 입력 벡터(x)(510)는 복수의 특성들을 벡터의 형태로 변환하여 생성된 복수의 제1 벡터들을 의미할 수 있다. 또한, RBM 모델의 히든 벡터(h)(520)는 부호화된 복수의 특성들을 의미할 수 있다. 구체적으로, RBM 모델에서 결합 분포는 하기의 수학식 1과 같이 정의될 수 있다.
Figure pat00001
상기 수학식 1에서 E는 에너지 함수(energy function)를 의미할 수 있고, Z는 분배 함수(partition function)를 의미할 수 있다. 특히, 분배 함수를 의미하는 Z는 하기의 수학식 2와 같이 정의될 수 있다. 또한, 에너지 함수를 의미하는 E의 x 및 h는 하기의 수학식 3과 같이 정의될 수 있다.
Figure pat00002
Figure pat00003
상기 수학식 2에서 W(W∈R D ×L), b(b∈R D ×1) 및 c(W∈R L × 1)는 RBM 모델을 나타내는 기본적인 파라미터(parameter)를 의미할 수 있다. 이에 따라, RBM 모델에서 입력 벡터(x)(510)의 확률은 하기의 수학식 4와 같이 정의될 수 있다.
Figure pat00004
또한, 히든 벡터(h)(520)에 대한 입력 벡터(x)(510)의 조건부 확률(conditional probability)은 하기의 수학식 5와 같이 정의될 수 있다. 또한, 입력 벡터(x)(510)에 대한 히든 벡터(h)(520)에 대한 조건부 확률은 하기의 수학식 6과 같이 정의될 수 있다.
Figure pat00005
Figure pat00006
상기 수학식 5 및 수학식 6에서
Figure pat00007
은 시그모이드 함수(sigmoid function)를 의미할 수 있고,
Figure pat00008
과 같이 나타낼 수 있다. 또한, RBM 모델은 NLL(negative log likelihood)을 최소화함으로써, 입력 벡터(x)(510)를 부호화할 수 있다.
Figure pat00009
구체적으로, RBM 모델은 깁스 샘플링(Gibbs sampling) 및 기울기 하강(gradient decent)를 기반으로 상기 수학식 7의 파라미터를 업데이트할 수 있다. 이를 통해, RBM 모델은 대조 분산(contrastive divergence)를 기반으로 효율적으로 학습할 수 있다. 즉, RBM 모델은 하기의 수학식 8이 나타내는 업데이트 방법에 기초하여 파라미터를 업데이트할 수 있다.
Figure pat00010
상기 수학식 8에서 〈·〉는 학습 대상의 평균 값을 의미할 수 있고, T는 깁스 샘플링의 수를 의미할 수 있다. 상술한 바와 같은 과정을 통해, 영상 분석 장치는 RBM 모델을 통해 복수의 특성들을 부호화할 수 있다.
이때, 영상 분석 장치는 RBM 모델을 통해 복수의 특성들을 부호화하는 과정에서, 복수의 제1 벡터들 및 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 복수의 특성들을 부호화할 수 있다. 구체적으로, 영상 분석 장치에서 교차 엔트로피 값이 최소화 되도록 복수의 특성들을 부호화하는 과정은 하기의 수학식 9와 같이 나타낼 수 있다.
Figure pat00011
상기 수학식 9에서 h는 히든 벡터(h)(520)를 의미하므로, 복수의 특성들이 벡터의 형태로 변환된 복수의 제1 벡터들을 의미할 수 있다. 또한, 상기 수학식 9에서 f는 목표 벡터(target vector)를 의미하므로, 복수의 목표 특성들이 벡터의 형태로 변환된 복수의 제2 벡터들을 의미할 수 있다. 또한, 상기 수학식 9에서
Figure pat00012
는 교차 엔트로피 손실을 의미할 수 있고,
Figure pat00013
와 같이 나타낼 수 있다. 여기서, RBM 모델에서 교차 엔트로피에 따라 파라미터를 업데이트 하는 방법은 하기의 수학식 10과 같이 나타낼 수 있다.
Figure pat00014
상기 수학식 10에서 zd는 히든 벡터(h)(520) 및 목표 벡터(f)의 가중합(weighted sum)을 의미할 수 있고,
Figure pat00015
와 같이 나타낼 수 있다. 상기 수학식 10에서
Figure pat00016
가 0이거나
Figure pat00017
인 경우, 상기 수학식 10은 상기 수학식 8과 동일할 수 있다.
상술한 바와 같은 과정을 통해, 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법을 수행하는 영상 분석 장치는 복수의 특성들을 부호화할 수 있다. 또한, 본 발명의 영상 분석 장치는 복수의 특성들을 복수의 목표 특성들을 고려하여 부호화하기 위해 히든 벡터에 복수의 목표 특성들을 공유시킬 수 있다. 즉, 영상 분석 장치는 복수의 목표 특성에 포함된 각 목표 특성들에 대한 범위를 명확히 하는 것을 의미할 수 있다. 이에 따라, 상기 수학식 9는 하기의 수학식 11과 같이 변경될 수 있다.
Figure pat00018
상기 수학식 11에서 g(i)는 i번째 학습 데이터의 분류 레이블(class label)을 의미할 수 있고,
Figure pat00019
와 같이 나타낼 수 있다. 또한, 영상 분석 장치는 복수의 목표 벡터들을 각 목표 벡터들에 따라 적절하게 정의할 수 있다.
구체적으로, 본 발명에서 영상 분석 장치는 복수의 목표 특성들에 대한 차별성(discrimination) 및 희소성(sparseness)를 고려하여 복수의 특성들을 부호화할 수 있다. 이하에서, 도 6을 참조하여 영상 분석 장치가 복수의 목표 특성들에 대한 차별성 및 희소성을 고려하여 복수의 특성들을 부호화하는 구체적인 방법이 설명될 수 있다.
도 6은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에 적용되는 SVM 기반의 SRBM 모델을 도시한 개념도이다.
도 6을 참조하면, 본 발명의 영상 분석 장치가 복수의 특성들을 부호화하는 부호화 모델의 논리적인 구성을 확인할 수 있다. 여기서, 영상 분석 장치에서 사용되는 부호화 모델은 SVM(support vector machine) 기반의 SRBM 모델(sparse restricted Boltzmann machine)이라고 칭할 수 있다.
구체적으로, 본 발명의 영상 분석 장치에서 사용되는 SVM 기반의 SRBM 모델은 RBM 모델(N)(610)을 클래스 별 목표 벡터(620)로 분류할 수 있다. 여기서, 클래스 별 목표 벡터는 복수의 목표 벡터들(
Figure pat00020
) 각각의 정의를 의미할 수 있다. 즉, 영상 분석 장치는 교차 엔트로피 손실 제어 모듈(H)(630)을 통해 RBM 모델의 히든 벡터(h)에 복수의 목표 특성들이 공유될 수 있도록 제어할 수 있다.
또한, 영상 분석 장치는 클래스 별 목표 벡터(620)에 포함된 각 목표 특성 간의 차별성 및 희소성을 고려하여 각 목표 벡터를 정의할 수 있다. 다시 말해, 영상 분석 장치는 복수의 제2 벡터들 간의 구분을 위해 복수의 제2 벡터들이 서로 차별성을 가지도록 복수의 제2 벡터들 각각을 정의할 수 있다. 또한, 영상 분석 장치는 복수의 제1 벡터들에 대한 복수의 제2 벡터들에 대한 결합 분포가 희소성을 가지도록 복수의 제2 벡터들 각각을 정의할 수 있다.
먼저, 영상 분석 장치는 복수의 제2 벡터들 간의 구분을 위해 복수의 제2 벡터들이 차별성을 가지도록 SVM을 기반으로 미리 학습된 분류 모델에 적용하여 복수의 특성들을 부호화할 수 있다. 여기서, SVM은 복수의 복수의 특성들을 구분 또는 분류하기 위해 미리 학습된 모델을 의미할 수 있다. 즉, 영상 분석 장치는 SVM을 기반으로 미리 학습된 모델을 통해 복수의 목표 특성들을 나타내는 복수의 목표 벡터들이 차별성을 가지도록 정의할 수 있고, 이를 기반으로 복수의 특성들을 부호화할 수 있다.
구체적으로, 영상 분석 장치에서 SVM을 기반으로 미리 학습된 모델을 통해 복수의 목표 벡터들이 차별성을 가지도록 정의하는 구체적인 방법은 하기의 수학식 12와 같이 나타낼 수 있다.
Figure pat00021
즉, 영상 분석 장치는 SVM 기반의 미리 학습된 모델을 통해 획득되는 정보(
Figure pat00022
)를 기반으로 복수의 목표 벡터들이 차별성을 가지도록 정의할 수 있다. 영상 분석 장치는 각 목표 벡터들를 나타내는
Figure pat00023
가 K개의 기저(basis) 벡터들(
Figure pat00024
)의 선형 결합(linear combination)으로 모델링 되는 것으로 가정할 수 있다. 이후, 영상 분석 장치는 상기 수학식 12를 기반으로 계수 벡터를 의미하는
Figure pat00025
를 산출함으로써, 각 목표 벡터 fc를 정의할 수 있다.
아울러, 영상 분석 장치는 복수의 제1 벡터들에 대한 복수의 제2 벡터들의 결합 분포가 희소성을 가지도록 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교할 수 있고, 비교 결과를 기반으로 복수의 특성들을 부호화할 수 있다.
구체적으로, 영상 분석 장치는 복수의 목표 벡터들에 희소성을 부여할 수 있는 희소성 모델(sparsity model)을 기반으로 복수의 목표 벡터들이 희소성을 가지도록 모델링 할 수 있다. 여기서, 희소성 모델을 기반으로 희소성이 부여된 복수의 목표 벡터들은 하기의 수학식 13과 같이 나타낼 수 있다.
Figure pat00026
상기 수학식 13에서
Figure pat00027
는 복수의 목표 벡터들 fc에 포함된 fc,d의 순위(rank)를 기반으로 0 내지 1 사이의 값을 할당하는 함수를 의미할 수 있다. 예를 들어, 영상 분석 장치는
Figure pat00028
가 0.5 미만인 경우, fc에서 미리 설정된 임계값 보다 큰 값을 가지는 적어도 하나의 목표 벡터를 제외하고 나머지 목표 벡터를 0으로 결정할 수 있다. 이와 같은 방법을 통해, 영상 분석 장치는 복수의 목표 벡터들이 희소성을 가지도록 정의할 수 있고, 이를 기반으로 복수의 특성들을 부호화할 수 있다. 상술한 바와 같은 과정을 통해, 영상 분석 장치는 복수의 특성들을 복수의 목표 특성들의 차별성 및 희소성을 고려하여 부호화할 수 있다.
상기에서 설명된 본 발명의 SVM 기반의 SRBM 모델은 미리 설정된 횟수만큼 반복될 수 있다. SVM 기반의 SRBM 모델이 미리 설정된 횟수만큼 반복된다는 것은 SRBM 모델에 포함된 파라미터가 업데이트 되는 횟수가 미리 설정될 수 있는 것을 의미할 수 있다. 즉, 영상 분석 장치는 미리 설정된 횟수만큼 SVR 기반의 SRBM 모델을 통해 복수의 목표 특성들을 정의할 수 있고, 이를 기반으로 복수의 특성들을 부호화할 수 있다.
한편, 다시 도 1을 참조하면 영상 분석 장치는 영상 분석 장치로 복수의 분석 대상 영상들이 수신되는 경우, 부호화된 복수의 특성들을 기반으로 복수의 분석 대상 영상들을 분석할 수 있다(S400). 구체적으로, 영상 분석 장치에서 복수의 분석 대상 영상들을 분석하는 방법은 이하에서 도 7을 참조하여 설명될 수 있다.
도 7은 본 발명의 일 실시예에 따른 영상의 특성 추출을 위한 영상 분석 방법에서 복수의 분석 대상 영상들을 분석하는 방법을 도시한 흐름도이다.
도 7을 참조하면, 영상 분석 장치는 복수의 특성들을 부화화할 수 있고, 부호화된 복수의 특성들을 기반으로 복수의 샘플 영상들을 분류함으로써, 부호화된 복수의 특성들을 학습할 수 있다(S410). 이후, 영상 분석 장치는 복수의 분석 대상 영상들이 수신되는 경우, 학습된 복수의 특성들을 기반으로 복수의 분석 대상들을 분석할 수 있다(S4200.
예를 들어, 복수의 목표 특성들에 영상의 품질에 기초하여 분류하기 위한 특성으로 고품질 및 저품질에 관한 특성이 포함될 수 있다. 또한, 복수의 목표 특성들에 영상의 심미적 요소에 기초하여 분류하기 위한 특성으로 모션 블러에 관한 특성이 포함될 수 있다.
이와 같은 경우, 영상 분석 장치는 복수의 목표 특성들을 기반으로 복수의 특성들을 부호화하였으므로, 복수의 분석 대상 영상들을 고품질 영상 및 저품질 여상으로 분류할 수 있다. 또한, 영상 분석 장치는 복수의 분석 대상 영상들 중 모션 블러의 특성을 가지는 영상을 추출할 수 있다.
상기에서 도 3 내지 도 7을 참조하여 설명된 본 발명의 일 실시예에 따른 영상의 특성을 추출하기 위한 영상 분석 방법은 복수의 분석 대상 영상들을 미리 설정된 복수의 목표 특성들에 기초하여 분석하기 위해 적용되는 것으로 설명되었다. 그러나, 본 발명의 일 실시예에 따른 영상 분석 방법이 이에 한정되는 것은 아니다. 즉, 본 발명의 일 실시예에 따른 영상 분석 방법은 복수의 영상들로부터 특성을 추출하거나 분류하는 분야 이외에도 데이터에 포함된 특성을 추출하거나 다양한 종류의 데이터를 분류하는 분야에도 적용될 수 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (20)

  1. 영상을 분석하는 장치에서 수행되는 영상 분석 방법으로서,
    복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하는 단계;
    상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하는 단계;
    상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하는 단계; 및
    상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함하는 영상 분석 방법.
  2. 청구항 1에 있어서,
    상기 미리 학습된 모델은,
    상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델인 것을 특징으로 하는 영상 분석 방법.
  3. 청구항 1에 있어서,
    상기 복수의 목표 특성들은,
    상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함하는 것을 특징으로 하는 영상 분석 방법.
  4. 청구항 1에 있어서,
    상기 복수의 목표 특성들은,
    상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 분석 방법.
  5. 청구항 1에 있어서,
    상기 복수의 특성들을 부호화하는 단계는,
    상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하는 단계;
    상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하는 단계;
    상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하는 단계; 및
    상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하는 단계를 포함하는 것을 특징으로 하는 영상 분석 방법.
  6. 청구항 5에 있어서,
    상기 복수의 특성들을 부호화하는 단계는,
    상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법.
  7. 청구항 6에 있어서,
    상기 복수의 특성들을 부호화하는 단계는,
    상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법.
  8. 청구항 6에 있어서,
    상기 복수의 특성들을 부호화하는 단계는,
    상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법.
  9. 청구항 6에 있어서,
    상기 복수의 특성들을 부호화하는 단계는,
    상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화하는 것을 특징으로 하는 영상 분석 방법.
  10. 청구항 1에 있어서,
    상기 복수의 분석 대상 영상들을 분석하는 단계는,
    상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하는 단계; 및
    상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하는 단계를 포함하는 것을 특징으로 하는 영상 분석 방법.
  11. 영상을 분석하는 방법을 수행하는 영상 분석 장치로서,
    프로세서(processor); 및
    상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고,
    상기 적어도 하나의 명령은,
    복수의 샘플 영상들로부터 특성을 추출하기 위해 미리 학습된 모델(model)을 통해 상기 복수의 샘플 영상들에 대한 복수의 특성들을 추출하고;
    상기 영상을 분석하는 장치를 통해 추출하기 위한 최종적인 특성을 의미하는 복수의 목표 특성들을 결정하고;
    상기 복수의 특성들에 대한 상기 복수의 목표 특성들의 확률 분포를 기반으로 상기 복수의 특성들을 부호화(encoding)하고; 그리고
    상기 장치로 복수의 분석 대상 영상들이 수신되는 경우, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
  12. 청구항 11에 있어서,
    상기 미리 학습된 모델은,
    상기 복수의 샘플 영상들의 특성을 추출하기 위해 DCNN(deep convolution neural network)을 기반으로 미리 학습된 모델인 것을 특징으로 하는 영상 분석 장치.
  13. 청구항 11에 있어서,
    상기 복수의 목표 특성들은,
    상기 복수의 샘플 영상들의 품질(quality)에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 품질은 고품질(high quality) 및 저품질(low quality)을 포함하는 것을 특징으로 하는 영상 분석 장치.
  14. 청구항 11에 있어서,
    상기 복수의 목표 특성들은,
    상기 복수의 샘플 영상들의 심미적(aesthetic) 요소에 기초하여 분류하기 위한 특성을 포함하고, 상기 복수의 샘플 영상들의 심미적 요소는 보색(complementary color), 모션 블러(motion blur), 삼등분의 법칙(rule of thirds), 피사계 심도(DOF, depth of field) 및 소점(vanishing point) 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 분석 장치.
  15. 청구항 11에 있어서,
    상기 적어도 하나의 명령은,
    상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 특성들을 벡터(vector)의 형태로 변환하여 복수의 제1 벡터들을 생성하고;
    상기 복수의 목표 특성들을 벡터의 형태로 변환하여 복수의 제2 벡터들을 생성하고;
    상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 확률 분포를 산출하고; 그리고
    상기 산출된 확률 분포를 기반으로 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
  16. 청구항 15에 있어서,
    상기 적어도 하나의 명령은,
    상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들을 상기 복수의 제2 벡터들의 결합 분포(joint distribution)에 기초하여 분류하는 RBM(restricted Boltzmann machines) 모델을 통해 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
  17. 청구항 16에 있어서,
    상기 적어도 하나의 명령은,
    상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들 및 상기 복수의 제2 벡터들 간의 차이를 최소화하기 위해 교차 엔트로피(cross entropy) 값이 최소화 되도록 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
  18. 청구항 16에 있어서,
    상기 적어도 하나의 명령은,
    상기 복수의 특성들을 부호화하는 과정에서 상기 복수의 제2 벡터들 간의 구분을 위해 상기 복수의 제2 벡터들이 차별성(discrimination)을 가지도록 SVM(support vector machine)을 기반으로 미리 학습된 분류 모델에 적용하여 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
  19. 청구항 16에 있어서,
    상기 적어도 하나의 명령은,
    상기 복수의 특성들을 부호화하는 과정에서, 상기 복수의 제1 벡터들에 대한 상기 복수의 제2 벡터들의 결합 분포가 희소성(sparseness)을 가지도록 상기 복수의 제2 벡터들의 값을 미리 설정된 임계값과 비교하고, 상기 비교 결과를 기반으로 상기 복수의 특성들을 부호화하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
  20. 청구항 11에 있어서,
    상기 적어도 하나의 명령은,
    상기 복수의 분석 대상 영상들을 분석하는 과정에서, 상기 부호화된 복수의 특성들을 기반으로 상기 복수의 샘플 영상들을 분류함으로써, 상기 부호화된 복수의 특성들을 학습하고; 그리고
    상기 복수의 분석 대상 영상들이 수신되는 경우, 상기 학습된 복수의 특성들을 기반으로 상기 복수의 분석 대상 영상들을 분석하도록 실행되는 것을 특징으로 하는 영상 분석 장치.
KR1020170004368A 2017-01-11 2017-01-11 영상의 특성 추출을 위한 영상 분석 방법 및 장치 KR101900180B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170004368A KR101900180B1 (ko) 2017-01-11 2017-01-11 영상의 특성 추출을 위한 영상 분석 방법 및 장치
US15/442,558 US10181086B2 (en) 2017-01-11 2017-02-24 Image analysis method for extracting feature of image and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170004368A KR101900180B1 (ko) 2017-01-11 2017-01-11 영상의 특성 추출을 위한 영상 분석 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180082904A true KR20180082904A (ko) 2018-07-19
KR101900180B1 KR101900180B1 (ko) 2018-09-18

Family

ID=62783195

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170004368A KR101900180B1 (ko) 2017-01-11 2017-01-11 영상의 특성 추출을 위한 영상 분석 방법 및 장치

Country Status (2)

Country Link
US (1) US10181086B2 (ko)
KR (1) KR101900180B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101957812B1 (ko) * 2018-08-31 2019-03-13 주식회사 뷰노 인공지능 영상 분석에 있어 특징 공간을 활용한 부호화 및 복호화를 수행하는 방법 및 이를 이용한 장치
KR101993266B1 (ko) * 2018-12-19 2019-06-26 주식회사 로민 영상 위변조 검출을 위한 가변모델 설계 및 학습방법과, 이를 이용한 영상 위변조 검출방법
KR102048948B1 (ko) * 2019-04-30 2020-01-08 (주)제이엘케이인스펙션 영상 분석 장치 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3900328A4 (en) * 2018-12-20 2022-09-21 Warner Bros. Entertainment Inc. PROFILE-BASED CONTENT GENERATION WITH STANDARD DYNAMIC RANGE AND HIGH DYNAMIC RANGE
US11526967B2 (en) 2019-11-25 2022-12-13 Samsung Electronics Co., Ltd. System and method for precise image inpainting to remove unwanted content from digital images
US11295430B2 (en) 2020-05-20 2022-04-05 Bank Of America Corporation Image analysis architecture employing logical operations
US11379697B2 (en) 2020-05-20 2022-07-05 Bank Of America Corporation Field programmable gate array architecture for image analysis

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7986806B2 (en) * 1994-11-16 2011-07-26 Digimarc Corporation Paper products and physical objects as means to access and control a computer or to navigate over or act as a portal on a network
US6539106B1 (en) * 1999-01-08 2003-03-25 Applied Materials, Inc. Feature-based defect detection
US7167583B1 (en) * 2000-06-28 2007-01-23 Landrex Technologies Co., Ltd. Image processing system for use with inspection systems
US7333650B2 (en) * 2003-05-29 2008-02-19 Nidek Co., Ltd. Defect inspection apparatus
US7558419B1 (en) * 2003-08-14 2009-07-07 Brion Technologies, Inc. System and method for detecting integrated circuit pattern defects
US7126255B2 (en) * 2004-04-05 2006-10-24 Ngk Insulators, Ltd. Piezoelectric/electrostrictive film-type device
EP2030171A1 (en) * 2006-04-10 2009-03-04 Avaworks Incorporated Do-it-yourself photo realistic talking head creation system and method
JP4982213B2 (ja) * 2007-03-12 2012-07-25 株式会社日立ハイテクノロジーズ 欠陥検査装置及び欠陥検査方法
JP5232845B2 (ja) * 2009-09-30 2013-07-10 京セラドキュメントソリューションズ株式会社 画像処理装置およびそれを用いる画像形成装置
EP3029606A3 (en) 2014-11-14 2016-09-14 Thomson Licensing Method and apparatus for image classification with joint feature adaptation and classifier learning
US10095950B2 (en) 2015-06-03 2018-10-09 Hyperverge Inc. Systems and methods for image processing

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101957812B1 (ko) * 2018-08-31 2019-03-13 주식회사 뷰노 인공지능 영상 분석에 있어 특징 공간을 활용한 부호화 및 복호화를 수행하는 방법 및 이를 이용한 장치
KR101993266B1 (ko) * 2018-12-19 2019-06-26 주식회사 로민 영상 위변조 검출을 위한 가변모델 설계 및 학습방법과, 이를 이용한 영상 위변조 검출방법
KR102048948B1 (ko) * 2019-04-30 2020-01-08 (주)제이엘케이인스펙션 영상 분석 장치 및 방법
WO2020222555A1 (ko) * 2019-04-30 2020-11-05 (주)제이엘케이 영상 분석 장치 및 방법

Also Published As

Publication number Publication date
US10181086B2 (en) 2019-01-15
US20180197032A1 (en) 2018-07-12
KR101900180B1 (ko) 2018-09-18

Similar Documents

Publication Publication Date Title
KR101900180B1 (ko) 영상의 특성 추출을 위한 영상 분석 방법 및 장치
JP7193252B2 (ja) 画像の領域のキャプション付加
EP3467723B1 (en) Machine learning based network model construction method and apparatus
EP3298576B1 (en) Training a neural network
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
KR102219346B1 (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
WO2021027759A1 (en) Facial image processing
CN114008663A (zh) 实时视频超分辨率
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
US9563822B2 (en) Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system
WO2015062209A1 (zh) 随机森林分类模型的可视化优化处理方法及装置
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
KR20100131060A (ko) 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법
CA3137297C (en) Adaptive convolutions in neural networks
KR20210034462A (ko) 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법
JP7188856B2 (ja) 動的な画像解像度評価
Franchi et al. Latent discriminant deterministic uncertainty
CN115526223A (zh) 潜在空间中的基于得分的生成建模
CN113989420A (zh) 图像生成系统及方法
JP4902378B2 (ja) 混合モデル初期値算出装置及び混合モデル初期値算出プログラム
US20220366242A1 (en) Information processing apparatus, information processing method, and storage medium
CN115810215A (zh) 面部图像生成方法、装置、设备及存储介质
KR102504722B1 (ko) 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법
US20210342642A1 (en) Machine learning training dataset optimization
JP2017538226A (ja) スケーラブルなウェブデータの抽出

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant