KR101880547B1 - 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법 - Google Patents

유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법 Download PDF

Info

Publication number
KR101880547B1
KR101880547B1 KR1020170028560A KR20170028560A KR101880547B1 KR 101880547 B1 KR101880547 B1 KR 101880547B1 KR 1020170028560 A KR1020170028560 A KR 1020170028560A KR 20170028560 A KR20170028560 A KR 20170028560A KR 101880547 B1 KR101880547 B1 KR 101880547B1
Authority
KR
South Korea
Prior art keywords
vector
neural network
video
learning
vectors
Prior art date
Application number
KR1020170028560A
Other languages
English (en)
Inventor
양지훈
이호석
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020170028560A priority Critical patent/KR101880547B1/ko
Application granted granted Critical
Publication of KR101880547B1 publication Critical patent/KR101880547B1/ko

Links

Images

Classifications

    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법에 관한 것이다. 상기 동영상에 대한 특징 벡터 추출 방법은, (a) 다수 개의 벡터들로 구성된 학습 동영상 및 실험 동영상을 입력받는 단계; (b) 학습 동영상을 구성하는 각 벡터들에 대하여, 해당 벡터가 가질 수 있는 최대 유사도, 및 해당 벡터와 다른 벡터에 대한 연속함수 값과의 유사도의 차이값을 구하는 목적 함수를 설정하고, 상기 목적함수가 최소화가 되도록 신경망 학습하는 단계; (c) 상기 신경망 학습된 결과를 이용하여, 상기 실험 동영상에 대한 특징 벡터를 추출하는 단계;를 구비한다.

Description

유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법{Method for extracting a feature vector of video using similarity measure}
본 발명은 동영상 특징 벡터 추출 방법에 관한 것으로서, 더욱 구체적으로는 내적을 이용하여 유사도를 측정하고, 이러한 유사도 측정을 기반으로 하여 동영상에 대한 특징 벡터를 추출하는 방법에 관한 것이다.
데이터의 표현(Representation)은 일반적으로 데이터의 특징 벡터(Feature Vector)와 같은 의미를 지닌다. 기계 학습에서의 데이터의 특징이란 '데이터로부터 파생된, 해당 데이터의 특징적인 정보를 갖고 있는 데이터'로 정의할 수 있다. 이런 데이터는 보통 한 데이터의 특징적인 정보를 갖고 있으므로, 원본 데이터의 총 정보량의 크기보다는 작아야 한다. 위와 같은 맥락에서, 데이터가 노이즈를 비롯한 불필요한 정보들을 포함하고 있는 경우, 이와 같은 정보들을 가능한 한 배제한 채 데이터의 특징적인 정보들을 포함한 채 보다 간단한 형식의 데이터를 만드는 것도 '데이터의 표현을 학습한다'고 할 수 있다.
따라서, 표현 학습(Representation Learning)이란, 데이터로부터 그 특징들을 잘 반영하고 있는 데이터를 생성하는 것을 목적으로 한다. 이와 같은 정의들을 바탕으로 하여, 본 명세서에서는 표현(Representation)과 특징(Feature)을 같은 의미로 사용한다. 즉, 본 명세서에서, '동영상 데이터의 표현(Video Data Representation)'이란 '동영상 데이터를 나타내는 특징 벡터'와 같은 의미를 지니고 있다고 할 수 있다.
본 발명에서는 유사도 측정을 기반으로 한 동영상 특징 벡터를 추출하는 방법을 제안하고자 한다.
한국등록특허공보 제 10-1373176호
전술한 문제점을 해결하기 위한 본 발명의 목적은 내적을 이용하여 측정된 유사도를 기반으로 하여 동영상에 대한 특징 벡터를 추출하는 방법을 제공하는 것이다.
본 발명의 다른 목적은 전술한 유사도를 기반으로 하여 추출된 동영상 특징 벡터를 이용하여 퍼스널 미디어 분류 시스템을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법은, (a) 다수 개의 벡터들로 구성된 학습 동영상 및 실험 동영상을 입력받는 단계; (b) 학습 동영상을 구성하는 각 벡터들에 대하여, 해당 벡터가 가질 수 있는 최대 유사도, 및 해당 벡터와 다른 벡터에 대한 연속함수 값과의 유사도의 차이를 구하고, 상기 차이값이 최소화가 되도록 신경망 학습하는 단계; (c) 상기 신경망 학습된 결과를 이용하여, 상기 실험 동영상에 대한 특징 벡터를 추출하는 단계;를 구비한다.
전술한 제1 특징에 따른 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법에 있어서, 상기 (b) 단계에서 임의의 i 번째 벡터(v i )가 가질 수 있는 최대 유사도는 i 번째 벡터와 자기 자신과의 내적( <v i ,v i > ) 으로 측도되며, 임의의 i 번째 벡터(v i )와 다른 j번째 벡터(v j )에 대한 연속 함수값(f(v j ))의 유사도는 i 번째 벡터(v i )와 j번째 벡터(v j )에 대한 연속 함수값(f(v j ))의 내적(< v i ,f(v j )> )으로 측도되는 것이 바람직하다.
전술한 제1 특징에 따른 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법에 있어서, 상기 연속함수(f)는 상기 동영상을 구성하는 각각의 벡터들이 다른 벡터들의 정보를 최대한 가질 수 있도록 변환하는 함수인 것이 바람직하다.
전술한 제1 특징에 따른 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법에 있어서, 상기 연속함수(f)는 sigmoid 함수(σ)를 이용한 것으로서, 아래의 수학식으로 표현되며,
[ 수학식 ]
Figure 112017022450487-pat00001
여기서, W는 신경망 가중치이며, b 는 신경망 바이어스이다.
전술한 제1 특징에 따른 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법에 있어서, 상기 (b) 단계는 신경망 학습하여 신경망 매개 변수인 신경망 가중치 및 신경망 바이어스를 업데이트시키는 것이 바람직하다.
본 발명의 제2 특징에 따른 퍼스널 미디어 이벤트 분류 시스템은, 제1항 내지 제5항 중 어느 한 항에 따른 특징 벡터 추출 방법에 의해 추출된 동영상에 대한 특징 벡터들을 이용하여 동영상 이벤트를 분류하는 것을 특징으로 한다.
전술한 제2 특징에 따른 퍼스널 미디어 이벤트 분류 시스템에 있어서, 상기 퍼스널 미디어 이벤트 분류 시스템은 동영상에 대한 특징 벡터들에 대하어 역전파 알고리즘을 이용하여 신경망 가중치와 신경망 바이어스를 조정하는 것이 바람직하다.
본 발명에 따라 동영상 데이터를 추상적이면서 보다 간단하게 표현할 수 있는 학습 방법을 제공할 수 있게 된다. 즉, 본 발명에 따른 동영상 특징 벡터 추출 방법은 간단한 신경망 구조로 순차 데이터 중 하나인 동영상 데이터의 특징을 반영시킴으로서, 동영상을 구성하는 벡터간의 내적을 이용하여 벡터의 유사도를 측정하고, 이를 기반으로 하여 동영상에 대한 특징 벡터를 추출할 수 있도록 한다.
도 1은 본 발명의 바람직한 실시예에 따른 동영상 특징 벡터 추출 방법을 구현한 알고리즘이다.
도 2는 본 발명의 바람직한 실시예에 따른 동영상 특징 벡터 추출 방법에서 목적 함수를 근사하기 위하여 사용하는 신경망 모델을 도식화한 것이다.
본 발명에 따른 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법은 두 벡터간의 내적을 이용하여 유사도를 측정하고, 이러한 유사도를 이용하여 신경망 학습하여 동영상에 대한 특징 벡터를 추출하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 동영상 특징 벡터 추출 방법에 대하여 구체적으로 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 동영상 특징 벡터 추출 방법을 구현한 알고리즘이다.
도 1을 참조하면, 본 발명에 따른 동영상 특징 벡터 추출 방법은 다수 개의 벡터들로 구성되는 동영상 데이터에 대하여 특징 벡터를 추출하는 것으로서, 각 벡터들간의 유사도 측도를 기반으로 한다.
먼저, 두 벡터의 유사도를 측정하는 방법을 설명한다. 두 개의 벡터 x, y ∈
Figure 112017022450487-pat00002
가 존재한다고 할 때, 두 벡터의 유사도는 두 벡터의 내적으로 정의할 수 있다.
Figure 112017022450487-pat00003
Figure 112017022450487-pat00004
에서의 일반적인 내적이라 하자. 그러면, 내적이 주어진 공간 (Rn)은 노름(Norm)
Figure 112017022450487-pat00005
으로 유도한 거리 공간(Metric Space)이라 할 수 있다. 따라서, 어떤 점이 (Rn) 에 주어지더라도 임의의 ε에 대해 이 점을 중심으로 하는 ε-ball 을 만들 수 있고, 또 이 점을 지나는 연속인 벡터 함수를 정의할 수 있다. 데이터가 속하는 공간은 유한 차원이므로, 유한 차원만 고려할 때 벡터의 내적에 대해 수학식 1과 같은 명제가 성립한다.
Figure 112017022450487-pat00006
이 같은 성질로 인하여, 두 벡터는 특정 조건하에 = 또는 ⊥ 에 대한 관계가 있다고 할 수 있다. 그러므로, 두 벡터의 유사도를 두 벡터를 내적을 통해서 측정할 수 있다. 특히, 여러 쌍의 벡터의 내적값이 동일하다면, 각 벡터들 역시 수학식 1과 같은 관계가 성립한다. 만약 L 2-Norm 으로 정규화한 벡터라면, 전술한 유사도 측정법은 두 벡터가 이루고 있는 각도만 고려하여 유사도를 측정하는 코사인 유사도가 된다. 이는 일반적인 두 벡터의 내적인 <x,y> = |x||y|cosθ 이고, L 2-Norm 으로 정규화한 벡터의 크기는 항상 1 이므로, <x,y> = cosθ 이고, 따라서 두 벡터가 이루는 각도로 유사도를 측정할 수 있게 된다
두 벡터의 유사도를 측정하는 방법에는 전술한 내적을 이용한 측도외에도 다른 측도도 존재한다. 이런 측도들은 공통적으로 측도로 유도할 수 있는 노름으로 거리 공간을 생성할 수 있다.
수학적인 설명을 위해, 순차 데이터(Sequential Data)를 '
Figure 112017022450487-pat00007
에서 정의된 벡터 열, 즉
Figure 112017022450487-pat00008
에 존재하는 N 개의 벡터들의 집합 d = {d 1 , d 2 , ..., d N }'라 정의한다. 이와 같이 순차 데이터를 정의한다면, 순차데이터를 이루는 각각의 원소 d i 가 의미를 갖는다고 가정할 수 있다. 본 명세서에서 특징 벡터를 추출하고자 하는 동영상 데이터는, 동영상으로부터 초당 1개의 정지 화면을 추출하였다고 가정했을 때, 이를 사람이 관찰한다면 각각의 정지 화면들로부터 유의미한 정보를 찾을 수 있게 된다. 그리고, 이들이 가진 정보를 취합하면 동영상이 어떤 주제를 갖고 있는지 더 파악하기 수월해질 것이다.
따라서, 본 발명에 따른 유사도 측정 기반의 동영상 특징 벡터 추출 방법을 이용한 퍼스널 미디어 분류 시스템에 사용된 학습 알고리즘은 이러한 점에 착안하여 발명되었다. 본 발명은, 내적으로 벡터들 사이의 유사도를 측도하였을 때,동영상 데이터를 이루고 있는 각각의 벡터들이 다른 벡터들의 정보를 최대한 가질 수 있도록 만드는 모델(함수)을 찾는 것을 목적으로 한다. 즉, 본 발명은 동영상 데이터의 각 벡터들을 다른 벡터들의 정보를 최대한 가질 수 있도록 하는 성질을 갖는 벡터가 되도록 변환시키는 연속함수(f)를 근사하는 것을 목적으로 한다.
이하, 동영상 데이터를 v 라 하고, 순차데이터 d 와 유사하게 나타내어 v = {v 1 , v 2 ,..., v N } 으로 설정하고, v 를 이루는 각 벡터는 고정된 차원에 속하는 벡터들이며,
Figure 112017022450487-pat00009
에 존재한다고 가정한다. N 은 동영상에 따라 달라질 수 있다. 다만, 여기서는 다른 동영상은 고려하지 않도록 한다. 이를 바탕으로 동영상 v가 주어져 있을 때, 본 발명에 따른 방법에서는 수학식 2와 같은 목적 함수를 최소화하는 모델을 제공한다.
Figure 112017022450487-pat00010
연속함수 f는 모든 v ∈ {v 1 , v 2 ,..., v N } 에 대하여 수학식 3과 같은 부등식을 만족해야 한다.
Figure 112017022450487-pat00011
한편, 최소화하고자 하는 목적 함수를 수학식 2와 같이 정의한 이유는 다음과 같다. 먼저, v i 와 가장 유사한 벡터는 자기 자신이다. 그러므로, 두 벡터의 유사도를 내적으로 측도한다면, < v i , v i >가 v i 가 가질 수 있는 최대의 유사도이다. 또한, < v i , f(v j ) >는 v j 에 대한 연속함수 f 값과 v i 의 유사도를 나타내고 있으므로, < v i , v i >와 < v i , f(v j ) >의 차이는 f(v j )가 v i 의 정보를 얼마나 잘 반영하고 있는지를 나타내는 것이다.
본 발명에서는 위와 같은 역할을 하는 함수를 sigmoid 활성함수를 가진 하나의 층을 가진 신경망으로 근사한다. 신경망이 나타내고 있는 함수를 f라 했을 때, 이 함수는 신경망의 성질로 인해 미분 가능하게 된다. 이런 이유로 인하여, 본 발명에 따른 발법에서는 경사 기반(Gradient-Based)의 역전파 알고리즘(Backpropagation Algorithm)( Rumelhart, D. E., Hinton, G. E., & Williams, R. J. Learning representations by back-propagating errors. Cognitive modeling, 5(3):1, 1988. )으로 학습할 수 있다.
도 2는 본 발명의 바람직한 실시예에 따른 동영상 특징 벡터 추출 방법에서 목적 함수를 근사하기 위하여 사용하는 신경망 모델을 도식화한 것이다.
이하, 수학식 2를 만족하는 최적의 f를 f * 라 하자. f * 는 최적이므로, 수학식 2를 만족하는 모든 f에 대하여 수학식 4를 만족한다.
Figure 112017022450487-pat00012
동영상 데이터를 하나의 벡터로 표현하기 위해서는 {v 1 , v 2 ,..., v N } 의 f * 에 대한 출력{f * ( v 1 ), f * ( v 2 ), ..., f * ( v N ) } 에 대해 평균 풀링(Average Pooling)을 적용한다. 즉, 동영상 데이터에 대한 하나의 벡터 표현은 수학식 5와 같이 나타낸다.
Figure 112017022450487-pat00013
동영상 데이터를 수학식 5와 같이 표현하는 이유를 설명한다. 먼저, 수학식 6이 주어졌을 때, 이는 몇 가지의 조작을 통해, 수학식 7과 같이 나타낼 수 있다.
Figure 112017022450487-pat00014
Figure 112017022450487-pat00015
따라서, 수학식 6 및 수학식 7에 의해 동영상 데이터를 표현하는 하나의 특징 벡터를 수학식 5와 같이 나타낼 수 있다. 위의 경우, 1개의 동영상만을 고려한 수학식이나, 여러 개의 동영상이 존재하더라도 유한하게 존재하므로 위와 같은 수학식은 여전히 성립하게 되며, 따라서, 각 동영상에 대해 f * 가 주어질 경우 동영상 데이터를 수학식 5와 같이 나타낼 수 있게 된다.
이하, 전술한 과정을 토대로 하여, 본 발명의 바람직한 실시예에 따른 동영상 추출 방법을 순차적으로 설명한다.
먼저, 학습 동영상(v TR )과 실험 동영상(v TE ) 들을 모아 놓은 집합을 입력받아 { v TR1 , v TR2 , ..., v TRN , v TE1 ,v TE2 , ..., v TENM }으로 설정하고, 이 집합에 속한 동영상들을 단순히 v i 로 나타내었을 때, l(i) 를 동영상 v i 가 가진 특징 벡터의 개수로 설정한다. 이러한 정의를 바탕으로 각 동영상 v i 를 벡터들의 집합 { v i 1, v i 2, ..., v il (i) }이라 하자. 그리고, W 는 신경망의 가중치(weight), b는 신경망의 바이어스(bias)이며, E는 신경망을 학습할 총 반복 횟수(epoch)으로 설정된다. 이를 바탕으로 했을 때,
Figure 112017022450487-pat00016
이다. 단, 여기서 σ 는 sigmoid 함수이다.
다음, 신경망의 매개변수들인 W, b 및 학습률(learning rate) μ를 초기화한다
다음, 학습 동영상들을 다음의 과정을 1 ~ 총 반복 횟수 E 까지 반복하여 수행하여, 신경망 학습하여 학습 동영상에 대한 신경망 매개 변수들을 업데이트시킨다. 이하, 학습 동영상들을 신경망 학습하는 과정을 설명한다.
먼저, 각 학습 동영상들을 구성하는 각 벡터들에 대하여, 신경망 매개변수에 대한 신경망 가중치 변화값(△W ij ) 및 신경망 바이어스 변화값(△b ij )을 내적을 이용하여 수학식 8 및 수학식 9에 따라 구한다.
Figure 112017022450487-pat00017
Figure 112017022450487-pat00018
다음, 수학식 10 및 수학식 11에 따라, 해당 벡터가 가질 수 있는 최대 유사도, 및 해당 벡터와 다른 벡터에 대한 연속함수 값과의 유사도의 차이를 구하고, 상기 차이값이 최소화가 되도록 신경망을 학습하여 신경망 매개 변수들을 업데이트(update)시킨다.
Figure 112018024912405-pat00019

여기서,
Figure 112018024912405-pat00025
는 learning rate로서 학습의 속도를 조절하는 파라미터이다.
Figure 112017022450487-pat00020
여기서,
Figure 112018024912405-pat00026
는 learning rate로서 학습의 속도를 조절하는 파라미터이다. 전술한 과정을 통해 학습 동영상에 대하여 신경망을 학습하여 신경망 매개 변수들인 W, b를 업데이트시킨 후, 실험 동영상들과 학습 동영상들에 대하여 학습된 신경망 함수 f를 수학식 12에 적용하여 각 동영상에 대한 특징 벡터들을 구한다.
Figure 112017022450487-pat00021
전술한 과정을 통해 유사도 측정 기반 표현법을 이용하여 학습 동영상과 실험 동영상들에 대하여 구한 특징 벡터 집합 { v TR1 * , v TR2 * ,..., v TRN * ,v TE1 * ,v TE2 * ,..., v TEM * } 을 얻을 수 있게 된다.
본 발명에 따른 퍼스널 미디어 분류 시스템은, 전술한 동영상 특징 벡터 추출 방법을 이용하여 동영상에 대하여 추출된 특징 벡터들에 대하여, 학습된 신경망의 끝단에 분류 계층을 추가하여 각 입력 특징 벡터에 대한 클래스를 기반으로 하여 역전파 알고리즘을 이용하여 각 입력 특징 벡터에 대한 출력이 올바른 클래스가 되도록 신경망의 매개변수인 신경망 가중치와 신경망 바이어스를 조정한다. 이와 같은 과정을 미세 조정(fine-tuning)이라 한다. 이와 같이 미세 조정된 신경망 가중치(W')과 신경망 바이어스(b')를 이용하여 특징 벡터의 분류 성능을 향상시키게 된다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (7)

  1. (a) 다수 개의 벡터들로 구성된 학습 동영상 및 실험 동영상을 입력받는 단계;
    (b) 학습 동영상을 구성하는 각 벡터들에 대하여, 해당 벡터가 가질 수 있는 최대 유사도, 및 해당 벡터와 다른 벡터에 대한 연속함수 값과의 유사도의 차이값을 구하는 목적 함수를 설정하고, 상기 목적함수가 최소화가 되도록 신경망 학습하는 단계; 및
    (c) 상기 신경망 학습된 결과를 이용하여, 상기 실험 동영상에 대한 특징 벡터를 추출하는 단계;를 구비하고,
    상기 (b) 단계에서 임의의 i 번째 벡터(vi )가 가질 수 있는 최대 유사도는 i 번째 벡터와 자기 자신과의 내적( <vi ,vi > ) 으로 측도되며,
    임의의 i 번째 벡터(vi )와 다른 j번째 벡터(vj )에 대한 연속 함수값(f(vj ))의 유사도는 i 번째 벡터(vi )와 j번째 벡터(vj )에 대한 연속 함수값(f(vj ))의 내적( < vi , f(vj ) > )으로 측도되는 것을 특징으로 하는 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법.
  2. 삭제
  3. 제1항에 있어서, 연속함수(f)는 상기 동영상을 구성하는 각각의 벡터들이 다른 벡터들의 정보를 최대한 가질 수 있도록 변환하는 함수인 것을 특징으로 하는 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법.
  4. 제1항에 있어서, 연속함수(f)는 sigmoid 함수(σ)를 이용한 것으로서, 아래의 수학식으로 표현되며,
    [ 수학식 ]

    여기서, W는 신경망 가중치이며, b는 신경망 바이어스인 것을 특징으로 하는 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법.
  5. 제4항에 있어서, 상기 (b) 단계는 신경망 학습하여 신경망 매개 변수인 신경망 가중치 및 신경망 바이어스를 업데이트시키는 것을 특징으로 하는 유사도 측정을 기반으로 한 동영상에 대한 특징 벡터 추출 방법.
  6. 제1항, 제3항, 제4항 및 제5항 중 어느 한 항에 따른 특징 벡터 추출 방법에 의해 추출된 동영상에 대한 특징 벡터들을 이용하여 동영상 이벤트를 분류하는 퍼스널 미디어 이벤트 분류 시스템.
  7. 제6항에 있어서, 상기 퍼스널 미디어 이벤트 분류 시스템은 동영상에 대한 특징 벡터들에 대하어 역전파 알고리즘을 이용하여 신경망 가중치와 신경망 바이어스를 조정하는 것을 특징으로 하는 퍼스널 미디어 이벤트 분류 시스템.


KR1020170028560A 2017-03-06 2017-03-06 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법 KR101880547B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170028560A KR101880547B1 (ko) 2017-03-06 2017-03-06 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170028560A KR101880547B1 (ko) 2017-03-06 2017-03-06 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법

Publications (1)

Publication Number Publication Date
KR101880547B1 true KR101880547B1 (ko) 2018-07-20

Family

ID=63103252

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170028560A KR101880547B1 (ko) 2017-03-06 2017-03-06 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법

Country Status (1)

Country Link
KR (1) KR101880547B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102235588B1 (ko) 2019-12-09 2021-04-02 한국로봇융합연구원 다중 계층을 포함하는 인공지능 모델의 계층별 추론 분류 성능 평가 방법 및 평가 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070049501A (ko) * 2005-11-08 2007-05-11 삼성전자주식회사 성별을 이용한 얼굴 인식 방법 및 장치
KR20120124891A (ko) * 2011-05-06 2012-11-14 경북대학교 산학협력단 사용자 다중의도 분석장치 및 사용자 다중의도 분석 방법
KR101373176B1 (ko) 2013-02-13 2014-03-11 서강대학교산학협력단 복제 동영상정보 검출방법 및 장치, 저장매체
KR20140115784A (ko) * 2013-03-22 2014-10-01 한국전자통신연구원 영상 정합 장치 및 그것의 동작 방법
KR20150093058A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 얼굴 인식 장치 및 방법
KR20160098581A (ko) * 2015-02-09 2016-08-19 홍익대학교 산학협력단 얼굴 인식 및 화자 인식이 융합된 인증 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070049501A (ko) * 2005-11-08 2007-05-11 삼성전자주식회사 성별을 이용한 얼굴 인식 방법 및 장치
KR20120124891A (ko) * 2011-05-06 2012-11-14 경북대학교 산학협력단 사용자 다중의도 분석장치 및 사용자 다중의도 분석 방법
KR101373176B1 (ko) 2013-02-13 2014-03-11 서강대학교산학협력단 복제 동영상정보 검출방법 및 장치, 저장매체
KR20140115784A (ko) * 2013-03-22 2014-10-01 한국전자통신연구원 영상 정합 장치 및 그것의 동작 방법
KR20150093058A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 얼굴 인식 장치 및 방법
KR20160098581A (ko) * 2015-02-09 2016-08-19 홍익대학교 산학협력단 얼굴 인식 및 화자 인식이 융합된 인증 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102235588B1 (ko) 2019-12-09 2021-04-02 한국로봇융합연구원 다중 계층을 포함하는 인공지능 모델의 계층별 추론 분류 성능 평가 방법 및 평가 장치

Similar Documents

Publication Publication Date Title
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
US20190087726A1 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN109840531A (zh) 训练多标签分类模型的方法和装置
Shen et al. A general associative memory based on self-organizing incremental neural network
CN110110668B (zh) 一种基于反馈权重卷积神经网络和胶囊神经网络的步态识别方法
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
KR20190004429A (ko) 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법 및 장치
CN112085738A (zh) 一种基于生成对抗网络的图像分割方法
CN113780245B (zh) 一种多场景下的物品检索方法及系统
CN114842343A (zh) 一种基于ViT的航空图像识别方法
Chen et al. Learning to count with back-propagated information
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
KR101880547B1 (ko) 유사도 측정을 기반으로 한 동영상 특징 벡터 추출 방법
CN104200220B (zh) 一种基于静态纹理模型聚集的动态纹理识别方法
CN109447147A (zh) 基于双图稀疏的深度矩阵分解的图像聚类方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN112541530A (zh) 针对聚类模型的数据预处理方法及装置
CN116883751A (zh) 基于原型网络对比学习的无监督领域自适应图像识别方法
JP2018055287A (ja) 統合装置及びプログラム
CN110782408A (zh) 一种基于卷积神经网络的智能美型方法及系统
WO2018203551A1 (ja) 信号検索装置、方法、及びプログラム
CN115410000A (zh) 对象分类方法以及装置
Huang et al. Residual networks as flows of velocity fields for diffeomorphic time series alignment
CN112560824B (zh) 一种基于多特征自适应融合的人脸表情识别方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant