KR101071728B1 - 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법 - Google Patents

핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법 Download PDF

Info

Publication number
KR101071728B1
KR101071728B1 KR1020090094063A KR20090094063A KR101071728B1 KR 101071728 B1 KR101071728 B1 KR 101071728B1 KR 1020090094063 A KR1020090094063 A KR 1020090094063A KR 20090094063 A KR20090094063 A KR 20090094063A KR 101071728 B1 KR101071728 B1 KR 101071728B1
Authority
KR
South Korea
Prior art keywords
fingerprint
content
distance
distance metric
learning
Prior art date
Application number
KR1020090094063A
Other languages
English (en)
Other versions
KR20110036407A (ko
Inventor
유창동
장달원
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020090094063A priority Critical patent/KR101071728B1/ko
Publication of KR20110036407A publication Critical patent/KR20110036407A/ko
Application granted granted Critical
Publication of KR101071728B1 publication Critical patent/KR101071728B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/13Sensors therefor
    • G06V40/1306Sensors therefor non-optical, e.g. ultrasonic or capacitive sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 쿼리 콘텐츠에 대한 핑거프린트와 데이터베이스에 저장된 핑거프린트와의 거리를 측정함으로써 원본 콘텐츠를 인식하는 핑거프린트 시스템에 관한 것이다. 본 발명은 디스턴스 메트릭의 학습(learning)을 이용하여 핑거프린팅 시스템의 핑거프린트 추출 과정과 데이터베이스 (database, DB)를 유지한 채로 핑거 프린트 인식 성능을 향상시키는 것을 기술적 과제로 한다.
본 발명은 훈련 데이터 (training data)를 이용해서 디스턴스 메트릭을 학습하여 기존의 디스턴스 메트릭에 비해 인식 성능을 향상시킨다. 이를 위해서 일정한 형태의 파라미터화된 디스턴스 메트릭을 설정하고, 그것을 학습시키기 위해서 비용 함수(cost function)를 이용한다. 본 발명에서는 마할라노비스(Mahalanobis) 거리와 특정한 형태의 비용 함수를 이용하여 학습하는 방법을 실시예로 든다. 비용 함수는 원본 콘텐츠의 핑거프린트(xi)와 왜곡된 콘텐츠의 핑거프린트(xi ,j) 사이의 거리가 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리보다 작을 때 최소화되도록 디자인된다. 비용 함수[ε(A)]를 최소화함으로써 효과적으로 디스턴스 메트릭을 학습(learining)할 수 있다.
한편, 비용 함수의 최소화 작업의 편의성을 위해 비용 함수는 볼록(convex) 함수의 형태를 가지도록 하는 것이 바람직하다. 이 경우 비용 함수의 최소화 작업은 볼록 최적화(convex optimization)에 의해 수행될 수 있다.
실험 결과, 본 발명에 따른 학습(learning)된 디스턴스 메트릭이 적용된 경 우, 그렇지 않은 경우에 비하여 왜곡에 대한 핑거프린트 인식 성능이 향상된다는 것이 입증되었다.
핑거프린팅, 인식, 거리 측정, 인식, 정합, 학습, 디스턴스, 메트릭

Description

핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법{METHOD FOR DETRMINING DISTANCE METRIC USED IN FINGERPRINT MATHING OF FINGERPRINT SYSTEM BY LEARNING}
본 발명은 내용 기반 콘텐츠 인식, 특히 핑거 프린팅에 관한 것이고, 보다 상세하게는 본 발명은 핑거 프린팅 시스템에 있어서 핑거프린트 정합 과정의 성능 향상에 관한 것이다.
디지털 콘텐츠에 대한 보호, 관리 및 인덱싱에 대한 수요가 증대하고 있으며, 실현가능한 해결 방안으로서 핑거프린팅(fingerprinting)에 대한 관심이 증대되고 있다. 핑거프린팅은 핑거프린트라고 지칭되는 짧은 특성 벡터(short feature vector)를 이용하여 미지의 콘텐츠를 인식(identification)하는 기술이다. 최근, 다양한 오디오/비디오/이미지 핑거프린팅 기법이 제안되고 있다(참고문헌 [1]-[7]).
콘텐츠 인식을 위한 핑거프린팅 시스템은 일반적으로 1) 핑거프린트 추출(extraction), 2) 데이터베이스 검색(database search) 및 3) 핑거프린트 정합(matching)의 세가지 필수 요소로 구성된다(참고문헌 [4])
핑거프린트 추출 단계에서는 쿼리 콘텐츠(query content)로부터 쿼리 핑거프린트(query fingerprint)가 추출된다. 데이터베이스 검색 단계에서는 쿼리 핑거프린트에 근접한 후보 핑거프린트(candidate fingerprint)의 집합이 데이터베이스로부터 획득된다. 그리고, 핑거프린트 정합 단계에서는 디스턴스 메트릭에 기초하여 후보 핑거프린트와 쿼리 핑거프린트 사이의 거리가 계산된다. 핑거프린팅 시스템은 쿼리 핑거프린트에 가장 근접한 후보 핑거프린트에 관한 메타 데이터를 제공한다.
핑거프린트 추출 및 정합 과정은 시스템의 계산상 효율을 결정짓는 데이터베이스 검색 과정보다는 인식 성능(identification performance)에 더 큰 영향을 미친다. 핑거프린팅 시스템은 시스템의 적용 환경이 바뀔 경우 성능이 저하될 가능성이 있고 이를 위한 대응이 필요한다. 핑거프린팅 시스템의 인식 성능을 향상시키기 위해선 핑거프린트의 추출 과정을 새로 만들거나, 정합 과정을 새로 만들어야 한다. 이 중 핑거프린트의 추출 과정을 새로 만드는 것은 핑거프린트 DB를 새롭게 작성해야 하는 문제점을 수반하게 된다. 하지만, 핑거프린트 정합 과정에 이용되는 디스턴스 메트릭만을 새로 만들게 되면, 기존의 시스템에서 핑거프린트 추출과정과 핑거프린트 DB를 그대로 유지한 채로 성능을 향상시킬 수 있다. 이는 기존의 시스템의 최대한 유지한 채로, 새로운 적용 환경에 적응하도록 만들어 준다.
분류 및 클러스터링 (clustering, 군집화) 에서 디스턴스 메트릭을 학습(learning, 디스턴스 메트릭을 매트릭스 형태로 파라미터화한 경우 이 매트릭스를 결정하는 과정)하는 방법은 참고문헌 [8]-[10]에서 다루고 있다. 최근 연구에 의해 디스턴스 메트릭 학습에 의해 분류 및 클러스터링 성능을 향상시킬 수 있음이 밝혀졌다(참고문헌 [11]). 그러나 기존의 디스턴스 메트릭의 학습 방법은 핑거프린팅 시스템에 사용되지 않았고, 핑거프린팅 시스템에 적합한 학습 방법이 필요하다.
본 발명은 상술한 종래 기술의 문제점을 해소하고자 하는 것으로서, 본 발명의 목적은 핑거프린팅 시스템에 있어서 디스턴스 메트릭의 학습(learning) 과정을 통해 적절한 디스턴스 메트릭을 결정하고, 이를 통해서 핑거프린트의 인식(identification) 성능을 향상시키는 것을 기술적 과제로 한다.
상기 기술적 과제를 해결하기 위해, 본 발명은 원본 및 왜곡된 콘텐츠로 구성된 훈련 데이터(training data)를 이용하여 학습된 디스턴스 메트릭을 사용함으로써, 기존의 핑거프린팅 시스템의 핑거프린트 인식 성능을 향상시킬 수 있도록 한다. 이로 인해 기존의 핑거프린팅 시스템의 핑거프린트 데이터베이스와 핑거프린트 추출 과정을 유지한 채로 성능을 향상시킬 수 있게 한다.
원본 및 왜곡된 콘텐츠로 구성된 훈련 데이터를 가지고 있다고 가정한다. 훈련 데이터를 이용해서 향상된 인식 성능이 나올 수 있도록 디스턴스 메트릭을 학습(Learning)하도록 한다. 디스턴스 메트릭이 학습되기 위해서는 디스턴스 메트릭은 파라미터화된 형태를 가지고 있어야 한다. 학습 과정을 통해서 디스턴스 메트릭의 파라미터가 결정된다. 학습 과정을 위해서는 비용 함수 (cost function) 을 이용한다. 비용함수는 인식 성능이 향상될수록 낮은 값을 갖도록 설계되어 있다. 학습 과정은 이 비용함수를 최소화시키는 디스턴스 메트릭의 파라미터를 구함으로써 하나의 디스턴스 메트릭을 결정하도록 한다.
원본 콘텐츠들에 대한 핑거프린트는 데이터베이스에 저장되어 있다고 가정하고, 왜곡된 콘텐츠들에 대한 핑거프린트는 쿼리 핑거프린트로 가정한다. 이 때 인식 성능을 개선하기 위해서는, 어떤 왜곡된 콘텐츠의 핑거프린트와 그 왜곡된 콘텐츠의 원본 콘텐츠[대응(corresponding) 콘텐츠]의 핑거프린트 사이의 거리는 작아야하며, 어떤 왜곡된 콘텐츠의 핑거프린트와 그 왜곡된 콘텐츠의 원본 콘텐츠가 아닌 다른 원본 콘텐츠[비대응(non-corresponding) 콘텐츠]의 핑거프린트 사이의 거리는 커야 한다는 전제를 가진다. 이 전제 하에서 비용 함수는 다양한 형태를 가질 수 있다. 본 발명에서는 이 비용 함수의 하나의 실시예로 다음과 같은 두 가지 원칙을 가지는 비용 함수를 제시한다.
(원칙 1)
원본 콘텐츠[대응(corresponding) 콘텐츠]의 핑거프린트와 왜곡된 콘텐츠의 핑거프린트 사이의 거리는 원본 콘텐츠의 핑거프린트와 다른 원본 콘텐츠[비대응(non-corresponding) 콘텐츠]의 핑거프린트 사이의 거리보다 작아야 한다.
(원칙 2)
왜곡된 콘텐츠의 핑거프린트와 비대응 콘텐츠의 핑거프린트 사이의 거리 여유분(margin)은 가능한 커야 한다(참조문헌 [10]).
이상의 두가지 원칙에 기초한 비용함수를 설계하여 이를 이용해서 디스턴스 메트릭을 학습한다. 비용 함수는 상기 두가지 원칙이 충족되는 경우에 최소화된다. 즉, 비용 함수는 왜곡된 콘텐츠의 핑거프린트가 비대응 콘텐츠의 핑거프린트로부터 보다 대응 콘텐츠의 핑거프린트로부터 더 멀어질수록 그 값이 증가하도록 디자인되 어 있다.
한편, 비용 함수의 최소화 작업의 편의성을 위해 비용 함수는 볼록(convex) 함수의 형태를 가지도록 하는 것이 바람직하다. 이 경우 비용 함수의 최소화 작업은 볼록 최적화(convex optimization)에 의해 수행될 수 있다.
결국, 특정 형태로 디스턴스 메트릭을 파라미터화한 경우, 이 디스턴스 메트릭의 파라미터를 결정하는 과정이 디스턴스 메트릭 학습이다. 파라미터화된 디스턴스 메트릭의 형태는 다양한 형태를 가질 수 있으며, 본 발명에서는 파라미터화된 디스턴스 메트릭의 실시예의 하나로 마할라노비스 거리의 일반형을 사용한다.
결국, 디스턴스 메트릭을 매트릭스 형태로 파라미터화한 경우 이 매트릭스를 구성하는 각 파라미터 값 및 매트릭스를 결정하는 과정이 디스턴스 메트릭 학습이다.
본 발명에서 다룰 디스턴스 메트릭 학습은 실수값을 가지는 핑거프린트에 대해서만 유효하므로, 이하의 설명에서는 핑거프린트는 실수값을 가진다고 가정할 것이다.
더 구체적으로, 본 발명은 원본 콘텐츠에 대한 왜곡된 콘텐츠로부터 추출된 왜곡 콘텐츠의 핑거프린트(xi ,j)와 원본 콘텐츠의 핑거프린트(xi)와의 정합을 이용하여 콘텐츠 인식을 하는 핑거 프린팅 시스템의 정합 과정에 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법으로써, (A) 상기 원본 콘텐츠의 핑거프린트(xi) 및 상기 왜곡 콘텐츠의 핑거프린트(xi,j)로 구성된 훈련 데이터(training data)를 마련하는 단계(S 100)와, (B) 상기 훈련 데이터를 이용하여 향상된 인식 성능을 낼 수 있는 디스턴스 메트릭을 학습(learning)을 통해 결정하는 단계(S 200)를 포함한다.
한편, 상기 (B) 단계는, (B-1) 상기 디스턴스 메트릭을 결정하기 위해 파라미터화한 디스턴스 메트릭을 생성하는 단계(S 210)와, (B-2) 상기 원본 콘텐츠의 핑거프린트(xi)와 상기 왜곡된 콘텐츠의 핑거프린트(xi ,j) 사이의 거리를 작게 만들고 상기 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리는 크게 만들 때 최소화되는 비용 함수[ε(.)]를 생성하는 단계(S 220)와, (B-3) 상기 비용 함수[ε(.)]가 최소화되는 경우를 찾아 상기 디스턴스 메트릭의 파라미터를 결정하는 단계(S 230)를 포함하는 것을 특징으로 한다.
또한, 상기 (B-1) 단계에서 상기 디스턴스 메트릭은 하나의 실시예로 다음과 같이 하나의 행렬(A)로 파라미터화되는 형태로 정의할 수 있다.
Figure 112009060715451-pat00001
[단, 함수 φ(·)는 φ(x) = Wx (W 는 N x N 행렬임)이고, A = W T W임]
또한, 상기 (B-2) 단계에서 상기 비용 함수[ε(A)]는 하기의 수학식에 의해 정의되는 것이 바람직하다.
Figure 112009060715451-pat00002
[단, [z]+ = max(z, 0)이고, M 은 여유분(margin)을 나타내며,
Figure 112009060715451-pat00003
는 왜곡 콘텐츠의 핑거프린트(xi ,j)에 가장 근접한 비정합 핑거프린트임]
또한, 상기 (B-2) 단계에서 상기 비용 함수[ε(A)]는 볼록 함수인 것이 바람직하다.
또한, 상기 (B-3) 단계에서 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾는 것은 투영 구배법(projected gradient method)을 이용하는 것이 바람직하다.
본 발명은 원본 및 왜곡된 콘텐츠로 구성된 훈련 데이터(training data)를 이용하여 이로부터 디스턴스 메트릭을 학습(learining)함으로써, 핑거프린트 인식 성능을 향상시켰다.
특히, 본 발명은 원본 콘텐츠의 핑거프린트(xi)와 왜곡된 콘텐츠의 핑거프린트(xi ,j) 사이의 거리가 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리보다 작을 때 최소화되는 비용 함수[ε(A)]를 생성하여, 비용 함수[ε(A)]를 최소화함으로써 효과적으로 디스턴스 메트릭을 학습할 수 있다.
또한 본 발명에 따른 디스턴스 메트릭은 마할라노비스(Mahalanobis) 거리에 따른 일반 형태를 가짐으로써 디스턴스 메트릭(Distance Metric)의 파라미터화를 용이하고도 효과적으로 달성할 수 있도록 하였다.
또한, 본 발명에 따른 비용 함수[ε(A)]는 볼록 함수의 형태를 가짐으로써 비용 함수[ε(A)]를 최소화 지점을 시각화된 방법, 예컨대 투영 구배법(projected gradient method)을 이용하여 구현할 수 있도록 한다.
이하, 첨부된 도면을 참조하여 본 발명에 대하여 구체적으로 설명한다.
이하의 설명에서 "학습(learning)"은 디스턴스 메트릭을 매트릭스 형태로 파라미터화한 경우 이 매트릭스를 결정하는 과정을 의미한다.
도 1a 및 도 1b는 본 발명에 따른 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해 결정하는 과정을 나타낸 흐름도이다.
도 1a에 도시된 것과 같이, 본 발명에 따른 방법은 훈련 데이터를 생성하는 제1 단계(S 100)와, 훈련 데이터로부터 학습(Learning)을 이용하여 디스턴스 메트릭을 결정하는 제2 단계(S 200)로 구성된다.
그리고, 도 1b에 도시된 것과 같이, 학습(Learning)을 이용하여 디스턴스 메트릭을 결정하는 제2 단계(S 200)는 파라미터화된 디스턴스 메트릭을 생성하는 단계(S 210)와, 비용 함수(cost function) 생성 단계(S 220)와, 비용 함수가 최소화하는 경우를 찾음으로써 디스턴스 메트릭의 파라미터를 결정(학습)하는 단계(S 230)로 구성된다. 이하, 각 단계별로 상세히 설명한다.
1. 훈련 데이터 ( Training data ) 마련 (S 100)
디스턴스 메트릭을 학습하기 위해서는 원본 콘텐츠의 핑거프린트(xi) 및 왜곡된 콘텐츠들의 핑거프린트(xi ,j) (i = 1, 2, ..., Ij = 1, 2,..., J)로 구성된 훈련 데이터(training data) 집합이 요구된다. 왜곡된 콘텐츠의 핑거프린트(xi ,j)는 i 번째 원본 콘텐츠의 j 번째 왜곡 버전으로부터 추출된 핑거프린트를 의미한다. 핑거프린트(xi)는 i 번째 원본 콘텐츠에 대한 핑거프린트이다.
본 발명에 따른 학습 과정에서는 xi 는 데이터베이스에 저장되어 있는 핑거프린트를 나타내고, xi ,j 는 쿼리 핑거프린트를 나타낸다.
또한, 핑거프린트 쌍 (xi, xi ,j)는 정합(matching) 핑거프린트 쌍이고, 핑거프린트 쌍 (xk, xi ,j) (ki)는 비정합(non-matching) 핑거프린트 쌍이다.
훈련 데이터에서 왜곡된 콘텐츠는 실제 적용 사례에서 빈번하게 발생하는 왜곡(distortion)을 고려하여 결정된다. 핑거프린팅 시스템의 새로운 왜곡 환경에 놓이게 된다면, 그 왜곡 환경에 맞는 왜곡 데이터를 사용함으로써 핑거프린팅 시스템의 디스턴스 메트릭이 새로운 왜곡 환경에 적응하도록 할 수 있다.
2. 학습을 통한 디스턴스 메트릭 결정 ( DETERMINING DISTANCE METRIC USING LEARNING) (S 200)
2.1. 파라미터화된 디스턴스 메트릭 ( DISTANCE MATRIC ) 생성 (S 210)
디스턴스 메트릭(DISTANCE MATRIC)은 2개의 N차원의 핑거프린트 x 및 x' 사이의 거리를 나타내며, 일반적으로 ∥φ(x) - φ(x')∥2 의 형태로 나타낼 수 있다. 여기서 φ는 N차원 실수공간(RN )에서 다른 차원으로 매핑하는 매핑 함수이다. 이 φ함수는 디스턴스 메트릭의 파라미터로 사용할 수 있다. 본 발명에서는 매핑 함수 에 대해서 하나의 실시예로 선형 투영(linear projection)을 고려할 것이므로, 함수 φ(·)는 φ(x) = Wx (W 는 N x N 행렬임)인 것으로 가정한다. 이 매핑 함수를 고려했을 경우, 디스턴스 메트릭은 하기의 수학식 1에 의해 정의된다.
Figure 112009060715451-pat00004
(단, A = W T W)
위 식과 같이 하나의 실시예로 선형 투영을 고려할 경우, 행렬 A 를 파라미터로 가지는 디스턴스 메트릭을 얻게 된다. 이상의 식에 의해 얻어진 디스턴스 메트릭은 특정 형태에 한정되지 않으며, 함수 φ(·) 에 따라서 다양한 형태로써 적용 가능하며, 그에 따라 여러가지 형태의 파라미터를 가질 수 있다.
위 수학식에 표시된 예는, 디스턴스 메트릭을 마할라노비스(Mahalanobis) 거리의 일반형태로 채용한 것이라고 생각할 수 있다. 마할라노비스 거리는 군집분석에서 가장 많이 사용되는 거리개념으로서, 두 지점의 단순한 거리뿐만이 아니라, 변수의 특성을 나타내는 표준편차와 상관계수가 함께 고려된다는 특징을 가지고 있다. 마할라노비스 거리 구하는 공식에 따른 p. q 사이의 거리는 수학식 1a와 같다.
mahalanobis (p,q) = (p-q)∑ -1 (p-q) T
여기서, -1 은 공분산 행렬의 역행렬이고, T 는 변환행렬이다.
이하의 설명에서 x 와 x' 사이의 거리 D A (x, x') = ∥φ(x) - φ(x')∥2 로 정의된다.
디스턴스 메트릭을 학습한다는 것은 디스턴스 메트릭을 파라미터를 결정한다는 것이고, 이 실시예에서는 행렬 A를 결정한다는 것을 의미한다. 만약 디스턴스 메트릭을 파라미터화한 행렬 A가 단위행렬이라면 D A (x, x')는 유클리드 거리와 일치하게 된다.
2.2. 비용 함수 ( Cost function ) 생성 (S 220)
디스턴스 메트릭 행렬 A의 파라미터는 비용 함수를 최소화시킴으로써 결정된다. 비용 함수의 형태는 특정 형태에 한정되지 않으며, 어떤 왜곡된 콘텐츠의 핑거프린트와 그 왜곡된 콘텐츠의 원본 콘텐츠[대응(corresponding) 콘텐츠]의 핑거프린트 사이의 거리는 작아야하며, 어떤 왜곡된 콘텐츠의 핑거프린트와 그 왜곡된 콘텐츠의 원본 콘텐츠가 아닌 다른 원본 콘텐츠[비대응(non-corresponding) 콘텐츠]의 핑거프린트 사이의 거리는 커야 한다는 전제 하에 만들어진 다양한 형태로써 적용 가능하다.
다만 일 예로서, D A (xi, xi ,j)가 D A (xk, xi ,j) (ki) 보다 작을 때 최소화되는 비용함수를 들 수 있다. 원본 콘텐츠에 대한 왜곡 버전인 쿼리 콘텐츠를 올바르게 인식하기 위해서는 쿼리 핑거프린트(xi,j)는 xk 보다 xi 에 더 가까워야 한 다(ki). 이 조건을 만족시키는 본 발명에 따른 비용 함수는 하기의 수학식 2와 같이 구현할 수도 있다.
Figure 112009060715451-pat00005
여기서 [z]+ (= max(z, 0))는 표준 힌지 손실 함수(standard hinge loss function)을 나타내고, M 은 여유분(margin)을 나타내며,
Figure 112009060715451-pat00006
는 쿼리 핑거프린트(xi ,j)에 가장 근접한 비정합 핑거프린트를 나타낸다. 인덱스
Figure 112009060715451-pat00007
는 하기의 수학식 3에 따라 표현할 수 있다.
Figure 112009060715451-pat00008
수학식 2에 상수 M 과 힌지 손실 함수를 포함시키고 ε(A)를 최소화함으로써, D A (xξ(i,j), xi ,j) ≥ M + D A (xi, xi ,j)가 되도록 유도된다(참고문헌 [10]). 따라서 디스턴스 메트릭은 쿼리 핑거프린트(xi,j)와 비대응 콘텐츠의 핑거프린트와의 거리가 적어도 M + D A (xi, xi ,j)보다는 커지도록 학습된다.
도 2는 비용 함수의 의미를 설명하기 위한 도면이다.
도 2(a)에 도시된 것과 같이, xξ(i,j)가 xi , j 를 중심으로 하고 반경이 M + D A (xi, xi ,j)인 구의 바깥에 위치하는 경우에는 ε(A)의 피가수(summand)인 M + D A (xi, xi ,j) - D A (xξ(i,j), xi ,j) 는 0이 된다.
그러나, 도 2(b)에 도시된 것과 같이, xξ(i,j)가 xi , j 를 중심으로 하고 반경이 M + D A (xi, xi ,j)인 구의 내부에 위치하는 경우에는 M + D A (xi, xi ,j) - D A (xξ(i,j), xi ,j) 만큼 값(cost)이 비용 함수에 더해진다. A는 M에 의해 스케일이 가능하므로 이하에서는 M= 1로 설정하여도 일반성을 유지할 수 있다.
2.3. 비용 함수의 볼록성 ( Convexity of the cost function )
비용 함수는 A에 대해 볼록 함수이므로 전체적인 최소값을 구할 수 있다. 비용 함수의 볼록성(convexity)을 증명하기 위해서, 수학식 2의 ε(A)를 다시 기재하면 하기 수학식 4와 같이 된다.
Figure 112009060715451-pat00009
여기서, K (A, i, j)는 하기의 수학식 5에 의해 정의된다.
Figure 112009060715451-pat00010
(볼록성의 증명)
볼록 함수들의 합은 볼록 함수이다.
따라서, 만약 [K (A, i, j)]+ 가 볼록하다면, ε(A)도 역시 볼록하다. 또한, 만약 함수 K (A, i, j)가 볼록하다면 [K (A, i, j)]+ 도 역시 볼록하다. K (A, i, j)는 상수(M)과 두개의 선형 함수들의 합으로 되어 있으므로, K (A, i, j)는 A 에 대해 선형적이다. 따라서, K (A, i, j)가 볼록하면 ε(A)도 역시 볼록하다.
2.4. 최적화 ( Optimization ) - 디스턴스 메트릭의 파라미터 행렬(A) 결정 (S 230)
행렬 A를 찾아내기 위해서, 참고문헌 [12]에 개시된 투영 구배법(projected gradient method)을 이용한다.
디스턴스 메트릭은 음이 아니어야(non-negative) 하고, 삼각 부등식을 만족시키므로, 행렬 A는 양반한정(positive semi-definite)이다(참고문헌 [8]).
투영 구배법은 2가지 단계로 수행된다.
먼저, 비구속 최소화(unconstrained minimization)를 위해서, 그레디언트 디슨트 방법[Gradient descent method: 함수의 현재 위치에서 기울기(gradient)가 음인 방향을 찾고, 그 방향으로 이동하여 새로운 위치를 잡고, 이러한 방법을 반복하여 함수의 가장 낮은 지점(local minimum) 을 찾는 방법]을 이용한다.
그 다음, 행렬 A를 양반한정(positive semi-definite) 공간에 투영한다. 투영은 참고자료 [12]에 기재된 반한정 프로그래밍(semidefinite programming)을 이용한다.
이상과 같은 과정으로 행렬 A를 찾는 과정을 수학적으로 표현하면, 하기 수학식 6과 같이 된다.
Figure 112009060715451-pat00011
여기서, β는 스텝 크기(step size)이고, ∥·∥ F 는 프로베니우스 놈(Frobenius norm)이다. 즉,
Figure 112009060715451-pat00012
가 된다.
4. 실험 결과 ( EXPERIMENTAL RESULTS )
4.1. 실험 셋업
디스턴스 메트릭 학습에 의한 성능 향상을 나타내 보이기 위해서, 본 발명에 따른 디스턴스 메트릭 학습 방법을 참고문헌 [4]에 기재된 오디오 핑거프린트 시스템에 적용하여 실험하기로 한다.
참고문헌 [4]에 따르면, 길이가 371.5ms인 프레임[쉬프트(shift, 각 프레임의 시작점 또는 끝점의 이격 시간)는 185.7ms]으로부터 16-차원의 핑거프린트가 추출된 다음, 핑거프린트 정합 과정에서는 유클리드 거리가 이용되었다.
핑거프린트 정합은 5초 또는 10초 길이의 오디오 클립 (27 또는 54 프레임)를 이용하여 수행되었으므로, N = 432 (=27x16) 또는 N = 864 (=54x16)가 된다[하나의 프레임당 16 차원의 핑거프린트가 추출되므로 N차원의 핑거프린트는 N/16(= 27 또는 54)개의 프레임으로부터 추출된 것임].
본 발명에서는 핑거프린트 정합 성능이 주된 관심 대상이므로, 본 실시예에서는 핑거프린트 시스템에 대한 데이터베이스 검색 과정은 제외되었다.
N 이 너무 큰 수이어서 N 차원 (N x N) 행렬에 대해 학습을 한다는 것은 계산하기가 용이하지 않으므로, 본 실험에서는 N 차원의 행렬 A 대신에 M 차원(M < N)의 행렬 AS에 대해 학습을 수행하기로 한다.
행렬 AS 는 N 차원의 핑거프린트를 M 차원으로 나눔으로써 얻어진 M 차원의 핑거프린트를 이용함으로써 구할 수 있다[하나의 프레임당 16 차원의 핑거프린트가 추출되므로 M차원의 핑거프린트는 M/16개의 프레임으로부터 추출된 것임].
2개의 N차원의 핑거프린트 x 및 x' 사이의 거리는 하기 수학식 7로 구할 수 있다.
Figure 112009060715451-pat00013
여기서, xs (k) 및 xs'(k) 는 N차원의 핑거프린트 x 및 x' 를 각각 나눔으로써 얻어진 M 차원의 핑거프린트를 의미한다. 본 실시예에서는 M = 48 로 셋팅하였으므로, 상기 수학식 7에서의 피가수(summand)는 3(= M/16=48/16)개의 프레임으로부터 추출된 핑거프린트간의 거리를 의미한다.
4.2. 훈련 집합 ( Training set )
100개의 서로 다른 음원(노래)가 디스턴스 메트릭 학습에 이용되었다. 본 실시예에서는 I = 8000, J = 4 로 셋팅되었다.
여기서 I는 원본 콘텐츠의 핑거프린트(xi ; i = 1, 2, ..., I ) 개수를 의미하고, J는 원본 콘텐츠의 핑거프린트(xi)에 대한 콘텐츠의 왜곡 버전(xi , j ; i = 1, 2, ..., J )의 개수를 의미한다(3.1. 항목 참조).
본 실시예에서 이용되는 오디오 왜곡 목록은 참고문헌 [2]에 기재되어 있으며, 하기 표 1과 같다.
기호 오디오 왜곡명 내용
L1 EQ1
(옥타브 대역 이퀄라이제이션)
옥타브 대역의 인접대역을 감쇄
(-6 dB 및 +6 dB 교번하는 방식으로 셋팅)
L2 E
(에코)
구세대 라디오 필터 복제
(Filter emulation of old time radio)
L3 BPF
(밴드패스필터링)
0.4 - 4 kHZ 밴드 대역 필터
(0.4 - 4 kHZ Band Pass Filter)
L4 WMA
(WMA 인코딩)
64kbps WMA 인코딩
(64kbps WMA encoding)
모든 왜곡에 있어서, 96 kbps의 MP3 인코딩이 수행되었다.
4.3. 비교 테스트
본 발명의 성능을 평가하기 위해서, 전술한 훈련 집합으로부터 완전히 구별되는 100개의 완전히 상이한 음원(노래)가 비교 테스트에 사용되었다. 본 비교 데스트에는 전술한 4개의 왜곡(EQ1, E, BPF, WMA) 이외에 하기 표 2와 같은 3개의 왜곡이 추가되어 7개의 왜곡이 이용되었다
기호 오디오 왜곡명 내용
T1 TD
(시간 지연, Time Delay)
92.9 ms 시프트
T2 SR
(샘플링율 변경)
16 kHz로 다운 샘플링 및
44.1 kHz로 업 샘플링
T3 EQ2
(1/3 옥타브 대역 이퀄라이제이션)
30-밴드 팝 이퀄라이제이션
(30-band pop equalization)
상기 3개 이상의 왜곡이 결합된 테스트 세트도 고려되었다.
각각의 테스트 세트는 학습이 적용된 경우에서의 왜곡 뿐만 아니라, 학습이 적용되지 않은 경우에서의 왜곡도 모두 포함되어 있다.
도 3은 본 발명에 따른 실시예[학습이 적용된 디스턴스 메트릭, "Learned"로 도시됨]의 성능과 비교예[종래의 유클리드 거리를 이용하고 학습이 적용되지 않은 경우, "Euclidean"으로 도시됨] 의 성능을 ROC(Receiver Operating Characteristic) 곡선을 이용하여 나타낸 비교 그래프이다.
도 3의 ROC 그래프에서는 음성 오류(FN; False Negaitive, 실제로 음성인데 양성으로 판단하는 오류) 비율에 대한 양성 오류(FP; False Positive, 실제로 양성인데 음성으로 판단하는 오류) 비율을 도시하였다(FN vs. FP).
즉, 본 실험에서는 음성 오류(FN) 비율은 정합 핑거프린트 쌍이 비정합 핑거프린트 쌍으로 판단되는 경우의 비율로 정의하고, 양성 오류(FP) 비율은 비정합 핑거프린트 쌍이 정합 핑거프린트 쌍으로 판단되는 경우의 비율로 정의하기로 한다.
각각의 실험에서는 60,000 개의 정합 핑거프린트 쌍과 100,000,000 개의 비정합 핑거프린트 쌍이 이용되었다.
도 3(a) 내지 도 3(d)는 학습이 적용된 왜곡만 존재하는 경우에 대한 성능을 도시하고 있다.
도 3(e) 내지 도 3(g)는 학습이 적용되지 않은 왜곡도 포함된 경우에 대한 성능을 도시하고 있다.
도 3(h) 내지 도 3(j)는 학습이 적용된 왜곡과 학습이 적용되지 않은 왜곡이 3개 이상 결합된 경우의 성능을 도시하고 있다.
도 3(a) 내지 도 3(j)에 적용된 왜곡은 하기 표 3과 같다.
도면 적용된 왜곡
도 3(a) EQ1 + MP3
도 3(b) E + MP3
도 3(c) BPF + MP3
도 3(d) WMA + MP3
도 3(e) TD + MP3
도 3(f) EQ2 + MP3
도 3(g) SR + MP3
도 3(h) WMA + EQ2 + SR + MP3
도 3(i) TD + E + BPF + EQ2 + MP3
도 3(j) EQ1 + BPF + EQ2 + MP3
도 3에 도시된 것과 같이, 본 발명에 따른 실시예[학습이 적용된 디스턴스 메트릭, "Learned"로 도시됨]의 성능은 비교예[종래의 유클리드 거리를 이용하고 학습이 적용되지 않은 경우, "Euclidean"으로 도시됨] 성능에 비하여 우수하다는 것을 보여준다.
즉, 동일한 조건일 경우 실시예(Learned)는 비교예(Euclidean)에 비하여 좌하측(left-lower)에 배치됨을 확인할 수 있으며, 이는 실시예가 비교에에 비하여 양성 오류(FP; False Positive) 비율 및 음성 오류(FN; False Negaitive) 비율이 낮다는 것을 의미한다.
특히, 도 3(b) 및 도 3(c)에서 명확히 확인되듯이, 본 발명에 따른 디스턴스 메트릭의 학습 효과는 왜곡 정도가 심각한 E(에코) 및 BPF(밴드대역필터) 왜곡에 대해 현저히 향상된 모습을 보여주고 있다.
또한, 도 3(i) 및 도 3(j)에서 확인되듯이, 3개 이상의 왜곡이 결합된 경우에서도 E(에코) 및 BPF(밴드대역필터) 왜곡이 포함된 경우에 인식 성능이 보다 현저히 향상되었음을 보여준다.
결국, 도 3의 모든 경우에 대해서 디스턴스 메트릭의 학습이 적용된 본 발명의 실시예(Learned)는, 학습이 적용되지 않은 비교예(Euclidean)에 비하여 왜곡에 대한 성능 저하가 일어나지 않았다.
본 발명에 따르면, 디스턴스 메트릭의 학습을 이용하여 핑거프린트 정합 과정을 향상시키는 방법이 제안되었다. 디스턴스 메트릭의 학습은 인식 성능과 관련된 비용 함수를 최소화함으로써 수행된다. 비용 함수는 쿼리 콘텐츠가 올바르게 인식되었을 때 최소화하도록 디자인된다.
본 발명을 오디오 핑거프린팅 시스템에 적용한 실험에 따르면, 본 발명에 따른 디스턴스 메트릭 학습에 의해 핑거프린트 성능이 향상되는 것으로 나타났다.
이상, 본 발명의 특정 실시예에 대하여 상술하였지만, 본 발명의 사상 및 범위는 이러한 특정 실시예에 한정되는 것이 아니라, 본 발명의 요지를 변경하지 않는 범위 내에서 다양하게 수정 및 변형이 가능하다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 것이다.
따라서, 이상에서 기술한 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이므로, 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 하며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
<참고 문헌>
이하의 참고 문헌은 본 명세서의 일부로서 합체된다.
[1] "고도로 강인한 오디오 핑거프린트 시스템", J. 하이스트마 등
[J. Haitsma and T. Kalker, "A highly robust audio fingerprinting system", Proc . Int . Conf . Music Information Retrieval ,, 2002]
[2] "MPEG-7 레벨 기술을 이용한 오디오 자료의 콘텐츠 기반 식별", E.알라망쉬 등
[E. Allamanche, J. Herre, O. Helmuth, B. Frba, T Kasten, and M Cremer, "Content-based identification of audio material using MPEG-7 low level description", Proc . Int . Symposium of Music Information Retrieval, 2001]
[3] "오디오 핑거프린팅에서의 왜곡 판별 분석", C. 버지스 등
[C. Burges, J. Plat, and S. Jana, "Distortion discriminant analysis for audio fingerprinting", IEEE Trans . Speech Audio Processing, vol. 11, no. 3, pp. 165-174, May, 2003.]
[4] "표준화된 부대역 모멘츠에 기초한 핑거프린팅", J.S. 서 등
[J. S. Seo, M. Jin, S. Lee, D. Jang, S. Lee, C. D. Yoo, Audio Fingerprinting Based on Normalized Spectral Subband Moments, IEEE Signal Processing letters, vol. 13, issue 4, pp. 209-212, Apr., 2006.]
[5] "비디오 핑거프린팅을 위한 특성 추출 및 데이터베이스 전략", J. 오스트빈 등
[J. Oostveen, T. Kalker, and J. Haitsma, 'Feature extraction and a database strategy for video fingerprinting", Proc . Int . Conf . on Visual Information and Information Systems, pp. 117-128, 2002.]
[6] "콘텐츠 기반 비디오 인식을 위한 강인한 비디오 핑거프린팅", S. 리 등
[S. Lee and C. D. Yoo, 'Robust video fingerprinting for content-Based video identification", IEEE Trans . Circuits and Systems for Video Technology, vol. 18, no. 7, pp. 983-988, July 2008.]
[7] "콘텐츠 기반 이미지 복사 감지", C. 김 등
[C. Kim, "Content-based image copy detection", Signal Processing : Image Communication, Vol. 18 (3), pp. 169-184, March 2003.]
[8] "디스턴스 메트릭 학습, 부가정보와의 군집화 적용", E.P. 씽 등
[E. P. Xing, A. Y. Ng, M. I. Jordan, and S. Russell, "Distance Metric Learning, with application to Clustering with side-information", Proc . NIPS 2003.]
[9] "계층 붕괴에 의한 메트릭 학습", 글로버슨 등
[A. Globerson and S. Roweis, "Metric learning by collapsing classes", Proc . NIPS 2006.]
[10] "큰 여유분 최근린 분류을 위한 디스턴스 메트릭 학습", K. 와인버거 등
[K. Weinberger, J. Blitzer, and L. Saul, 'Distance Metric learning for large margin nearest neighbor classification", Proc . NIPS 2006.]
[11] '디스턴스 메트릭 학습: 전반적인 개요", L. 양 등
[L. Yang and R. Jin, "Distance Metric learning: A comprehensive survey", Technical report, Department of Computer Science and Engineering, Michigan State University, 2006.]
[12] "볼록 최적화", S. 보이드 등
[S. Boyd and L. Vandenberghe, "Convex Optimization", Cambridge University Press, 2004]
도 1a 및 도 1b는 본 발명에 따른 방법의 과정을 나타낸 흐름도.
도 2는 비용 함수의 의미를 설명하기 위한 도면.
도 3은 본 발명에 따른 실시예의 성능과 비교예의 성능을 비교하기 위해서 ROC(Receiver Operating Characteristic) 곡선을 이용하여 나타낸 비교 그래프.
* 도면의 주요부분에 대한 부호의 설명
xi : i 번째 원본 콘텐츠의 핑거프린트 (i = 1, 2,..., I )
xi ,j : i 번째 원본 콘텐츠의 j 번째 왜곡 버전으로부터 추출된 핑거프린트 (j = 1, 2,..., J )
M : 여유분(margin)
D A (x, x') : x 와 x' 사이의 거리
Figure 112009060715451-pat00017
: 핑거프린트(xi,j)에 가장 근접한 비정합 핑거프린트

Claims (6)

  1. 삭제
  2. 원본 콘텐츠에 대한 왜곡된 콘텐츠로부터 추출된 왜곡된 콘텐츠의 핑거프린트(xi,j)와 원본 콘텐츠의 핑거프린트(xi)와의 정합을 이용하여 콘텐츠 인식을 하는 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법으로써,
    (A) 상기 원본 콘텐츠의 핑거프린트(xi) 및 상기 왜곡된 콘텐츠의 핑거프린트(xi,j)로 구성된 훈련 데이터(training data)를 마련하는 단계와,
    (B) 상기 훈련 데이터를 이용하여 향상된 인식 성능을 낼 수 있는 디스턴스 메트릭을 학습(learning)을 통해 결정하는 단계를 포함하고,
    상기 (B) 단계는,
    (B-1) 상기 디스턴스 메트릭을 파라미터화하여 파라미터화된 디스턴스 메트릭을 생성하는 단계(S 210)와,
    (B-2) 상기 원본 콘텐츠의 핑거프린트(xi)와 상기 왜곡된 콘텐츠의 핑거프린트(xi,j) 사이의 거리는 작게 만들고, 상기 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리는 크게 만들 때 최소화되는 비용 함수[ε(A)]를 생성하는 단계(S 220)와,
    (B-3) 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾아 상기 디스턴스 메트릭의 각 파라미터를 결정하는 단계(S 230)
    를 포함하는 것을 특징으로 하는, 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법.
  3. 원본 콘텐츠에 대한 왜곡된 콘텐츠로부터 추출된 왜곡된 콘텐츠의 핑거프린트(xi,j)와 원본 콘텐츠의 핑거프린트(xi)와의 정합을 이용하여 콘텐츠 인식을 하는 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법으로써,
    (A) 상기 원본 콘텐츠의 핑거프린트(xi) 및 상기 왜곡된 콘텐츠의 핑거프린트(xi,j)로 구성된 훈련 데이터(training data)를 마련하는 단계와,
    (B) 상기 훈련 데이터를 이용하여 향상된 인식 성능을 낼 수 있는 디스턴스 메트릭을 학습(learning)을 통해 결정하는 단계를 포함하고,
    상기 (B) 단계는,
    (B-1) 상기 디스턴스 메트릭을 파라미터화하여 파라미터화된 디스턴스 메트릭을 생성하는 단계(S 210)와,
    (B-2) 상기 원본 콘텐츠의 핑거프린트(xi)와 상기 왜곡된 콘텐츠의 핑거프린트(xi,j) 사이의 거리는 작게 만들고, 상기 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리는 크게 만들 때 최소화되는 비용 함수[ε(A)]를 생성하는 단계(S 220)와,
    (B-3) 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾아 상기 디스턴스 메트릭의 각 파라미터를 결정하는 단계(S 230)를 포함하고,
    상기 (B-1) 단계에서 상기 파라미터화된 디스턴스 메트릭은 하기의 수학식에 의해 정의되는 것을 특징으로 하는, 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법.
    Figure 112011037387688-pat00014
    [단, 함수 φ(·)는 φ(x) = Wx (W 는 N x N 행렬임)이고, A = W T W임]
  4. 원본 콘텐츠에 대한 왜곡된 콘텐츠로부터 추출된 왜곡된 콘텐츠의 핑거프린트(xi,j)와 원본 콘텐츠의 핑거프린트(xi)와의 정합을 이용하여 콘텐츠 인식을 하는 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법으로써,
    (A) 상기 원본 콘텐츠의 핑거프린트(xi) 및 상기 왜곡된 콘텐츠의 핑거프린트(xi,j)로 구성된 훈련 데이터(training data)를 마련하는 단계와,
    (B) 상기 훈련 데이터를 이용하여 향상된 인식 성능을 낼 수 있는 디스턴스 메트릭을 학습(learning)을 통해 결정하는 단계를 포함하고,
    상기 (B) 단계는,
    (B-1) 상기 디스턴스 메트릭을 파라미터화하여 파라미터화된 디스턴스 메트릭을 생성하는 단계(S 210)와,
    (B-2) 상기 원본 콘텐츠의 핑거프린트(xi)와 상기 왜곡된 콘텐츠의 핑거프린트(xi,j) 사이의 거리는 작게 만들고, 상기 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리는 크게 만들 때 최소화되는 비용 함수[ε(A)]를 생성하는 단계(S 220)와,
    (B-3) 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾아 상기 디스턴스 메트릭의 각 파라미터를 결정하는 단계(S 230)를 포함하고,
    상기 (B-2) 단계에서 상기 비용 함수[ε(A)]는 하기의 수학식에 의해 정의되는 것을 특징으로 하는, 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법.
    Figure 112011037387688-pat00015
    [단, [z]+ = max(z, 0)이고, M 은 여유분(margin)을 나타내며,
    Figure 112011037387688-pat00016
    는 왜곡된 콘텐츠의 핑거프린트(xi,j)에 가장 근접한 비정합 핑거프린트임]
  5. 원본 콘텐츠에 대한 왜곡된 콘텐츠로부터 추출된 왜곡된 콘텐츠의 핑거프린트(xi,j)와 원본 콘텐츠의 핑거프린트(xi)와의 정합을 이용하여 콘텐츠 인식을 하는 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법으로써,
    (A) 상기 원본 콘텐츠의 핑거프린트(xi) 및 상기 왜곡된 콘텐츠의 핑거프린트(xi,j)로 구성된 훈련 데이터(training data)를 마련하는 단계와,
    (B) 상기 훈련 데이터를 이용하여 향상된 인식 성능을 낼 수 있는 디스턴스 메트릭을 학습(learning)을 통해 결정하는 단계를 포함하고,
    상기 (B) 단계는,
    (B-1) 상기 디스턴스 메트릭을 파라미터화하여 파라미터화된 디스턴스 메트릭을 생성하는 단계(S 210)와,
    (B-2) 상기 원본 콘텐츠의 핑거프린트(xi)와 상기 왜곡된 콘텐츠의 핑거프린트(xi,j) 사이의 거리는 작게 만들고, 상기 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리는 크게 만들 때 최소화되는 비용 함수[ε(A)]를 생성하는 단계(S 220)와,
    (B-3) 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾아 상기 디스턴스 메트릭의 각 파라미터를 결정하는 단계(S 230)를 포함하고,
    상기 (B-2) 단계에서 상기 비용 함수[ε(A)]는 볼록 함수인 것을 특징으로 하는, 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법.
  6. 원본 콘텐츠에 대한 왜곡된 콘텐츠로부터 추출된 왜곡된 콘텐츠의 핑거프린트(xi,j)와 원본 콘텐츠의 핑거프린트(xi)와의 정합을 이용하여 콘텐츠 인식을 하는 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법으로써,
    (A) 상기 원본 콘텐츠의 핑거프린트(xi) 및 상기 왜곡된 콘텐츠의 핑거프린트(xi,j)로 구성된 훈련 데이터(training data)를 마련하는 단계와,
    (B) 상기 훈련 데이터를 이용하여 향상된 인식 성능을 낼 수 있는 디스턴스 메트릭을 학습(learning)을 통해 결정하는 단계를 포함하고,
    상기 (B) 단계는,
    (B-1) 상기 디스턴스 메트릭을 파라미터화하여 파라미터화된 디스턴스 메트릭을 생성하는 단계(S 210)와,
    (B-2) 상기 원본 콘텐츠의 핑거프린트(xi)와 상기 왜곡된 콘텐츠의 핑거프린트(xi,j) 사이의 거리는 작게 만들고, 상기 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리는 크게 만들 때 최소화되는 비용 함수[ε(A)]를 생성하는 단계(S 220)와,
    (B-3) 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾아 상기 디스턴스 메트릭의 각 파라미터를 결정하는 단계(S 230)를 포함하고,
    상기 (B-3) 단계에서 상기 비용 함수[ε(A)]가 최소화되는 경우를 찾는 것은 투영 구배법(projected gradient method)을 이용하는 것을 특징으로 하는, 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법.
KR1020090094063A 2009-10-01 2009-10-01 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법 KR101071728B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090094063A KR101071728B1 (ko) 2009-10-01 2009-10-01 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090094063A KR101071728B1 (ko) 2009-10-01 2009-10-01 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법

Publications (2)

Publication Number Publication Date
KR20110036407A KR20110036407A (ko) 2011-04-07
KR101071728B1 true KR101071728B1 (ko) 2011-10-11

Family

ID=44044358

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090094063A KR101071728B1 (ko) 2009-10-01 2009-10-01 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법

Country Status (1)

Country Link
KR (1) KR101071728B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101494309B1 (ko) * 2013-10-16 2015-02-23 강릉원주대학교산학협력단 디지털 컨텐츠를 위한 비대칭형 핑거프린트 정합 시스템 및 그 제공방법
US10939185B2 (en) 2016-01-05 2021-03-02 Gracenote, Inc. Computing system with channel-change-based trigger feature
US10506275B1 (en) 2018-07-16 2019-12-10 Gracenote, Inc. Dynamic control of fingerprinting rate to facilitate time-accurate revision of media content
KR102245206B1 (ko) * 2019-12-19 2021-04-27 서울대학교산학협력단 지문 추출 장치 및 방법
US20220222231A1 (en) * 2021-01-13 2022-07-14 Coupang Corp. Computerized systems and methods for using artificial intelligence to optimize database parameters

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072895A (en) 1996-12-13 2000-06-06 International Business Machines Corporation System and method using minutiae pruning for fingerprint image processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072895A (en) 1996-12-13 2000-06-06 International Business Machines Corporation System and method using minutiae pruning for fingerprint image processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Rank-based distance metric learning: An application to image retrieval(IEEE Conference on Computer Vision and Pattern Recognition, 2008. CVPR 2008. 2008.06.28.)

Also Published As

Publication number Publication date
KR20110036407A (ko) 2011-04-07

Similar Documents

Publication Publication Date Title
Ke et al. Computer vision for music identification
CN100485665C (zh) 概念模型空间中的内容表示和检索的方法和设备
Kim et al. MPEG-7 audio and beyond: Audio content indexing and retrieval
KR101071728B1 (ko) 핑거 프린팅 시스템의 정합 과정에서 사용하는 디스턴스 메트릭을 학습을 통해서 결정하는 방법
WO2005114557A2 (en) Multimodal high-dimensional data fusion for classification and identification
Alphonse et al. A multi-scale and rotation-invariant phase pattern (MRIPP) and a stack of restricted Boltzmann machine (RBM) with preprocessing for facial expression classification
Tian et al. Can audio-visual integration strengthen robustness under multimodal attacks?
Kour et al. Music genre classification using MFCC, SVM and BPNN
Tomašev et al. The influence of hubness on nearest-neighbor methods in object recognition
Rida et al. Forensic shoe-print identification: a brief survey
Radha Video retrieval using speech and text in video
JP2004054957A (ja) データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体
Ding Jr et al. Hand gesture intention-based identity recognition using various recognition strategies incorporated with VGG convolution neural network-extracted deep learning features
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
Bhati et al. Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings.
Kumar et al. Semi-supervised annotation of faces in image collection
Shah et al. Speech recognition using spectrogram-based visual features
US11699044B1 (en) Apparatus and methods for generating and transmitting simulated communication
Krishnamoorthy et al. Hierarchical audio content classification system using an optimal feature selection algorithm
Aryafar et al. Multimodal music and lyrics fusion classifier for artist identification
Jang et al. Fingerprint matching based on distance metric learning
Li et al. Acoustic event diarization in TV/movie audios using deep embedding and integer linear programming
Levy et al. Classification of audio signals using spectrogram surfaces and extrinsic distortion measures
Radha et al. Improving recognition of speech system using multimodal approach
Haritha et al. Face recognition algorithm based on doubly truncated gaussian mixture model using hierarchical clustering algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140930

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee