KR101737045B1 - 유사중복 이미지 검출 장치 및 방법 - Google Patents

유사중복 이미지 검출 장치 및 방법 Download PDF

Info

Publication number
KR101737045B1
KR101737045B1 KR1020150132697A KR20150132697A KR101737045B1 KR 101737045 B1 KR101737045 B1 KR 101737045B1 KR 1020150132697 A KR1020150132697 A KR 1020150132697A KR 20150132697 A KR20150132697 A KR 20150132697A KR 101737045 B1 KR101737045 B1 KR 101737045B1
Authority
KR
South Korea
Prior art keywords
image
feature value
query
feature
candidate
Prior art date
Application number
KR1020150132697A
Other languages
English (en)
Other versions
KR20170034266A (ko
Inventor
김현우
Original Assignee
주식회사 카카오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오 filed Critical 주식회사 카카오
Priority to KR1020150132697A priority Critical patent/KR101737045B1/ko
Publication of KR20170034266A publication Critical patent/KR20170034266A/ko
Application granted granted Critical
Publication of KR101737045B1 publication Critical patent/KR101737045B1/ko

Links

Images

Classifications

    • G06F17/30277
    • G06F17/30256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

쿼리 이미지의 유사중복(near duplicate) 이미지를 검출하는 장치로서, 데이터베이스에 저장된 이미지들의 특징값을 관리하는 특징값 관리부, 그리고 상기 쿼리 이미지의 특징값을 계산하고, 상기 특징값 관리부에서 추출한 데이터베이스 이미지의 특징값과 상기 쿼리 이미지의 특징값을 기초로 상기 데이터베이스 이미지와 상기 쿼리 이미지의 거리를 계산하며, 상기 거리를 기초로 상기 데이터베이스 이미지가 상기 쿼리 이미지와 유사중복되는 이미지인지 판단하는 판단부를 포함하며, 각 이미지의 특징값은 해당 이미지의 전체 영역을 표현하는 원본 특징값과 상기 전체 영역에서 잘라낸 일부 영역을 표현하는 크롭(cropped) 특징값을 포함한다.

Description

유사중복 이미지 검출 장치 및 방법{APPARATUS AND METHOD FOR DETECTING NEAR DUPLICATE IMAGE}
본 발명은 이미지 검출 기술에 관한 것이다.
유사중복 이미지 검출(near duplicate image detection) 기술은 대용량 이미지 처리 및 분석의 핵심 기술이다. 비주얼 검색 엔진에서 중복 이미지는 스팸 이미지로 간주되거나 유용한 이미지로 간주될 수 있다. 대량의 이미지 데이터베이스에서 유사 이미지를 찾는 것은 쉽지 않고, 가장 가까운 이웃을 찾는 일반적인 이미지 검색과 다르다. 유사중복 이미지 검출은 참/거짓 양성(포지티브, positives)을 제어하는 임계값을 기초로 참/거짓 질문에 대한 답을 결정한다.
종래의 유사중복 이미지 검출 방법은 문서 처리에서 응용된 해시 기반 접근 방식을 기반으로 하였다. 이미지 검색 엔진이 고차원 특징 공간(feature space)에서 측정한 거리를 기초로 유사 이미지를 검색하는 반면, 유사중복 이미지 검출기는 이진 코드들 간의 해시키 충돌을 카운트함으로써 지각적/시각적으로 동일한 이미지를 찾는다.
지금까지 소개된 유사중복 이미지 검출 방법 중에서, 시점 변화와 부분적 폐색(occlusion)에 강인한 지역 기술자(local descriptor)를 이용한 방법이 있지만, 계산 비용이 비싼 단점이 있다. 이미지의 전역 특징(global features)을 PCA(Principal component analysis)를 이용하여 저차원의 벡터로 변환하고, 이를 해시 코드로 양자화하는 유사중복 이미지 검출 방법도 있다. 그러나 대량의 이미지를 빠르고 효율적으로 분석하여 유사중복 이미지를 검출하는데 한계가 있다.
본 발명이 해결하고자 하는 과제는 대량의 이미지를 빠르고 효율적으로 분석하고, 원본 이미지 변형에 강인한 특징값을 이용하여 유사중복 여부를 판별하는 유사중복 이미지 검출 장치 및 방법을 제공하는 것이다.
본 발명의 한 실시예에 따른 쿼리 이미지의 유사중복(near duplicate) 이미지를 검출하는 장치로서, 데이터베이스에 저장된 이미지들의 특징값을 관리하는 특징값 관리부, 그리고 상기 특징값 관리부에서 추출한 데이터베이스 이미지의 특징값과 쿼리 이미지의 특징값을 기초로 상기 데이터베이스 이미지와 상기 쿼리 이미지의 거리를 계산하고, 상기 거리를 기초로 상기 데이터베이스 이미지가 상기 쿼리 이미지와 유사중복되는 이미지인지 판단하는 판단부를 포함하며, 각 이미지의 특징값은 해당 이미지의 전체 영역을 표현하는 원본 특징값과 상기 전체 영역에서 잘라낸 일부 영역을 표현하는 크롭(cropped) 특징값을 포함한다.
각 이미지의 특징값은 상기 원본 특징값과 상기 크롭 특징값이 결합된 값일 수 있다.
상기 판단부는 상기 쿼리 이미지에서 추출된 상기 원본 특징값과 상기 크롭 특징값 중 어느 하나의 값과, 상기 데이터베이스 이미지에서 추출된 상기 원본 특징값과 상기 크롭 특징값 중 어느 하나의 값을 비교하여 상기 데이터베이스 이미지와 상기 쿼리 이미지의 거리를 계산할 수 있다.
상기 원본 특징값과 상기 크롭 특징값 중 적어도 하나는 이미지의 전역 특징(global feature)을 표현하는 기술자(descriptor)에 의해 생성되는 이진 코드일 수 있다.
상기 기술자는 GIST 기술자일 수 있다.
상기 특징값 관리부는 각 이미지의 특징값에서 일정 비트의 키 코드를 추출하고, 동일한 키 코드를 가지는 이미지들을 해당 키 코드의 해시 버킷에 저장하며, 상기 판단부는 상기 쿼리 이미지의 특징값에서 일정 비트의 쿼리 키 코드를 추출하고, 상기 특징값 관리부에 저장된 키 코드들 중에서 상기 쿼리 키 코드와의 거리가 일정 거리 이내인 적어도 하나의 후보 키 코드를 추출하며, 상기 후보 키 코드의 해시 버킷에 저장된 이미지를 유사중복 후보 이미지로 결정할 수 있다.
상기 판단부는 상기 유사중복 후보 이미지와 상기 쿼리 이미지의 거리를 계산하며, 계산한 거리가 임계값 이하인 경우, 상기 유사중복 후보 이미지를 상기 쿼리 이미지의 유사중복 이미지로 검출할 수 있다.
본 발명의 다른 실시예에 따른 장치가 쿼리 이미지의 유사중복(near duplicate) 이미지를 검출하는 방법으로서, 후보 이미지들과 쿼리 이미지 각각의 특징값을 생성하는 단계, 상기 쿼리 이미지와 각 후보 이미지의 특징값을 비교하여 상기 쿼리 이미지와 각 후보 이미지의 거리를 계산하는 단계, 그리고 상기 후보 이미지들 중에서 상기 쿼리 이미지와의 거리가 일정 거리 이내인 후보 이미지를 상기 쿼리 이미지의 유사중복 이미지로 검출하는 단계를 포함하고, 각 이미지의 특징값은 해당 이미지의 전체 영역을 표현하는 원본 특징값과 상기 전체 영역에서 잘라낸 일부 영역을 표현하는 크롭(cropped) 특징값이 결합된 값일 수 있다.
상기 유사중복 이미지 검출 방법은 상기 쿼리 이미지의 특징값에서 일정 비트의 키 코드를 추출하는 단계, 그리고 데이터베이스에 저장된 이미지들 중에서 상기 키 코드를 특징값으로 가지는 적어도 하나의 이미지를 상기 후보 이미지로 추출하는 단계를 더 포함할 수 있다.
상기 후보 이미지로 추출하는 단계는 상기 데이터베이스에 저장된 이미지들 각각의 특징값에서 해당 이미지의 키 코드를 추출하는 단계, 상기 데이터베이스에 저장된 이미지들 중에서 동일한 키 코드를 가지는 이미지를 동일한 버킷에 저장하여 상기 데이터베이스에 저장된 이미지들을 복수의 버킷으로 분류하는 단계, 상기 쿼리 이미지의 키 코드를 기초로 상기 복수의 버킷 중 적어도 하나의 버킷을 선택하는 단계, 그리고 선택한 버킷으로 분류된 적어도 하나의 이미지를 상기 후보 이미지로 결정하는 단계를 포함할 수 있다.
상기 특징값을 생성하는 단계는 특정 이미지의 전체 영역을 표현하는 상기 원본 특징값을 추출하는 단계, 상기 특정 이미지에서 일부 영역을 잘라내는 단계, 잘라낸 일부 영역의 전역 특징을 표현하는 상기 크롭 특징값을 추출하는 단계, 그리고 상기 원본 특징값과 상기 크롭 특징값을 결합하여 상기 특정 이미지의 특징값을 생성하는 단계를 포함하고, 상기 특정 이미지는 상기 후보 이미지들과 상기 쿼리 이미지 중 어느 하나일 수 있다.
상기 원본 특징값과 상기 크롭 특징값 중 적어도 하나는 이미지의 전역 특징(global feature)을 표현하는 기술자(descriptor)에 의해 생성되는 이진 코드일 수 있다.
본 발명의 또 다른 실시예에 따른 장치가 유사중복(near duplicate) 이미지를 검출하는 방법으로서, 제1 이미지로부터 추출된 다중 이미지를 이용하여 상기 제1 이미지의 제1 특징값을 생성하는 단계, 제2 이미지로부터 추출된 다중 이미지를 이용하여 상기 제2 이미지의 제2 특징값을 생성하는 단계, 상기 제1 특징값과 상기 제2 특징값의 거리를 계산하는 단계, 그리고 상기 거리와 임계값을 비교하여 상기 제1 이미지와 상기 제2 이미지의 유사중복 여부를 판단하는 단계를 포함하고, 상기 다중 이미지는 원본 이미지와 적어도 하나의 크롭(cropped) 이미지를 포함하고, 상기 크롭 이미지는 상기 원본 이미지로부터 잘라낸 일정 크기의 이미지이다.
상기 제1 특징값은 상기 제1 이미지의 원본 이미지와 크롭 이미지 각각의 특징값이 연결된 값이고, 상기 제2 특징값은 상기 제2 이미지의 원본 이미지와 크롭 이미지 각각의 특징값이 연결된 값일 수 있다.
상기 특징값은 전역 기술자(global descriptor)에 의해 생성되는 이진 코드일 수 있다.
본 발명의 실시예에 따르면 이미지 변형에 강인한 특징값을 이용하기 때문에 이미지가 다양하게 변형되더라도 오류없이 유사중복 이미지를 검출할 수 있다. 특히 본 발명의 실시예에 따르면 GIST 기술자 등과 같이 전역 특징을 표현하는 기술자를 사용할 때 발생할 수 있는 성능 저하를 방지할 수 있다. 본 발명의 실시예에 따르면 키 코드 테이블을 이용하여 이미지 탐색 범위를 줄일 수 있기 때문에, 대량의 이미지들 중에서 쿼리 이미지와 유사중복되는 이미지를 빠르게 찾을 수 있다.
도 1은 본 발명의 한 실시예에 따른 유사중복 이미지 검출 장치의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 특징값 분해를 설명하는 도면이다.
도 3은 원본 이미지에서 변형된 다양한 유사중복 이미지를 예시적으로 나타내는 도면이다.
도 4는 본 발명의 한 실시예에 따른 크롭 이미지를 이용한 특징값 추출 방법을 설명하는 도면이다.
도 5와 도 6 각각은 본 발명의 한 실시예에 따른 크롭 이미지를 이용한 유사중복 이미지 검출 방법을 설명하는 도면이다.
도 7은 본 발명의 한 실시예에 따른 유사중복 이미지 검출 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 한 실시예에 따른 유사중복 이미지 검출 장치의 구성도이고, 도 2는 본 발명의 한 실시예에 따른 특징값 분해를 설명하는 도면이다.
도 1을 참고하면, 유사중복 이미지 검출 장치(앞으로 "이미지 검출 장치"라고 부른다)(100)는 데이터베이스에 저장된 이미지들 중에서, 쿼리(query) 이미지와 중복되는 이미지를 검출한다. 이미지 검출 장치(100)는 데이터베이스(110), 특징값 관리부(130), 쿼리 이미지 입력부(150), 그리고 유사중복 판단부(170)를 포함한다. 이미지 검출 장치(100)는 적어도 하나의 프로세서를 통해 데이터베이스(110), 특징값 관리부(130), 쿼리 이미지 입력부(150), 그리고 유사중복 판단부(170)의 동작을 처리할 수 있다.
데이터베이스(110)는 복수의 이미지들을 저장한다.
특징값 관리부(130)는 데이터베이스(110)에 저장된 이미지들의 특징값을 추출하여 저장한다. 특징값은 이미지 표현 기술자(descriptor)로 생성되는 이진 코드일 수 있다. 예를 들면, 특징값은 이미지의 전역 특징(global features)을 나타내는 기술자(예를 들면, GIST 기술자)로 표현될 수 있고, PCA(Principal Component Analysis) 변환되어 해시 함수로 양자화된 이진 코드일 수 있다.
도 2를 참고하면, 특징값은 m비트의 이진 코드일 수 있고, 길이는 설정에 따라 달라질 수 있다. 특징값의 길이가 길어지는 경우, 특징값 비교에 소요되는 시간이 증가한다. 따라서, 특징값 관리부(130)는 이미지 검출 속도를 높이기 위해 특징값을 적어도 두 개로 분해(decomposition)하여 관리할 수 있다. m비트의 이진 코드는 상위 l비트의 코드와 나머지 (m-l)비트의 코드(residual binary code)로 분해될 수 있다. 상위 l비트의 코드는 키 코드(key code 또는 hash key)로서, 유사중복 이미지를 찾는데 사용되는 색인(index) 정보로 사용된다.
특징값 관리부(130)는 키 코드들을 키 코드 테이블로 관리하고, 키 코드별 해시 버킷에 키 코드를 특징값으로 가지는 이미지들을 저장한다. 키 코드가 l비트인 경우, 키 코드 테이블은 2l의 크기로 구축될 수 있다. 특정 키 코드의 해시 버킷에 저장된 이미지들은 동일한 키 코드를 가지는 이미지들이므로, 어느 정도 유사성이 있는 이미지들로 볼 수 있다.
쿼리 이미지 입력부(150)는 쿼리 이미지를 입력받는다.
유사중복 판단부(170)는 쿼리 이미지의 특징값을 추출한다. 유사중복 판단부(170)는 특징값 관리부(130)에 저장된 이미지들의 특징값과 쿼리 이미지의 특징값을 비교하여 두 이미지 사이의 거리를 계산한다. 유사중복 판단부(170)는 거리를 기초로 데이터베이스(110)에 저장된 이미지들 중에서 쿼리 이미지와 유사중복되는 이미지를 검출한다. 여기서, 유사중복 판단부(170)는 해밍 거리(Hamming distance, dH)를 이용하고, 거리 임계값(threshold)을 설정하여 유사중복 여부를 판단할 수 있다.
유사중복 판단부(170)는 쿼리 이미지의 특징값에서 키 코드(쿼리 키 코드)를 추출하고, 키 코드 테이블에서 쿼리 키 코드와의 거리가 임계값(dkey) 이내인 후보 키 코드들을 추출한다. 유사중복 판단부(170)는 후보 키 코드들 각각에 연결된 해시 버킷(후보 버킷)을 찾고, 후보 버킷에 저장된 이미지들을 후보 이미지로 추출한다. 그리고, 유사중복 판단부(170)는 쿼리 이미지와 각 후보 이미지의 거리를 기초로 후보 이미지들 중에서 쿼리 이미지와 유사중복되는 이미지를 검출한다. 이와 같이, 유사중복 판단부(170)는 일정 크기[예를 들면, 임계값(dkey)]의 해밍 볼(Hamming ball)에 포함된 키 코드들을 선택하여 탐색 범위를 줄인다. 따라서, 유사중복 판단부(170)는 대량의 이미지들 중에서 쿼리 이미지와 유사중복 가능성이 있는 후보 버킷과 후보 이미지를 빠르게 찾을 수 있다.
쿼리 이미지(xq)의 특징값을 나타내는 이진 코드가 해시 코드[h(xq)]라고 가정하면, 해시 코드[h(xq)]는 키 코드[h1(xq)]와 나머지 코드[h2(xq )]로 분해될 수 있다. 먼저, 유사중복 판단부(170)는 수학식 1과 같이, 키 코드 사이의 해밍 거리(dH)를 임계값과 비교한다. 즉, 쿼리 이미지(xq)의 키 코드[h1(xq)]와의 해밍 거리가 임계값(dkey) 이내인 후보 버킷[
Figure 112015091295398-pat00001
]을 찾는다. 그리고, 유사중복 판단부(170)는 후보 버킷[
Figure 112015091295398-pat00002
]에 속한 이미지들(xi)과 쿼리 이미지(xq)의 해밍 거리를 계산한다. 이때, 유사중복 판단부(170)는 이진 코드 전체를 이용하여 해밍 거리[
Figure 112015091295398-pat00003
]를 계산하거나, 키 코드와 나머지 코드 각각의 거리를 합산[
Figure 112015091295398-pat00004
]할 수 있다.
Figure 112015091295398-pat00005
유사중복 판단부(170)는 수학식 2와 같이 쿼리 이미지(xq)의 키 코드[h1(xq)]와의 해밍 거리가 제1 임계값(dkey) 이내이고, 동시에 쿼리 이미지(xq)의 전체 이진 코드(또는 키 코드를 제외한 나머지 코드)와의 해밍 거리가 제2 임계값(d 또는 dres=d-dkey) 이내인 이미지(xi)를 유사중복 이미지[
Figure 112015091295398-pat00006
]로 검출할 수 있다. 키 코드의 길이(l)와 임계값(dkey , d)은 시스템 설정에 따라 가변될 수 있다.
Figure 112015091295398-pat00007
도 3은 원본 이미지에서 변형된 다양한 유사중복 이미지를 예시적으로 나타내는 도면이다.
도 3을 참고하면, 원본 이미지(a)의 유사중복 이미지는 다양할 수 있다. (b)는 (a)보다 어둡게 처리된 이미지이고, (c)는 (a)보다 밝게 처리된 이미지이다. (d)와 (e)는 (a)의 가운데 부분을 잘라낸(cropped) 이미지이다. (f)와 (g)는 (a)의 가장자리에 프레임을 더한 이미지이다.
원본 이미지(a)와 각 유사중복 이미지(b부터 g)의 해밍 거리를 계산해보면 표 1과 같다. 이때, 거리 비교에 사용되는 각 이미지의 특징값은 전역 특징(global features)을 나타내는 GIST 기술자에 의해 생성된 128비트 이진 코드이다.
이미지 (b)
dark
(c)
bright
(d)
centercrop
(e)
centercrop
(f)
Border frame
(g)
Border frame
(a)와의 해밍거리 5 6 11 29 24 31
사람은 원본 이미지와 밝기가 다른 이미지이거나, 원본 이미지에서 가운데 부분만을 잘라낸 이미지이거나, 또는 원본 이미지에 프레임이 더해진 이미지라도, 원본 이미지(a)와 유사중복되는 이미지인지를 시각적으로 알 수 있다. 그러나, 유사중복 판단부(170)는 특징값을 이용한 거리 계산을 통해 유사중복 이미지를 판단하므로, 이미지의 변형 정도에 따라 변형된 이미지와 원본 이미지 사이의 유사중복 여부를 알아채기 어렵다. 특히 전역 기술자에 의해 표현되는 특징값의 영향으로, 원본 이미지에서 가운데 부분을 잘라낸 크롭 이미지[(d)와 (e)]와 원본 이미지에 프레임이 더해진 이미지[(f)와 (g)]는 표 1과 같이 해밍 거리가 큰 값으로 계산된다. 특히 임계값에 따라 이미지(e), (f), (g)가 이미지(a)와 유사중복되는 이미지가 아니라고 판단될 수 있다.
이와 같이, 이미지의 전역 특징을 나타내는 기술자는 유사중복 이미지 추출에 효과적임에도 불구하고, 이미지가 도 3과 같이 이미지의 일부만을 포함하거나 이미지에 프레임이 더해지는 경우 성능 저하가 발생한다. 다음에서 이러한 문제를 해결하기 위한 방법에 대해 자세히 설명한다.
도 4는 본 발명의 한 실시예에 따른 크롭 이미지를 이용한 특징값 추출 방법을 설명하는 도면이고, 도 5와 도 6 각각은 본 발명의 한 실시예에 따른 크롭 이미지를 이용한 유사중복 이미지 검출 방법을 설명하는 도면이다.
먼저 도 4를 참고하면, 원본 이미지의 가운데 영역만을 포함하거나 원본 이미지의 가장자리에 프레임이 더해진 이미지를 유사중복 이미지로 검출하지 못하는 문제를 해결하기 위해, 이미지 검출 장치(100)는 유사중복 판단 시 원본 이미지의 일부 영역(가운데 영역)을 잘라낸 이미지를 이용한다.
즉, 이미지 검출 장치(100)는 원본 이미지의 전체 영역을 나타내는 특징값과 함께, 원본 이미지의 일부 영역을 나타내는 특징값을 추출한다. 원본 이미지의 일부 영역은 원본 이미지에서 잘라낸 이미지이므로, 크롭(cropped) 이미지라고 부른다. 크롭 이미지는 원본 이미지의 일부 영역(예를 들면, 전체 영역의 90%에 해당하는 영역)를 포함하도록 추출될 수 있으나, 크롭 이미지의 크기는 설정에 따라 달라질 수 있다. 크롭 이미지는 원본 이미지의 가운데 영역을 잘라낸 이미지일 수 있으나, 반드시 가운데 영역일 필요는 없고 원본 이미지의 주요 영역을 포함하도록 잘라낸 이미지일 수 있다. 또한 이미지 검출 장치(100)는 원본 이미지로부터 잘라낸 크기가 다른 복수의 크롭 이미지를 사용할 수 있으나, 하나의 크롭 이미지를 사용하는 것으로 설명한다.
이와 같이, 이미지 검출 장치(100)는 특정 이미지로부터 추출된 다중 이미지를 이용하여 특정 이미지의 특징값을 생성하는데, 다중 이미지는 원본 이미지와 적어도 하나의 크롭 이미지를 포함한다. 이미지의 특징값은 원본 이미지의 특징값(feature_org)과 크롭 이미지의 특징값(feature_crop)을 포함한다.
도 5를 참고하면, 이미지 검출 장치(100)는 원본 이미지 특징값(feature_org)과 크롭 이미지 특징값(feature_crop)을 결합한 코드를 이미지의 특징값으로 사용할 수 있다. 따라서, 특징값의 길이는 2배로 늘어난다.
이를 위해 특징값 관리부(130)는 데이터베이스(110)에 저장된 원본 이미지들로부터 크롭 이미지를 추출한다. 그리고, 특징값 관리부(130)는 원본 이미지와 크롭 이미지의 특징값을 결합하여 데이터베이스에 저장된 이미지의 특징값(db_feature)을 생성한다.
유사중복 판단부(170)는 쿼리 이미지를 입력받으면, 쿼리 이미지로부터 크롭 이미지를 추출하고, 원본 쿼리 이미지와 크롭 쿼리 이미지의 특징값을 결합하여 쿼리 이미지 특징값(query_feature)을 생성한다.
유사중복 판단부(170)는 데이터베이스 이미지 특징값(db_feature)과 쿼리 이미지 특징값(query_feature)의 거리를 계산한다. 유사중복 판단부(170)는 거리를 기초로 쿼리 이미지와 데이터베이스 이미지의 유사중복 여부를 판단한다.
유사중복 판단부(170)는 도 1에서 설명한 바와 같이, 데이터베이스 이미지 특징값(db_feature)과 쿼리 이미지 특징값(query_feature) 각각을 키 코드와 나머지 코드로 분해하고, 키 코드 테이블을 기초로 유사중복 후보 이미지의 탐색 범위를 좁힐 수 있다.
도 6을 참고하면, 이미지 검출 장치(100)는 다중 이미지 각각의 특징값을 개별적으로 비교하고, 최소 거리를 기초로 유사중복 여부를 판단할 수 있다.
즉, 이미지 검출 장치(100)가 두 이미지의 거리를 비교하여 유사중복 여부를 판단하는 경우, 제1이미지의 특징값(feature_org)과 제1이미지의 크롭 이미지 특징값(feature_crop) 중 어느 하나와, 제2이미지의 특징값(feature_org)과 제2이미지의 크롭 이미지 특징값(feature_crop) 중 어느 하나의 거리를 계산한다.
이미지 검출 장치(100)는 4개의 거리값 중에서 어느 하나의 값을 선택하고, 선택한 값과 임계값을 비교하여 두 이미지의 유사중복 여부를 판단할 수 있다. 여기서, 이미지 검출 장치(100)는 4개의 거리값 중에서 가장 작은 거리값을 선택하여 거리 비교에 사용할 수 있다.
이를 위해, 특징값 관리부(130)는 데이터베이스(110)에 저장된 원본 이미지들로부터 크롭 이미지를 추출하고, 원본 이미지와 크롭 이미지 각각의 특징값(db_feature_org, db_feature_crop)을 생성한다.
유사중복 판단부(170)는 쿼리 이미지를 입력받으면, 쿼리 이미지로부터 크롭 이미지를 추출하고, 원본 쿼리 이미지와 크롭 쿼리 이미지 각각의 특징값(query_feature_org, query_feature_crop)을 생성한다.
유사중복 판단부(170)는 데이터베이스 이미지의 특징값(db_feature_org, db_feature_crop) 중 어느 하나와 쿼리 이미지의 특징값(query_feature_org, query_feature_crop) 중 어느 하나의 거리를 계산한다. 유사중복 판단부(170)는 4개의 거리값 중 어느 하나를 선택하여 쿼리 이미지와 데이터베이스 이미지의 유사중복 여부를 판단한다.
유사중복 판단부(170)는 도 1에서 설명한 바와 같이, 원본 이미지 특징값(feature_org)과 크롭 이미지 특징값(feature_crop) 중 적어도 하나의 특징값에서 키 코드를 추출할 수 있다.
유사중복 판단부(170)는 원본 이미지와 크롭 이미지 각각의 키 코드 테이블을 분리하여 관리할 수 있다. 이 경우, 유사중복 판단부(170)는 원본 이미지가 저장된 해시 버킷과 크롭 이미지가 저장된 해시 버킷을 병렬로 탐색하여 후보 버킷(후보 이미지)을 찾을 수 있다.
도 7은 본 발명의 한 실시예에 따른 유사중복 이미지 검출 방법의 흐름도이다.
도 7을 참고하면, 이미지 검출 장치(100)는 데이터베이스에 저장된 데이터베이스 이미지들 각각의 크롭 이미지를 추출한다(S110).
이미지 검출 장치(100)는 원본 데이터베이스 이미지와 크롭 데이터베이스 이미지 각각의 특징값(db_feature_org, db_feature_crop)을 결합하여 데이터베이스 이미지의 특징값을 생성한다(S120).
이미지 검출 장치(100)는 쿼리 이미지의 크롭 이미지를 추출한다(S130).
이미지 검출 장치(100)는 원본 쿼리 이미지와 크롭 쿼리 이미지 각각의 특징값(query_feature_org, query_feature_crop)을 결합하여 쿼리 이미지의 특징값을 생성한다(S140).
이미지 검출 장치(100)는 쿼리 이미지의 특징값과 데이터베이스 이미지들의 특징값을 이용하여 두 이미지 사이의 거리를 계산한다(S150). 이때, 이미지 검출 장치(100)는 데이터베이스 이미지들 중에서 유사중복 이미지일 가능성이 있는 후보 이미지들을 탐색하고, 후보 이미지들과 쿼리 이미지의 거리를 계산할 수 있다. 이미지 검출 장치(100)는 특징값을 키 코드와 나머지 코드로 분해하고, 수학식 1과 같이 키 코드 사이의 거리 계산을 통해 후보 이미지들을 포함하는 후보 버킷[
Figure 112015091295398-pat00008
]을 탐색할 수 있다. 이미지 검출 장치(100)는 후보 버킷에 속한 후보 이미지들과 쿼리 이미지의 거리를 계산한다.
이미지 검출 장치(100)는 쿼리 이미지와의 거리가 임계값보다 작은 데이터베이스 이미지를 유사중복 이미지로 검출한다(S160).
도 7에서, 단계(S110, S120)와 단계(S130, S140)는 병렬로 처리되는 것으로 설명하고 있으나, 단계(S110~S140)는 순차적으로 처리될 수 있다. 단계(S110, S120)는 단계(S130) 이전에 미리 수행되어 데이터베이스 이미지들의 특징값은 쿼리 이미지 입력 전에 미리 계산될 수 있다.
한편, 이미지 검출 장치(100)는 도 6을 참고로 설명한 바와 같이, 원본 데이터베이스 이미지와 크롭 데이터베이스 이미지 각각의 특징값(db_feature_org, db_feature_crop) 중 어느 하나와 원본 쿼리 이미지와 크롭 쿼리 이미지 각각의 특징값(query_feature_org, query_feature_crop) 중 어느 하나의 값을 개별적으로 비교하는 방식으로 쿼리 이미지와 데이터베이스 이미지의 거리를 계산할 수 있다.
이와 같이, 본 발명의 실시예에 따르면 로고 삽입, 이미지 크롭, 영상 압축 등 원본 이미지의 변형에 강인한 특징값을 이용하기 때문에 이미지가 사용자 또는 시스템을 거치면서 변형되더라도 효과적으로 유사중복 이미지를 검출할 수 있다. 특히 본 발명의 실시예에 따르면 GIST 기술자 등과 같이 전역 특징을 표현하는 기술자를 사용할 때 발생할 수 있는 성능 저하를 방지할 수 있다. 본 발명의 실시예에 따르면 키 코드 테이블을 이용하여 이미지 탐색 범위를 줄일 수 있기 때문에, 대량의 이미지들 중에서 쿼리 이미지와 유사중복된 이미지를 빠르게 찾을 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (15)

  1. 쿼리 이미지의 유사중복(near duplicate) 이미지를 검출하는 장치로서,
    데이터베이스에 저장된 이미지들의 특징값을 관리하는 특징값 관리부, 그리고
    상기 특징값 관리부에서 추출한 데이터베이스 이미지의 특징값과 쿼리 이미지의 특징값을 기초로 상기 데이터베이스 이미지와 상기 쿼리 이미지의 거리를 계산하고, 상기 거리를 기초로 상기 데이터베이스 이미지가 상기 쿼리 이미지와 유사중복되는 이미지인지 판단하는 판단부를 포함하며,
    각 이미지의 특징값은 해당 이미지의 전체 영역을 표현하는 원본 특징값과 상기 전체 영역에서 잘라낸 일부 영역을 표현하는 크롭(cropped) 특징값이 결합된 값인 유사중복 이미지 검출 장치.
  2. 삭제
  3. 제1항에서,
    상기 판단부는
    상기 쿼리 이미지에서 추출된 상기 원본 특징값과 상기 크롭 특징값 중 어느 하나의 값과, 상기 데이터베이스 이미지에서 추출된 상기 원본 특징값과 상기 크롭 특징값 중 어느 하나의 값을 비교하여 상기 데이터베이스 이미지와 상기 쿼리 이미지의 거리를 계산하는 유사중복 이미지 검출 장치.
  4. 제1항에서,
    상기 원본 특징값과 상기 크롭 특징값 중 적어도 하나는 이미지의 전역 특징(global feature)을 표현하는 기술자(descriptor)에 의해 생성되는 이진 코드인 유사중복 이미지 검출 장치.
  5. 제4항에서,
    상기 기술자는 GIST 기술자인 유사중복 이미지 검출 장치.
  6. 제1항에서,
    상기 특징값 관리부는
    각 이미지의 특징값에서 일정 비트의 키 코드를 추출하고, 동일한 키 코드를 가지는 이미지들을 해당 키 코드의 해시 버킷에 저장하며,
    상기 판단부는
    상기 쿼리 이미지의 특징값에서 일정 비트의 쿼리 키 코드를 추출하고, 상기 특징값 관리부에 저장된 키 코드들 중에서 상기 쿼리 키 코드와의 거리가 일정 거리 이내인 적어도 하나의 후보 키 코드를 추출하며, 상기 후보 키 코드의 해시 버킷에 저장된 이미지를 유사중복 후보 이미지로 결정하는 유사중복 이미지 검출 장치.
  7. 제6항에서,
    상기 판단부는
    상기 유사중복 후보 이미지와 상기 쿼리 이미지의 거리를 계산하며, 계산한 거리가 임계값 이하인 경우, 상기 유사중복 후보 이미지를 상기 쿼리 이미지의 유사중복 이미지로 검출하는 유사중복 이미지 검출 장치.
  8. 장치가 쿼리 이미지의 유사중복(near duplicate) 이미지를 검출하는 방법으로서,
    후보 이미지들과 쿼리 이미지 각각의 특징값을 생성하는 단계,
    상기 쿼리 이미지와 각 후보 이미지의 특징값을 비교하여 상기 쿼리 이미지와 각 후보 이미지의 거리를 계산하는 단계, 그리고
    상기 후보 이미지들 중에서 상기 쿼리 이미지와의 거리가 일정 거리 이내인 후보 이미지를 상기 쿼리 이미지의 유사중복 이미지로 검출하는 단계를 포함하고,
    각 이미지의 특징값은 해당 이미지의 전체 영역을 표현하는 원본 특징값과 상기 전체 영역에서 잘라낸 일부 영역을 표현하는 크롭(cropped) 특징값이 결합된 값인 유사중복 이미지 검출 방법.
  9. 제8항에서,
    상기 특징값을 생성하는 단계는,
    상기 쿼리 이미지의 특징값을 추출하는 단계,
    상기 쿼리 이미지의 특징값에서 일정 비트의 키 코드를 추출하는 단계,
    데이터베이스에 저장된 이미지들 중에서 상기 키 코드를 특징값으로 가지는 적어도 하나의 이미지를 상기 후보 이미지로 추출하는 단계, 그리고
    각 후보 이미지의 특징값을 추출하는 단계
    를 더 포함하는 유사중복 이미지 검출 방법.
  10. 제9항에서,
    상기 후보 이미지로 추출하는 단계는
    상기 데이터베이스에 저장된 이미지들 각각의 특징값에서 해당 이미지의 키 코드를 추출하는 단계,
    상기 데이터베이스에 저장된 이미지들 중에서 동일한 키 코드를 가지는 이미지를 동일한 버킷에 저장하여 상기 데이터베이스에 저장된 이미지들을 복수의 버킷으로 분류하는 단계,
    상기 쿼리 이미지의 키 코드를 기초로 상기 복수의 버킷 중 적어도 하나의 버킷을 선택하는 단계, 그리고
    선택한 버킷으로 분류된 적어도 하나의 이미지를 상기 후보 이미지로 결정하는 단계
    를 포함하는 유사중복 이미지 검출 방법.
  11. 제8항에서,
    상기 특징값을 생성하는 단계는
    특정 이미지의 전체 영역을 표현하는 상기 원본 특징값을 추출하는 단계,
    상기 특정 이미지에서 일부 영역을 잘라내는 단계,
    잘라낸 일부 영역의 전역 특징을 표현하는 상기 크롭 특징값을 추출하는 단계, 그리고
    상기 원본 특징값과 상기 크롭 특징값을 결합하여 상기 특정 이미지의 특징값을 생성하는 단계를 포함하고,
    상기 특정 이미지는 상기 후보 이미지들과 상기 쿼리 이미지 중 어느 하나인 유사중복 이미지 검출 방법.
  12. 제8항에서,
    상기 원본 특징값과 상기 크롭 특징값 중 적어도 하나는 이미지의 전역 특징(global feature)을 표현하는 기술자(descriptor)에 의해 생성되는 이진 코드인 유사중복 이미지 검출 방법.
  13. 장치가 유사중복(near duplicate) 이미지를 검출하는 방법으로서,
    제1 이미지로부터 추출된 다중 이미지 각각의 특징값을 결합하여 상기 제1 이미지의 제1 특징값을 생성하는 단계,
    제2 이미지로부터 추출된 다중 이미지 각각의 특징값을 결합하여 상기 제2 이미지의 제2 특징값을 생성하는 단계,
    상기 제1 특징값과 상기 제2 특징값의 거리를 계산하는 단계, 그리고
    상기 거리와 임계값을 비교하여 상기 제1 이미지와 상기 제2 이미지의 유사중복 여부를 판단하는 단계를 포함하고,
    상기 다중 이미지는 원본 이미지와 적어도 하나의 크롭(cropped) 이미지를 포함하고, 상기 크롭 이미지는 상기 원본 이미지로부터 잘라낸 일정 크기의 이미지인 유사중복 이미지 검출 방법.
  14. 삭제
  15. 제13항에서,
    상기 특징값은 전역 기술자(global descriptor)에 의해 생성되는 이진 코드인 유사중복 이미지 검출 방법.
KR1020150132697A 2015-09-18 2015-09-18 유사중복 이미지 검출 장치 및 방법 KR101737045B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150132697A KR101737045B1 (ko) 2015-09-18 2015-09-18 유사중복 이미지 검출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150132697A KR101737045B1 (ko) 2015-09-18 2015-09-18 유사중복 이미지 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170034266A KR20170034266A (ko) 2017-03-28
KR101737045B1 true KR101737045B1 (ko) 2017-05-17

Family

ID=58495648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150132697A KR101737045B1 (ko) 2015-09-18 2015-09-18 유사중복 이미지 검출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101737045B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102346705B1 (ko) * 2020-02-24 2022-01-03 군산대학교산학협력단 이미지 데이터베이스 생성 방법 및 이미지 데이터 검색 방법
KR20220098503A (ko) * 2021-01-04 2022-07-12 오드컨셉 주식회사 중복 이미지 검출 방법 및 장치

Also Published As

Publication number Publication date
KR20170034266A (ko) 2017-03-28

Similar Documents

Publication Publication Date Title
US8837769B2 (en) Video signature based on image hashing and shot detection
US8483427B2 (en) System and method for image authentication
US8358837B2 (en) Apparatus and methods for detecting adult videos
CN111949827B (zh) 视频抄袭检测方法、装置、设备和介质
KR100827229B1 (ko) 비디오 검색 장치 및 방법
CN106937114B (zh) 用于对视频场景切换进行检测的方法和装置
Li et al. Shot boundary detection based on multilevel difference of colour histograms
JP2010537585A (ja) 時間ベースメディア間の一致の検出と分類
EP3347856A1 (en) System and method for determining whether a product image includes a logo pattern
CA2710614C (en) Intrusion detection systems and methods
KR101634395B1 (ko) 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품
CN110019640B (zh) 涉密文件检查方法及装置
KR101737045B1 (ko) 유사중복 이미지 검출 장치 및 방법
Naik et al. Fuzzy-Import Hashing: A malware analysis approach
Steinebach et al. Efficient cropping-resistant robust image hashing
US7263208B1 (en) Automated threshold selection for a tractable alarm rate
Cho et al. Block-based image steganalysis for a multi-classifier
Chavan et al. An efficient method for fade and dissolve detection in presence of camera motion & illumination
US11586774B1 (en) Systems and methods for dynamic checksum generation and validation with customizable levels of integrity verification
KR101484531B1 (ko) 영상 조각 기반 희소 표현을 활용한 번호판 영역 검출 방법 및 시스템
EP3001415A1 (en) Method and apparatus for determining whether a specific watermark symbol out of one or more candidate watermark symbols is embedded in a current section of a received audio signal
Yu et al. Cumulant-based image fingerprints
JP2019169843A (ja) 映像記録装置、映像記録方法およびプログラム
US8761499B2 (en) System and method for detecting global harmful video
Sengee et al. Hierarchical Cluster Analysis Histogram Thresholding with Local Minima

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 6