KR101255841B1

KR101255841B1 - 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템

Info

Publication number: KR101255841B1
Application number: KR1020110001347A
Authority: KR
Inventors: 김병희; 이바도; 하성종; 조남익; 장병탁
Original assignee: 서울대학교산학협력단
Priority date: 2011-01-06
Filing date: 2011-01-06
Publication date: 2013-04-23
Also published as: KR20120079968A

Abstract

이미지 연관 검색 방법은 제1 이미지 데이터베이스 및 제2 이미지 데이터베이스를 기초로 이루어진다. 상기 이미지 연관 검색 방법은 (a) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들을 상기 시각단어들의 빈도로 표현하는 단계, (b) 상기 시각단어들의 빈도를 기초로 바이소스 토픽모델을 생성하는 단계 및 (c) 상기 바이소스 토픽모델을 이용하여 상기 제1 이미지 데이터베이스와 상기 제2 이미지 데이터베이스를 연관하여 이미지를 검색하는 단계를 포함한다.

Description

바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템 {METHOD AND SYSTEM FOR ASSOCIATIVE IMAGE SEARCH BASED ON BI-SOURCE TOPIC MODEL}

개시된 기술은 이미지 검색 기술에 관한 것으로, 특히 바이소스 토픽모델에 기반하여 이미지 간의 연관성을 계산하여 검색할 수 있는 이미지 연관 검색 방법 및 그 시스템에 관한 것이다.

디지털 데이터의 보편화와 멀티 미디어의 대중화에 따라, 다양한 종류의 데이터에 대한 검색 요구가 증대하고 있다. 텍스트 데이터를 대상으로 하는 검색 기술 분야는 문맥 검색 등 다양한 의미론적 검색 방법이 개발되어 사용되고 있는데 반해, 이미지 데이터를 대상으로 하는 검색 기술분야는 사람이 이미지에 직접 부여한 태그(Tag)를 이용하여 검색을 수행하고 있을 뿐, 이미지만으로 유효하게 연관 검색을 수행할 수 있는 기술은 아직 개발되지 않고 있는 실정이다.

실시예들 중에서, 이미지 연관 검색 방법은 제1 이미지 데이터베이스 및 제2 이미지 데이터베이스를 기초로 이루어진다. 상기 이미지 연관 검색 방법은 (a) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들을 상기 시각단어들의 빈도로 표현하는 단계, (b) 상기 시각단어들의 빈도를 기초로 바이소스 토픽모델을 생성하는 단계 및 (c) 상기 바이소스 토픽모델을 이용하여 상기 제1 이미지 데이터베이스와 상기 제2 이미지 데이터베이스를 연관하여 이미지를 검색하는 단계를 포함한다. 일 실시예에서, 상기 (a) 단계는 (a-1) 상기 제1 및 제2 이미지 데이터베이스 각각으로부터 랜덤하게 추출된 이미지 집합에 대하여 적어도 두 개의 시각단어들을 추출하는 단계 및 (a-2) 상기 제1 및 제2 이미지 데이터베이스 각각에 대하여, 해당 데이터베이스에 포함된 이미지들을 상기 시각단어들의 빈도로 표현하는 단계를 포함할 수 있다. 일 실시예에서, 상기 시각단어들의 빈도는 상기 시각단어들을 행(row)으로 하고 해당 이미지 데이터베이스에 포함된 이미지들을 열(column)으로 가지는 행렬 데이터일 수 있다. 일 실시예에서, 상기 (b) 단계는 (b-1) 상기 복수의 시각단어들에 포함된 각 시각단어에 대해 토픽을 할당할 확률분포를 계산하는 단계, (b-2) 상기 확률분포로부터 샘플링된 하나의 토픽을 해당 시각단어의 토픽으로 지정하는 단계 및 (b-3) (i)상기 제1 및 제2 이미지 데이터베이스 각각에 대한 토픽별 시각단어의 분포 및 (ii) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들에 대한 토픽분포를 계산하는 단계를 포함할 수 있다. 일 실시예에서, 상기 (b-1) 단계 및 (b-2) 단계는 뭉개진 깁스 샘플링(collapsed Gibbs sampling)을 이용하여 이루어질 수 있다. 일 실시예에서, 상기 (c) 단계는 (c-1) 질의 이미지의 상기 토픽분포와, 상기 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여 유사도를 계산하는 단계 및 (c-2) 상기 유사도가 높은 설정된 개수의 이미지들을 검색결과로서 출력하는 단계를 포함하고, 상기 질의 이미지는 상기 제1 이미지 데이터베이스에 포함될 수 있다. 일 실시예에서, 상기 유사도는 헬링거 거리(Hellinger distance) 또는 바타챠라 거리(Bhattacharyya distance)를 이용하여 계산될 수 있다. 일 실시예에서, 상기 이미지 연관 검색방법은 (d) 질의 이미지를 입력받아 상기 바이소스 토픽모델을 이용하여 상기 제1 및 상기 제2 이미지 데이터베이스와 연관하여 이미지를 검색하는 단계를 더 포함할 수 있다. 일 실시예에서, 상기 (d) 단계는 (d-1) 상기 질의 이미지에 대한 토픽분포를 계산하는 단계, (d-2) 상기 질의 이미지의 토픽분포와, 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여 유사도를 계산하는 단계 및 (d-3) 상기 유사도가 높은 설정된 개수의 이미지들을 검색결과로서 출력하는 단계를 포함할 수 있다. 일 실시예에서, 상기 (d-1) 단계는 (i) 상기 질의 이미지를 상기 시간단어들의 빈도로 표현하는 단계 및 (ii) 상기 제1 또는 제2 이미지 데이터베이스에 대한 토픽별 시각단어의 분포를 기초로 상기 질의 이미지에 대한 토픽분포를 계산하는 단계를 포함할 수 있다.

실시예들 중에서, 이미지 연관 검색 시스템은 질의 이미지와 연관된 적어도 하나의 검색 이미지를 출력할 수 있다. 상기 이미지 연관 검색 시스템은 복수의 이미지들을 저장하는 제1 및 제2 이미지 데이터베이스, 질의 이미지 및 상기 복수의 이미지들에 대하여 적어도 두 개의 시각단어들을 추출하여 상기 복수의 이미지들 각각을 상기 시각단어들의 빈도로 표현하는 시각단어 추출부, 상기 시각단어들의 빈도를 기초로 상기 시각단어 각각에 토픽을 지정하고, 상기 복수의 이미지들 각각에 대하여 토픽분포를 계산하는 바이소스 토픽모델링부 및 상기 토픽분포를 기초로 상기 질의 이미지와 상기 제1 및/또는 제2 이미지 데이터베이스에 포함된 이미지들 각각에 대하여 유사도를 계산하는 유사도 계산부를 포함한다. 일 실시예에서, 상기 제1 및 제2 이미지 데이터베이스는 각각 다른 출처의 이미지들을 저장할 수 있다. 일 실시예에서, 상기 시각단어 추출부는 상기 제1 및 제2 이미지 데이터베이스에서 랜덤하게 추출된 복수개의 이미지에 대하여 상기 시각단어들을 추출하여 상기 시각단어들의 빈도를 생성할 수 있다. 일 실시예에서, 상기 시각단어 추출부는 (i) 추출 빈도가 설정된 값 이하인 시각단어의 제거, (ii) 추출 대상 이미지들 전체에 대하여 추출 빈도의 평균이 설정된 값 이상인 시각단어의 제거 또는 (iii) 상기 시각단어들이 존재하지 않는 이미지의 제거 중 적어도 하나를 수행할 수 있다. 일 실시예에서, 상기 바이소스 토픽모델링부는 상기 복수의 시각단어들에 포함된 각 시각단어에 토픽을 할당할 확률분포를 계산하여, 상기 확률분포로부터 샘플링된 하나의 토픽을 해당 시각단어의 토픽으로 지정하는 토픽 할당부 및 (i)상기 제1 및 제2 이미지 데이터베이스 각각에 대한 토픽별 시각단어의 분포 및 (ii) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들에 대한 토픽분포를 계산하는 토픽분포 계산부를 포함할 수 있다. 일 실시예에서, 상기 토픽 할당부는 뭉개진 깁스 샘플링(collapsed Gibbs sampling)을 이용하여 상기 토픽을 지정할 수 있다. 일 실시예에서, 상기 유사도 계산부는 상기 질의 이미지의 상기 토픽분포와 상기 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여, 헬링거 거리(Hellinger distance) 또는 바타챠라 거리(Bhattacharyya distance)를 이용하여 유사도를 계산하고 상기 유사도가 높은 설정된 개수의 이미지들을 검색결과로서 출력할 수 있다.

도 1은 LDA(Latent Dirichlet Allocation)에 대한 확률 그래프 모델을 도시하는 개략도이다.
도 2은 바이소스 토픽모델에 대한 확률 그래프 모델을 도시하는 개략도이다.
도 3은 개시된 기술의 일 실시예에 따른 바이소스 토픽모델을 이용한 이미지 연관 검색 방법의 블록도이다.
도 4는 도 3의 바이소스 토픽모델을 이용한 이미지 연관 검색 방법의 순서도이다.
도 5는 도 4의 검색단계(단계 S430)에 대한 세부 순서도이다.
도 6는 개시된 기술의 일 실시예에 따른 이미지 연관 검색 시스템의 구성도이다.
도 7은 바이소스 토픽모델 기반의 이미지 연관 검색의 예시를 나타내는 참고도이다.
도 8은 이미지로부터 시각단어를 추출하는 과정을 개략적으로 도시하는 참고도이다.
도 9은 개시된 기술의 일 실시예에 다른 토픽수와 연관검색 성공률을 도시한 그래프이다.
도 10은 도 9 및 [표 2]에 의한 실시예에 대한 연관 검색 결과의 일례를 도시한 참고도이다.
도 11은 학습 데이터 내에서 기사 사진을 질의로 연관 상품의 사진을 검색한 결과의 예이다.

개시된 기술에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 개시된 기술의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 개시된 기술의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

"및/또는"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및/또는 제3 항목"의 의미는 제1, 제2 또는 제3 항목뿐만 아니라 제1, 제2 또는 제3 항목들 중 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미한다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c, … )는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

토픽 모델 기법은 문서 처리 분야에서 문서에 내재된 의미를 표현하기 위해 사용되는 통계적 기법이다. 토픽 모델 기법으로는 pLSI (probabilistic latent semantic indexing)[1], LDA (latent Dirichlet allocation)[2] 등의 기법이 있으며, 이를 기반으로 한 다양한 모델을 이용하여 PNAS, Science와 같은 저널 문서를 분석하여 과학 연구에서 토픽의 변화를 밝혀내거나[3-4] 인지과정 모델링을 수행하는데 활용하고 있다[5].

도 1은 LDA(Latent Dirichlet Allocation)에 대한 확률 그래프 모델을 도시하는 개략도이다.

LDA 기반 토픽 모델링 기법에서, 각 문서는 토픽의 분포에 대한 랜덤한 혼합체(mixture)로 표현되고, 각 토픽은 단어의 분포로 표현된다. LDA 기반 토픽 모델링 기법은 기존의 pLSI (probabilistic latent semantic indexing) 기반 토픽 표현기법[1]의 확장 기법이며, 의미론적 표현법의 새로운 패러다임으로 주목받고 있다[3][5]. 이 기법은 단순 문서 모델링 이외에도, PNAS 및 Science 저널에서 장기간에 걸친 논문의 토픽 변화 추세에 대한 모델링 [3-4], 이미지와 캡션 관계 모델링[6-8], 소셜 네트워크 추론[9] 등에 활용될 수 있다.

도 1을 참조하면, 각 타원은 확률 변수를 의미한다. 회색으로 채워진 타원 w는 관측변수이고, 채워지지 않은 타원은 은닉변수(latent variable)이다. α와 β는 확률변수의 분포 정의에 필요한 하이퍼파라미터이다. 여러 확률 변수를 포함하는 큰 직사각형은 플레이트(plate)라 하며, 포함하고 있는 확률 변수의 집합이 코너에 명시된 수(D, Nd, K) 만큼 중복이 됨을 의미한다. 도시된 화살표는 연결되는 두 변수 사이에 확률분포로 표현되는 통계적 관계가 있음을 의미한다. 각 화살표에 의해 표현되는 변수 사이의 확률분포에 대하여 설명하면, θ^(d)는 α에 대한 디리클레(Dirichlet) 분포를 의미하고, Z_i|θ^(d)는 θ^(d)에 대한 다항분포(Multinomial)를 의미한다. Φ^(z)는 β에 대한 디리클레 분포를 의미하고, W_i|Z_i _,Φ⁽ ^z _i ⁾는 Φ⁽ ^z _i ⁾에 대한 다항분포를 의미한다.

여기에서, D는 문서의 수, N_d는 d번째 문서를 구성하는 단어의 개수(d=1,…D), K는 토픽의 수,α는 d번째 문서에서의 토픽 분포벡터 및 분포벡터의 사전분포를 결정하는 하이퍼파라미터, w는 문서를 구성하는 단어, z는 단어 w에 할당되는 토픽의 인덱스(k=1,…, K 중 하나의 값), Φ^(z)는 토픽 배정값 z에 의해 선택되는 토픽의 단어 분포벡터, β는 토픽 단어분포벡터의 사전분포를 결정하는 하이퍼파라미터를 의미한다.

< Bi-Source 토픽 모델링 기법>

개시된 기술은 토픽 모델링 기법을 이용한 이미지 연관 검색 방법 및 그 시스템을 제시한다. 개시된 기술은 토픽 모델링 기법을 사용함으로써 다양한 출처로부터 생성된 관측 데이터를 기반으로 출처 간의 의미적 연관성을 학습할 수 있다. 개시된 기술은 출처가 다른 데이터들 간의 연관성을 표현하기 위하여 각 출처에 대하여 출처별 특성을 반영한 특성값 집합을 정의한 후, 상이한 출처들 사이에서 공통의 맥락을 표현하는 은닉 변수를 이용하여 연관성을 표현할 수 있다. 이러한 방법을 바이소스(bi-source) 토픽 모델(BSTM)이라 명하여, 이에 대하여 도 2를 참조하여 설명한다.

도 2는 바이소스 토픽모델(BSTM)에 대한 확률 그래프 모델을 도시하는 개략도이다. 바이소스 토픽모델(BSTM)은 LDA 기반 토픽 모델링 기법을 개량, 확장한 것으로서, LDA 기반 토픽 모델링 기법이 문서와 단어에 대하여 토픽 모델링을 수행하는데 반해, 바이소스 토픽모델(BSTM)은 이미지와 시각단어(Visual Word)를 대상으로 하여 토픽 모델링을 수행하는 차이점이 있다.

도 2를 참조하여 변수들 간의 확률분포에 대하여 설명하면,θ^(d)는 α에 대한 디리클레(Dirichlet) 분포를 의미하고, Z_i|θ^(d)는 θ^(d)에 대한 다항분포(Multinomial)를 의미한다. Φ_A ⁽ ^z ⁾및Φ_B ⁽ ^z ⁾는 π_A 및 π_B에 대한 디리클레 분포를 의미하고, I_A _,i|Z_i _,Φ_A ⁽ ^z _i ⁾ 및 I_B _,i|Z_i _,Φ_B ⁽ ^z _i ⁾는 Φ_A ⁽ ^z _i ⁾ 및 Φ_B ⁽ ^z _i ⁾에 대한 다항분포를 의미한다.

여기에서, I는 이미지에 포함된 시각단어를 의미하며, 출처 A의 시각단어는 I_A, 출처 B의 시각단어는I_B로 표기한다. Z는 단어 w에 할당된 토픽에 대한 인덱스이고,Φ_A ⁽ ^z ⁾는 토픽 배정값 z에 의해 결정된, 토픽의 소스 A에서의 시각단어 분포벡터를 의미한다. π_A 및 π_B는 소스 A 및 B에 대한 시각단어 분포벡터의 사전분포를 결정하는 하이퍼파라미터이다.

바이소스 토픽모델(BSTM)의 특징을 살펴보면, LDA 기반 토픽 모델링이 단일 문서 또는 단일 이미지 소스에 대한 토픽 모델인데 반하여, 바이소스 토픽모델(BSTM)은 두 개의 소스에 대한 공통 토픽 모델으로서 두 소스 간의 연관 관계를 직접 표현할 수 있다. 바이소스 토픽모델(BSTM)은 각 소스 별로 데이터를 표현하는 자질값 공간을 정의하고 있어, 소스 별 특징을 잘 반영할 수 있다. 바이소스 토픽모델(BSTM)은 두 소스에 대하여 학습을 수행함에도 불구하고, 그 학습에 필요한 계산시간은 LDA 기반 토픽 모델링과 비교하여 볼 때 점근적(asymptotic)으로 동일하다.

바이소스 토픽모델(BSTM)은, 수학식 1에 개시된 것과 같이, 뭉개진 깁스 샘플링(collapsed Gibbs sampling) 기법을 이용하여 사후확률 p(z|I_A,I_B)을 계산할 수 있다.

수학식1에서 N₁는 출처 A의 단어수, N₂는 출처 B의 단어 수, n_-I,j ⁽ ^iB ⁾는 단어 w가 현재 위치 i를 제외하고 j번째 토픽에 할당된 회수, n_-I,j ⁽ ^di ⁾는 문서 d에서 i번째 단어를 제외하고 j번째 토픽에 할당된 단어의 빈도를 나타낸다. 'ㆍ'은 현재 인덱스 i를 제외한 다른 모든 그림단어 및 그림의 인덱스, 하이퍼파라미터를 총괄하여 간략히 표현한 기호이다. 여기에서, 현재 시각단어 w_i가 두 출처 A, B에 모두 존재하면 wi=i_A=i_B가 되고, 한 쪽에만 포함되면(예를 들어, A에 포함되었다고 가정함) w_i=i_A, n_-I,j ⁽ ^iB ⁾⁼⁰이 된다. 뭉개진 깁스 샘플링 기법을 이용하여, 수학식 1의 확률 분포로부터 토픽 하나를 샘플링하여 해당 시각단어의 토픽으로 지정할 수 있다.

수학식 2 내지 수학식 4는, 깁스 샘플링의 처리 후 은닉변수 값을 추정하기 위해 사용될 수 있는 수학식이다.

바이소스 토픽모델에서 설정할 파라미터로는 α, π_A, π_B 및 토픽의 개수 K가 있다. α는 데이터 별로 포함되는 토픽의 수와 관련이 있다. π_A와 π_B 는 도 1에서 β에 상응하는 값으로, 이는 모델의 밀집도, 즉 토픽의 개수와 밀접한 관련이 있다. π_A와 π_B에 유사한 값을 부여함으로써 토픽의 수를 조절할 수 있다. α, π_A, π_B값에 대해 데이터를 기반으로 추정치를 구하는 것이 가능하나[2], 경험적인 값을 할당하여 계산 시간을 줄일 수 있다.

이하에서는 토픽의 수는 이미 알려져 있다고 가정하고 설명한다. 토픽 수의 자동적인 최적화에 대하여 비모수적 베이지안 통계를 이용할 수 있다[10]. 일 실시예에서, 해결하고자 하는 문제에 따라 정해지는 척도를 기준으로 다양한 토픽의 수에 대한 척도값을 비교함으로써 토픽 수에 대한 최적의 값을 선택하는 방식을 취할 수도 있다.

<기사-상품 연계 모델링의 예>

도 3은 개시된 기술의 일 실시예에 따른 바이소스 토픽모델을 이용한 이미지 연관 검색방법의 블록도이다.

도 3을 참조하면, 바이소스 토픽모델을 이용한 이미지 연관 검색방법은 제1 및 제2 이미지 데이터베이스에 포함된 이미지들을 상기 시각단어들의 빈도로 표현하고(단계 S310), 시각단어들의 빈도를 기초로 바이소스 토픽모델을 생성한 후(단계 S320), 토픽모델을 이용하여 제1 이미지 데이터베이스와 상기 제2 이미지 데이터베이스를 연관하여 이미지를 검색한다(단계 S330). 이하에서 도 4를 참조하여 도 3의 각 단계를 상세히 살펴본다.

도 4는 도 3에 따른 바이소스 토픽모델을 이용한 이미지 연관 검색방법의 순서도이다.

이하에서는 도 4을 참조하여 바이소스 토픽모델을 이용한 이미지 연관 검색방법에 대하여 설명한다. 제1 이미지 데이터베이스와 제2 이미지 데이터베이스는 각각 다른 출처의 이미지들을 저장한 것으로, 설명의 편의를 위해 제1 이미지 데이터베이스는 기사에 포함된 이미지들을 포함하고 있고, 제2 이미지 데이터베이스는 쇼핑몰에 포함된 상품 이미지를 저장하고 있는 것으로 가정하여 설명한다. 바이소스 토픽모델을 이용한 이미지 연관 검색방법은 제1 이미지 데이터베이스 및 제2 이미지 데이터베이스를 이용하여 학습을 수행할 수 있다.

개시된 기술의 일 실시예에 따른 바이소스 토픽 모델을 이용한 이미지 연관 검색방법은 제1 및 제2 이미지 데이터베이스에 포함된 이미지들을 상기 시각단어들의 빈도로 표현한다(단계 S410).

일 실시예에서, 단계 S410은 제1 및 제2 이미지 데이터베이스 각각으로부터 랜덤하게 추출된 이미지 집합에 대하여 적어도 두 개의 시각단어들을 추출하는 단계와, 제1 및 제2 이미지 데이터베이스에 포함된 이미지들을 시각단어들의 빈도로 표현하는 단계를 포함할 수 있다. 여기에서, 시각단어들의 빈도로 표현하는 단계는 제1 및 제2 이미지 데이터베이스 각각에 대하여 순차적 또는 독립적으로 수행될 수 있다.

시각단어들을 추출하는 경우, 학습을 위하여 충분한 수의 시각단어들을 추출할 수 있다. 이를 위하여, 다양한 그림의 특성을 반영할 수 있도록 시각단어들을 추출할 이미지들(제1 이미지 데이터베이스 및 제2 이미지 데이터베이스에 포함된 이미지들)을 충분히 구비하여 단계 S410을 수행할 수 있다.

이와 같이, 충분한 수의 시각단어들을 추출한 경우, 더 효율적인 검색을 위하여 시각단어들에 대한 필터링을 수행할 수 있다.

즉, 단계 S410에 대하여 시각단어 집합에 대하여 필터링을 수행하는 단계를 더 포함할 수 있다. 더 상세히 설명하면, 추출 빈도가 설정된 값 이하인 시각단어를 시각단어 집합에서 제거하거나, 이미지별 추출 빈도의 평균이 설정된 값 이상인 시각단어(즉, 모든 이미지에 대하여 공통적으로 나타나는 시각단어)를 시각단어 집합에서 제거할 수 있다. 이는 시각단어의 추출빈도가 너무 낮거나 모든 이미지에 공통적이라면, 토픽으로 사용하기에 적절하지 않기 때문이다. 이러한 시각단어의 삭제 후에, 시각단어가 존재하지 않는 이미지를 시각단어 집합에서 제거하여 필터링을 수행할 수 있다. 이러한 필터링은 전술한 세가지를 모두 실시할 수도 있고, 세가지 방법 중 적어도 하나 이상을 서로 조합하여 실시할 수도 있다.

일 실시예에서, 시각단어들의 빈도는 행렬 데이터로 표현될 수 있다. 시각단어들의 빈도를 행렬 데이터로 표현함으로써 시각단어에 대한 토픽지정 및 계산을 용이하게 할 수 있다. 예를 들어, 시각단어들을 행(row)으로 하고 해당 이미지 데이터베이스에 포함된 이미지들을 열(column)으로 가지는 행렬 데이터로서 표현할 수 있다.

이 후, 시각단어에 대해 토픽을 지정하고, 이를 기초로 이미지들에 대해 토픽분포를 계산함으로써 바이소스 토픽모델을 생성할 수 있다(단계 S420).

일 실시예에서, 단계 S420은 복수의 시각단어들에 포함된 각 시각단어에 대해 토픽을 할당할 확률분포를 계산하는 단계와, 확률분포로부터 샘플링된 하나의 토픽을 해당 시각단어의 토픽으로 지정하는 단계 및 (i)상기 제1 및 제2 이미지 데이터베이스 각각에 대한 토픽별 시각단어의 분포 및 (ii) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들에 대한 토픽분포를 계산하는 단계를 포함할 수 있다. 예를 들어, 바이소스 토픽모델을 생성한 결과로서, 각 이미지별 토픽분포, 제1 이미지 데이터베이스에 대한 토픽별 시각단어의 분포, 제2 이미지 데이터베이스에 대한 토픽별 시각단어의 분포를 얻을 수 있다.

다른 일 실시예에서, 토픽 지정 및 토픽분포를 계산하기 위하여, 뭉개진 깁스 샘플링을 이용할 수 있다. 뭉개진 깁스 샘플링에 대해서는, 수학식 1 내지 4를 참조하여 전술하였다.

이 후, 질의 이미지의 토픽분포와 유사한 토픽분포를 가진 이미지를 검색할 수 있다(단계 S430).

일 실시예에서, 질의 이미지는 제1 이미지 데이터베이스에 포함된 이미지라고 가정한다. 단계 S430은 질의 이미지의 토픽분포와, 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여 유사도를 계산하는 단계와, 유사도가 높은 설정된 개수의 이미지들을 검색결과로서 출력하는 단계를 포함할 수 있다.

일 실시예에서, 이미지 검색을 위하여 유사도를 계산하기 위하여 헬링거 거리(Hellinger distance) 또는 바타챠라 거리(Bhattacharyya distance)를 이용할 수 있다. 헬링거 거리와 바타챠라 거리의 구체적 계산 방법에 대해서는 이하에서 수학식 5 내지 7을 참조하여 설명한다.

수학식 5 내지 7를 참조하여, 유사도를 계산하는 구체적 방법에 대하여 설명한다. 바이소스 토픽모델(BSTM)에서 θ는 각 이미지들에 대한 토픽 분포를 의미한다. 바이소스 토픽모델에서 K개의 토픽이 결정된다면, 질의 이미지와 대상 이미지에 대하여 유사도를 계산할 수 있다. 유사도를 계산하기 위하여, 헬링거 거리를 이용하거나[10], 바타챠라 거리를 사용할 수 있다. 수학식 5는 헬링거 거리를 산출하는 식이고, 수학식 6 및 수학식 7는 바타챠라 계수를 산출하는 식이다.

도 5는 도 4의 검색단계(단계 S430)에 대한 세부 순서도이다. 전술한 바와 같이, 검색의 질의 이미지는 제1 또는 제2 이미지 데이터베이스에 존재할 수 도 있고-이 경우, 질의 이미지는 시각단어 추출단계를 거쳤으므로 토픽분포를 가지고 있음-, 아니면 새로이 입력받은 이미지일 수도 있다. 이러한 질의 이미지의 종류에 따라 검색단계는 분기되어 처리될 수 있다.

도 5를 참조하면, 질의 이미지를 입력 받으면(단계 S431), 질의 이미지가 제1 또는 제2 이미지 데이터베이스에 존재하는지 확인한다(단계 S432). 특정 이미지 데이터베이스에 존재하는 경우, 이미 질의 이미지에 대한 토픽분포가 생성되어 저장되어 있으므로, 해당 이미지 데이터베이스에 저장되어 있는 토픽분포를 이용하여 유사도를 계산하여 검색단계를 수행할 수 있다. 예를 들어, 질의 이미지가 제2 이미지 데이터베이스에 존재한다면, 제2 이미지 데이터베이스에 있는 질의 이미지의 토픽분포를 이용하여, 제1 이미지 데이터베이스에 존재하는 이미지들에 대하여 연관 검색을 수행할 수 있다.

질의 이미지가 어떤 이미지 데이터베이스에도 존재하지 않으면(단계 S432의 아니오의 경우), 이미 정의되어 있는 시각단어를 추출하여(단계 S434), 바이소스 토픽모델을 이용하여 시각단어별 토픽을 할당하는 단계를 수행할 수 있다(단계 S435). 여기에서, 질의 이미지는 이미 충분한 학습이 이루어지고 입력되는 것이므로, 시각단어는 제1 및 제2 이미지 데이터베이스에 대하여 바이소스 토픽모델을 수행하면서 기 정의되어 있다.

토픽이 할당되면, 질의 이미지에 대하여 토픽분포를 계산해내고(단계 S436), 계산된 질의 이미지의 토픽분포를 기초로, 제1 또는 제2 이미지 데이터베이스 중 적어도 하나에 포함된 이미지들과 유사도를 계산할 수 있다(단계 S437). 유사도의 계산은 전술한 바와 같이 헬링거 거리 또는 바타챠라 거리를 이용하여 계산될 수 있다.

11은 개시된 기술의 일 실시예에 따른 이미지 연관 검색 시스템의 구성도이다. 이미지 연관 검색 시스템은 학습에 사용될 수 있는 충분한 양의 이미지 데이터베이스(제1 및 제2 이미지 데이터 베이스)를 구비하고 있을 수 있으며, 이를 기초로 질의 이미지와 연관된 적어도 하나의 검색 이미지를 출력할 수 있다.

도 6를 참조하면, 이미지 연관 검색 시스템은 시각단어 추출부(610), 바이소스 토픽 모델링부(620), 유사도 계산부(630) 및 제1 이미지 데이터베이스(640a)와 제2 이미지 데이터베이스(640b)를 포함할 수 있다.

시각단어 추출부(610)는 질의 이미지와 제1 및 제2 이미지 데이터베이스에 포함되어 있는 이미지들에 대하여 적어도 두 개의 시각단어들을 추출하고, 각 이미지들을 시각단어들의 빈도로 표현할 수 있다.

일 실시예에서, 시각단어 추출부(610)는 제1 및 제2 이미지 데이터베이스에서 랜덤하게 추출된 복수개의 이미지에 대하여 시각단어들을 추출하여 시각단어들의 빈도를 생성할 수 있다. 즉, 모든 이미지들이 아닌 랜덤하게 선택된 충분한 수의 이미지들만을 대상으로 시각단어를 선정할 수 있다.

일 실시예에서, 시각단어 추출부(610)는 유효한 시각단어를 추려내기 위하여 소정의 샘플링 절차를 수행할 수 있다. 예를 들어, (i) 추출 빈도가 설정된 값 이하인 시각단어의 제거, (ii) 추출 대상 이미지들 전체에 대하여 추출 빈도의 평균이 설정된 값 이상인 시각단어의 제거 또는 (iii) 시각단어들이 존재하지 않는 이미지의 제거 중 적어도 하나를 수행할 수 있다.

일 실시예에서, 시각단어의 빈도는 행렬 데이터로 표현될 수 있다. 예를 들어, 시각단어들 N개의 행과, 이미지들 M개의 열을 가지는 행렬 데이터로 표현될 수 있다.

바이소스 토픽 모델링부(620)는 시각단어들의 빈도를 기초로 시각단어 각각에 대하여 토픽을 지정하고, 이미지들에 대하여 토픽분포를 계산한다. 바이소스 토픽 모델링부(620)는 시각단어 추출부(610)에서 생성된 시각단어들의 빈도(예를 들어 전술한 N*M의 행렬 데이터)를 입력받아 토픽분포를 계산한다. 예를 들어, 바이소스 토픽 모델링부(620)는 시각단어 추출부(610)가 생성한 시각단어 분포를 이용하여 각 시각단어에 대하여 토픽을 할당하고, 질의 이미지 내에 존재하는 토픽의 분포를 이용하여 질의 이미지에 대한 토픽 분포 히스토그램을 생성할 수 있다.

일 실시예에서, 바이소스 토픽 모델링부(620)는 토픽 할당부(621) 및 토픽분포 계산부(622)를 포함할 수 있다.

토픽 할당부(621)는 복수의 시각단어들에 포함된 각 시각단어에 토픽을 할당할 확률분포를 계산하고, 그 확률분포로부터 샘플링된 하나의 토픽을 해당 시각단어의 토픽으로 지정할수 있다.

토픽분포 계산부(622)는 질의 이미지와 제1 및 제2 이미지 데이터베이스에 대하여 토픽 분포를 생성할 수 있다. 예를 들어, i) 제1 및 제2 이미지 데이터베이스 각각에 대한 토픽별 시각단어의 분포 및 (ii) 제1 및 제2 이미지 데이터베이스에 포함된 이미지들에 대한 토픽분포를 계산할 수 있다.

일 실시예에서, 토픽 할당부(621)는 뭉개진 깁스 샘플링을 이용하여 토픽의 할당 확률을 계산할 수 있다. 뭉개진 깁스 샘플링을 기반으로 하는 바이소스 토픽모델에 대해서는, 도 2를 참조하여 전술한 바와 같다.

유사도 계산부(630)는 질의 이미지와 이미지 테이터베이스에 저장된 이미지들 간의 유사도를 계산한다. 즉, 유사도 계산부(630)는 토픽 분포를 이용하여 두 이미지 간의 유사도를 계산할 수 있다.

일 실시예에서, 질의 이미지가 제1 이미지 데이터베이스에 있는 경우, 질의 이미지와 제2 이미지 데이터베이스에 포함된 이미지들 각각에 대하여 토픽분포를 이용하여 유사도를 계산할 수 있다. 이를 위하여, 유사도 계산부(630)는 헬링거 거리값 또는 바타챠라 거리값을 이용할 수 있다.

다른 일 실시예에서, 질의 이미지가 어떠한 이미지 데이터베이스에도 존재하지 않으면, 바이소스 토픽모델링부(620)는 질의 이미지에 대하여 토픽분포를 계산하고, 계산된 질의 이미지의 토픽분포를 이용하여 유사도 계산부(630)는 제1 또는 제2 이미지 데이터베이스에 포함되어 있는 이미지들과 각각 유사도를 계산할 수 있다.

도 7는 바이소스 토픽모델 기반의 이미지 연관 검색의 예시를 나타내는 참고도이다.

도 7를 참조하면, 질의 이미지는 특정 기사에 포함된 그림이 되고, 거울 이미지와 벽시계 이미지는 상품에 관한 이미지이다. 전술한 가정에 의하면, 질의 이미지는 제1 이미지 데이터베이스 내에, 거울 이미지와 벽시계 이미지는 제2 이미지 데이터베이스 내에 존재한다.

바이소스 토픽 모델링을 통하여, 토픽 T1, T2, T3, T4를 지정하고, 각 이미지에 대하여 토픽분포를 계산할 수 있다. 질의 이미지(도면의 왼쪽 이미지)의 토픽분포를 기초로 제2 이미지 데이터베이스에서 유사한 이미지를 2가지 검색한 결과를 도시하고 있다. 도시된 바와 같이 기사 내 그림의 동그라미 부분과 연관된 시계가, 직사각형의 모양과 연관된 거울이 검색되었음을 확인 할 수 있다.

<이미지 데이터에 대한 시각단어 정의>

이미지 데이터에서의 특성값에 대해서 기존에는 연속 변수로 처리하는 경우가 많으나, 본 발명에서는 시각단어(visual word) 형태의 특성값을 사용할 수 있다[11-12]. 시각단어로 특성값을 정의하는 경우, 이미지 데이터를 이산화하여 표현할 수 있으며, LDA 또는 바이소스 토픽모델(BSTM)에 적용시 다른 수치변환 없이 바로 적용할 수 있는 장점이 있다.

시각단어는 다양한 그림에서 관측된 비슷한 패턴을 기반으로 정의된다. 문서를 단어들의 집합으로 볼 수 있는 것처럼, 하나의 그림도 복수 시각단어의 집합으로 볼 수 있다.

도 8은 이미지로부터 시각단어를 추출하는 과정을 개략적으로 도시하는 참고도이다. 도 8를 참조하면, 시각 단어 추출을 위하여 1) 해당 이미지들 -여기서는 비행기 이미지들-에 대하여 SURF(Speeded Up Robust Features) 기반[12]으로 특성값 추출하고, 2) 이들에 대하여 클러스터링을 실시하여 시각단어를 정의한다. 3)특성값별 시각단어 할당의 과정을 거쳐, 이미지 코퍼스를 Bag-of-Visual-Word로 표현한 것을 도시하고 있다.

상세히 설명하면, 1) 이미지에서 SURF(Speeded Up Robust Features) 알고리즘을 이용하여 특성값을 추출할 수 있다. SURF는 이미지에서 왜곡에 강인한 특성값을 추출하는 기법으로서, SIFT(Scale Invariant Feature Transform) [11] 타입 중 하나이며 SIFT와 성능은 비슷하지만 보다 효율적인 특성을 가지고 있다. 2) 각 이미지들에 대하여 유사한 패턴을 가지는 특성값 단위로 모으기 위해, 평균이동(mean shift) 클러스터링[13]을 적용할 수 있다. 일 실시예로서, 이 과정에 의하여 발견된 군집의 수가 시각단어의 수로 결정될 수 있다. 3) 비슷한 패턴 단위로 형성된 특성값의 군집에 대하여 SVDD(Support Vector Data Description)[14]를 적용함으로써, 군집의 수만큼 시각단어를 생성할 수 있다. SVDD는 특징화된 데이터 세트의 경계선을 기준으로 내, 외부의 존재 여부를 판별하는 일종(one-class) 분류기이다. 시각 단어별로 학습된 분류기에 질의 이미지에서 추출한 특성값을 입력하여, 분류기 경계선의 내부로 판별되면. 해당 특성값을 분류기에서 정의하는 해당 시각단어로 간주할 수 있다.

<학습데이터 구축 및 바이소스 토픽모델(BSTM) 생성>

이하에서는 개시된 발명에 의한 학습 데이터 구축 및 바이소스 토픽모델(BSTM) 생성 결과의 일 실시예에 대하여 설명한다. 기사와 쇼핑몰 간에 잠재적 연관성이 클 것으로 판단되는 데이터 집합을 대상으로 하기 위하여, 젊은 여성층을 대상으로 한 잡지-제1 이미지 데이터베이스-와 쇼핑몰 상품을 선별-제2 이미지 데이터베이스-하여 실시예를 수행한다. 본 실시예에 따른 수집한 잡지기사 사진은 4,816개, 쇼핑몰 상품 사진은 5,375개이다.

쇼핑몰 상품 사진의 각 카테고리마다 2장씩 선정하여 얻은 74개의 사진과 잡지, 쇼핑 사진 데이터 개수의 1/200에 해당하는 24, 27개의 이미지를 랜덤하게 선택하여 총 125개 사진을 시각단어 학습 데이터로 사용하였다. 학습 데이터에서 추출한 약 16만 개의 SURF 특성값에 평균이동 클러스터링과 SVDD를 적용한 결과 6,968개의 시각단어가 생성되었다(시각단어 결정 및 생성단계). 학습 데이터 내의 모든 이미지에서 시각단어를 추출하고, 시각단어의 빈도 수 집합으로 각 출처별 사진 집합을 표현하였다.

두 출처에서 추출한 6,968개의 시각단어에 다음과 같이 추가 선별 작업을 수행하였다. 노이즈 제거 및 차원 축소를 목적으로 두 출처를 통틀어 빈도 합계가 3 미만인 시각단어 5,400여개를 제거하였다. 더불어, 데이터 내에서 너무 빈번하게 나타나 정보량이 많지 않은 것으로 판단되는, 사진별 빈도평균이 100 이상인 시각단어 12개를 추가로 제거하였다. 이 결과 1,545개의 시각단어를 선별하였으며, 출처별로 구분한 시각단어의 집합 구성을 [표 1]에 정리하였다. 선별된 시각단어의 빈도가 전체적으로 0인 사진 362개를 제거하고 남은 9,828개의 사진을 BSTM의 모델 학습용 데이터로 사용하였다 (시각단어에 대한 샘플링 단계).

종류	기사	상품	시각단어 수
V1	○	○	379
V2	○	×	773
V3	×	○	393

바이소스 토픽모델(BSTM) 학습을 위한 깁스 샘플링 기반 유사도 측정은 토픽 모델링 툴박스[15]를 수정한 프로그램으로 구현할 수 있다. 세 하이퍼파라미터의 값은 α=1.0, π_A=π_P=0.01로 설정하였다. 토픽의 수는 다양한 설정값을 테스트 후 결정할 수 있다.

<실험 및 결과>

1. 두 출처간 공통 컨텍스트 추출 및 표현

학습 데이터에서 정의, 추출한 시각단어는 <표 1>와 같이 3가지 종류로 구분되며, V1∪V2 집합이 기사 사진(질의 이미지)의 디스크립터(descriptor)로, V1∪V3 집합이 상품 사진(대상 이미지)의 디스크립터로서 적용된다. 이들 디스크립터 집합이 바이소스 토픽모델(BSTM)을 통해 학습한 토픽에 어떠한 양상으로 분배되는지 여부를 살펴봄으로써, 바이소스 토픽모델(BSTM)이 두 출처간의 공통의 컨텍스트(context)를 얼마나 잘 표현하는지 확인해볼 수 있다.

도 9은 개시된 기술의 일 실시예에 다른 토픽수와 연관검색 성공률을 도시한 그래프로서, 학습 데이터에 바이소스 토픽모델(BSTM)를 적용하여 추출한 37개 토픽 중

6개 토픽에서 상위 10개 시각단어 확률 분포를 나타내고 있다. 도 9를 참조하면, 확률이 높은 상위 10개의 시각단어 중에서 V1 내지 V3 집합이 다양하게 조합됨을 확인할 수 있다. 시각단어의 출처별로 V1~V3 집합을 설정하고 집합 내 일련번호를 V1_#과 같은 형태로 부여하면, 출처별 시각단어가 고르게 높은 확률을 부여받고 있으며 세 집합의 다양한 조합이 존재함을 확인할 수 있다.

2 상품 사진 연관성 기반 성능 평가

일 실시예에서, 대상 이미지인 상품에 카테고리 정보가 별도로 부여되어 있으면 이 정보를 바이소스 토픽모델(BSTM)의 연관검색 성능 평가에 활용할 수 있다. 본 실시예에 대하여 성능 평가를 위한 데이터로 5개 카테고리(귀걸이, 벽시계, 수저포크나이프, 쿠션대쿠션, 플레이트접시)를 선별하고 각 카테고리 별로 50개씩, 250개의 상품의 사진을 지정하여 실험을 실시하였다. 평가데이터 내에서 각 그림을 질의로 제시하고 헬링거 거리 기준 Top-N 중 동일 카테고리 상품의 포함 비율이 50% 이상이면 성공으로 판별할 수 있다. N의 값은 추천 상품의 적정 수를 고려하여 N=4,5,6으로 가정하였으며, 토픽의 수는 학습데이터 상품의 개수인 37을 기준으로 다양한 범위의 수를 체크하였다.

K	Top-4	Top-5	Top-6
10	56.6±1.2	42.3±2.0	50.0±1.6
20	64.8±2.6	49.2±3.6	55.8±3.2
30	65.6±2.1	50.3±3.2	57.0±2.9
37	63.1±2.9	48.4±4.8	54.4±3.2
40	63.2±1.7	46.8±3.0	52.6±3.9
50	54.9±3.3	38.7±2.8	45.8±3.6
60	55.5±2.7	38.7±4.0	46.2±3.9

[표 2]는 실험에 대한 결과로서, [표 2]를 참조하면 N=4인 경우 60% 전후의 성공률을 얻을 수 있음을 확인할 수 있다. 토픽의 수 K=30인 모델의 경우, 평균 및 최대 성공률이 가장 높았다.

도 10은 도 9 및 [표 2]에 의한 실시예에 대한 연관 검색 결과의 일례를 도시한 참고도이다.

<기사-상품 연관 검색 결과>

도 11은 학습 데이터 내에서 기사 사진을 질의로 연관 상품의 사진을 검색한 결과의 예이다.

도 11에 도시된 바와 같이, 결정된 토픽의 수는 30개이고, 이 30개의 토픽에 대하여 각 이미지별 토픽분포를 생성하여 연관 검색을 실시하였다.

세 번째 행의 결과의 경우, 유사 상품(목걸이)이 추천되는 것이 정확도 측면에서 바람직하다. 그러나, 첫 번째 행의 예(귀부인-악세사리)나 여섯 번째 행의 예(신부-각종 혼수상품)와 같이, 질의 이미지와 의미적 연상 관계가 있는 이미지가 추출될 수 도 있음을 알 수 있다. 이러한 의미적 연상 관계에 따른 검색은 다양한 사용자의 선호를 반영할 수 있는 장점이 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

일 실시예에 따른 바이소스 토픽모델 기반의 이미지 연관 검색 방법 및 그 시스템은 기사나 상품에 포함된 그림만을 질의하여, 그와 연관된 다양한 상품 등에 대한 그림을 검색 또는 추천받을 수 있다. 종래에는 이미지 데이터의 메타 데이터나 태그 데이터를 기반으로 검색을 수행하므로 그림만으로 질의 시 오류가 발생할 수 있었으나, 개시된 기술은 질의 이미지에 대한 시각단어를 사용함으로써 이미지 자체로서 연관 검색이 가능하기 때문이다.

또한, 일 실시예에 따른 바이소스 토픽모델 기반의 이미지 연관 검색 방법 및 그 시스템은 이미지 데이터의 이산화 및 이를 기반으로 하는 토픽 추출을 용이하게 할 수 있다. 시각단어를 이용하여 특성값을 정의하므로, 이미지 데이터에 대한 이산화가 용이하기 때문이다.

또한 일 실시예에 따른 바이소스 토픽모델 기반의 이미지 연관 검색 방법 및 그 시스템은 질의 이미지와 대상 이미지 간의 연관성을 계량화할 수 있다. 바이소스 토픽모델을 이용하므로 각 데이터간의 연관성을 토픽 분포로 표현할 수 있으며, 이를 기초로 유사도를 산출할 수 있기 때문이다.

상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 출원의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

이미지 연관 검색 시스템에서 수행되며 제1 이미지 데이터베이스 및 제2 이미지 데이터베이스를 기초로 이루어지는 이미지 연관 검색 방법에 있어서,
(a) 시각 단어 추출부가 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들을 시각단어들의 빈도로 표현하는 단계;
(b) 바이소스 토픽모델링부가 상기 시각단어들의 빈도를 기초로 바이소스 토픽모델을 생성하는 단계; 및
(c) 유사도 계산부가 상기 바이소스 토픽모델을 이용하여 상기 제1 이미지 데이터베이스와 상기 제2 이미지 데이터베이스를 연관하여 이미지를 검색하는 단계를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제1항에 있어서, 상기 (a) 단계는
(a-1) 상기 시각 단어 추출부가 상기 제1 및 제2 이미지 데이터베이스 각각으로부터 랜덤하게 추출된 이미지 집합에 대하여 적어도 두 개의 시각단어들을 추출하는 단계; 및
(a-2) 상기 시각 단어 추출부가 상기 제1 및 제2 이미지 데이터베이스 각각에 대하여, 해당 데이터베이스에 포함된 이미지들을 상기 시각단어들의 빈도로 표현하는 단계를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제2항에 있어서, 상기 시각단어들의 빈도는
상기 시각단어들을 행(row)으로 하고 해당 이미지 데이터베이스에 포함된 이미지들을 열(column)으로 가지는 행렬 데이터인 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제3항에 있어서, 상기 (b) 단계는
(b-1) 상기 바이소스 토픽모델링부가 상기 복수의 시각단어들에 포함된 각 시각단어에 대해 토픽을 할당할 확률분포를 계산하는 단계;
(b-2) 상기 바이소스 토픽모델링부가 상기 확률분포로부터 샘플링된 하나의 토픽을 해당 시각단어의 토픽으로 지정하는 단계; 및
(b-3) 상기 바이소스 토픽모델링부가 (i)상기 제1 및 제2 이미지 데이터베이스 각각에 대한 토픽별 시각단어의 분포 및 (ii) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들에 대한 토픽분포를 계산하는 단계를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제4항에 있어서, 상기 (b-1) 단계 및 (b-2) 단계는
뭉개진 깁스 샘플링(collapsed Gibbs sampling)을 이용하여 이루어지는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제4항에 있어서, 상기 (c) 단계는
(c-1) 상기 유사도 계산부가 질의 이미지의 상기 토픽분포와, 상기 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여 유사도를 계산하는 단계; 및
(c-2) 상기 유사도 계산부가 상기 계산된 유사도를 기초로 적어도 하나의 이미지를 검색결과로서 출력 -상기 검색결과는 가장 높은 유사도를 가지는 이미지부터 미리 설정된 개수만큼 순차적으로 출력됨- 하는 단계를 포함하고 ,
상기 질의 이미지는 상기 제1 이미지 데이터베이스에 포함된 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제 6항에 있어서, 상기 유사도는
헬링거 거리(Hellinger distance) 또는 바타챠라 거리(Bhattacharyya distance)를 이용하여 계산되는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제 4항에 있어서, 상기 바이소스 토픽모델을 이용한 이미지 연관 검색방법은
(d) 상기 유사도 계산부가 질의 이미지를 입력받아 상기 바이소스 토픽모델을 이용하여 상기 제1 및 상기 제2 이미지 데이터베이스와 연관하여 이미지를 검색하는 단계를 더 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제 8항에 있어서, 상기 (d) 단계는
(d-1) 상기 바이소스 토픽모델링부가 상기 질의 이미지에 대한 토픽분포를 계산하는 단계;
(d-2) 상기 유사도 계산부가 상기 질의 이미지의 토픽분포와, 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여 유사도를 계산하는 단계; 및
(d-3) 상기 유사도 계산부가 상기 계산된 유사도를 기초로 적어도 하나의 이미지를 검색결과로서 출력 -상기 검색결과는 가장 높은 유사도를 가지는 이미지부터 미리 설정된 개수만큼 순차적으로 출력됨- 하는 단계를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
제9항에 있어서, 상기 (d-1) 단계는
(i) 상기 시각 단어 추출부가 상기 질의 이미지를 상기 시간단어들의 빈도로 표현하는 단계; 및
(ii) 상기 바이소스 토픽모델링부가 상기 제1 또는 제2 이미지 데이터베이스에 대한 토픽별 시각단어의 분포를 기초로 상기 질의 이미지에 대한 토픽분포를 계산하는 단계를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색방법.
질의 이미지와 연관된 적어도 하나의 검색 이미지를 출력하는 이미지 연관 검색 시스템에 있어서, 상기 이미지 연관 검색 시스템은
복수의 이미지들을 저장하는 제1 및 제2 이미지 데이터베이스;
질의 이미지 및 상기 복수의 이미지들에 대하여 적어도 두 개의 시각단어들을 추출하여 상기 복수의 이미지들 각각을 상기 시각단어들의 빈도로 표현하는 시각단어 추출부;
상기 시각단어들의 빈도를 기초로 상기 시각단어 각각에 토픽을 지정하고, 상기 복수의 이미지들 각각에 대하여 토픽분포를 계산하는 바이소스 토픽모델링부; 및
상기 토픽분포를 기초로 상기 질의 이미지와 상기 제1 및/또는 제2 이미지 데이터베이스에 포함된 이미지들 각각에 대하여 유사도를 계산하는 유사도 계산부를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.
제11항에 있어서, 상기 제1 및 제2 이미지 데이터베이스는
각각 다른 출처의 이미지들을 저장하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.
제11항에 있어서, 상기 시각단어 추출부는
상기 제1 및 제2 이미지 데이터베이스에서 랜덤하게 추출된 복수개의 이미지에 대하여 상기 시각단어들을 추출하여 상기 시각단어들의 빈도를 생성하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.
제11항에 있어서, 상기 시각단어 추출부는
(i) 추출 빈도가 설정된 값 이하인 시각단어의 제거, (ii) 추출 대상 이미지들 전체에 대하여 추출 빈도의 평균이 설정된 값 이상인 시각단어의 제거 또는 (iii) 상기 시각단어들이 존재하지 않는 이미지의 제거 중 적어도 하나를 수행하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.
제11항에 있어서, 상기 바이소스 토픽모델링부는
상기 복수의 시각단어들에 포함된 각 시각단어에 토픽을 할당할 확률분포를 계산하여, 상기 확률분포로부터 샘플링된 하나의 토픽을 해당 시각단어의 토픽으로 지정하는 토픽 할당부; 및
(i)상기 제1 및 제2 이미지 데이터베이스 각각에 대한 토픽별 시각단어의 분포 및 (ii) 상기 제1 및 제2 이미지 데이터베이스에 포함된 이미지들에 대한 토픽분포를 계산하는 토픽분포 계산부를 포함하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.
제14항에 있어서, 상기 토픽 할당부는
뭉개진 깁스 샘플링(collapsed Gibbs sampling)을 이용하여 상기 토픽을 지정하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.
제11항에 있어서, 상기 유사도 계산부는
상기 질의 이미지의 상기 토픽분포와 상기 제2 이미지 데이터베이스에 포함된 이미지들 각각의 토픽분포에 대하여, 헬링거 거리(Hellinger distance) 또는 바타챠라 거리(Bhattacharyya distance)를 이용하여 유사도를 계산하고, 상기 계산된 유사도를 기초로 적어도 하나의 이미지를 검색결과로서 출력 -상기 검색결과는 가장 높은 유사도를 가지는 이미지부터 미리 설정된 개수만큼 순차적으로 출력됨- 하는 것을 특징으로 하는 바이소스 토픽모델을 이용한 이미지 연관 검색 시스템.