KR101976081B1 - 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 - Google Patents

토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR101976081B1
KR101976081B1 KR1020170090390A KR20170090390A KR101976081B1 KR 101976081 B1 KR101976081 B1 KR 101976081B1 KR 1020170090390 A KR1020170090390 A KR 1020170090390A KR 20170090390 A KR20170090390 A KR 20170090390A KR 101976081 B1 KR101976081 B1 KR 101976081B1
Authority
KR
South Korea
Prior art keywords
distribution
image
topic
database
visual
Prior art date
Application number
KR1020170090390A
Other languages
English (en)
Other versions
KR20190008699A (ko
Inventor
이영구
울아 칸 키파야트
알리 무하마드
안 투 구엔
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020170090390A priority Critical patent/KR101976081B1/ko
Publication of KR20190008699A publication Critical patent/KR20190008699A/ko
Application granted granted Critical
Publication of KR101976081B1 publication Critical patent/KR101976081B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램에 관한 것이다. 본 발명은 데이터베이스에 저장된 하나 이상의 데이터베이스 이미지에서 쿼리이미지 또는 검색 키워드에 대응되는 이미지를 검색하는 방법에 있어서, 하나 이상의 태그가 맵핑된 상기 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득하는 전처리 단계, 상기 시각 단어와 상기 텍스트 단어를 이용하여 주제별 시각 단어 분포(
Figure 112017068234498-pat00262
), 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00263
) 및 배경의 시각 단어 분포(
Figure 112017068234498-pat00264
)를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정하는 단계, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00265
)를 모델링하는 단계, 상기 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00266
)와 이미지 내 주제 비율(
Figure 112017068234498-pat00267
)을 이용하여 상기 데이터베이스 이미지에 대한 상기 태그의 상응도를 산출하고, 그에 따라 상기 태그를 정제하는 단계, 상기 쿼리 이미지를 포함하는 검색 요청이 입력되면 상기 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00268
)를 모델링하는 단계, 상기 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00269
)와 상기 데이터베이스에서 상기 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00270
)를 이용하여 상기 데이터베이스 이미지의 유사도를 평가하는 단계를 포함하는 것을 일 특징으로 한다. 이러한 본 발명에 따르면, 수백만 개의 이미지를 텍스트 또는 이미지를 이용하여 효율적으로 검색할 수 있다.

Description

토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램{METHOD, SYSTEM AND COMPUTER PROGRAM FOR SEMANTIC IMAGE RETRIEVAL BASED ON TOPIC MODELING}
본 발명은 시맨틱 이미지 검색 방법 및 시스템에 관한 것으로, 보다 자세하게는 배경분포 토픽 모델링을 이용한 시맨틱 이미지 검색 방법 및 시스템에 관한 것이다.
최근 인터넷의 발달로 소셜 미디어 네트워크 서비스가 급격히 성장하고 있다. 그 결과, 멀티미디어의 양이 폭발적으로 증가하면서 효과적인 이미지 검색 시스템이 요구되며, 이미지 어노테이션은 폭발적으로 증가하는 웹이미지에 따른 효율적인 이미지 검색의 필요성으로 인해 그 중요도가 점점 높아지고 있다.
대부분의 이미지 검색 연구는 주로 이미지의 내용을 분석하는 내용 기반 이미지 검색(CBIR: Content-based Image Retrieval) 방법이 많이 진행되어 왔다. 내용 기반 이미지 검색은 색상, 텍스처 및 형태와 같은 시각적 특징을 이용하여 이미지의 내용을 분석한다. 이러한 방법은 정의하는 태그의 개수가 적을 경우에는 잘 작동하지만, 데이터셋이 커지고 태그의 종류가 다양해짐에 따라 성능이 떨어지게 된다.
텍스트 기반 이미지 검색(TBIR: Text-based Image Retrieval)은 텍스트를 쿼리로 하여 텍스트에 대응되는 이미지를 검색하는 방식이다. 이 방식은 이미지의 시각적 내용이 수동으로 태깅된 텍스트 디스크립터에 의해 표현되며, 데이터베이스 관리 시스템에서 이미지 검색을 수행하는데 사용된다.
내용 기반 이미지 검색은 대규모의 데이터베이스를 다루는데 효율적이나, 저차원 이미지 특성과 고차원 이미지 특성 간의 시맨틱 갭 문제를 갖는다. 텍스트 기반 이미지 검색은 높은 수준의 개념을 갖는 쿼리를 지원할 수 있지만, 대규모 데이터베이스에서 개별 이미지를 수동으로 일일이 태깅해야 하므로 시간이 과도하게 소모된다. 뿐만 아니라, 소셜 네트워크 서비스 이미지의 경우에는 이미지와 관련성이 낮은 태그가 태깅되는 경우도 빈번하다.
따라서 폭발적으로 증가하는 웹 이미지를 효과적으로 검색하기 위해서는 상술한 시맨틱 갭을 줄이고 이미지 태깅 성능을 향상시킬 수 있는 시맨틱 검색 시스템이 필요하다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 시각 단어(visual word), 텍스트 단어(text word), 배경(background)의 상관관계를 공식화하고, 이를 이미지 검색에 활용하여 이미지 검색 정확도를 높일 수 있는 이미지 검색 방법 및 시스템을 제공하는 것을 일 목적으로 한다.
또한, 본 발명은 태그의 누락을 예측하고 노이즈를 제거할 수 있는 이미지 검색 방법 및 시스템을 제공하는 것을 다른 목적으로 한다.
또한, 본 발명은 효율적이고 효과적으로 쿼리 및 데이터베이스 이미지 사이의 유사성을 계산할 수 있는 이미지 검색 방법 및 시스템을 제공하는 것을 다른 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 데이터베이스에 저장된 하나 이상의 데이터베이스 이미지에서 쿼리이미지 또는 검색 키워드에 대응되는 이미지를 검색하는 방법에 있어서, 하나 이상의 태그가 맵핑된 상기 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득하는 전처리 단계, 상기 시각 단어와 상기 텍스트 단어를 이용하여 주제별 시각 단어 분포(
Figure 112017068234498-pat00001
), 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00002
) 및 배경의 시각 단어 분포(
Figure 112017068234498-pat00003
)를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정하는 단계, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00004
)를 모델링하는 단계, 상기 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00005
)와 이미지 내 주제 비율(
Figure 112017068234498-pat00006
)을 이용하여 상기 데이터베이스 이미지에 대한 상기 태그의 상응도를 산출하고, 그에 따라 상기 태그를 정제하는 단계, 상기 쿼리 이미지를 포함하는 검색 요청이 입력되면 상기 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00007
)를 모델링하는 단계, 상기 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00008
)와 상기 데이터베이스에서 상기 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00009
)를 이용하여 상기 데이터베이스 이미지의 유사도를 평가하는 단계를 포함하는 것을 일 특징으로 한다.
또한, 본 발명은 이미지 검색 시스템에 있어서, 하나 이상의 데이터베이스 이미지를 저장하는 데이터베이스, 하나 이상의 태그가 맵핑된 상기 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득하는 제 1 전처리부, 상기 시각 단어와 상기 텍스트 단어를 이용하여 주제별 시각 단어 분포(
Figure 112017068234498-pat00010
), 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00011
) 및 배경의 시각 단어 분포(
Figure 112017068234498-pat00012
)를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정하고, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00013
)를 모델링하고, 상기 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00014
)와 이미지 내 특정 주제 비율(
Figure 112017068234498-pat00015
)을 이용하여 상기 데이터베이스 이미지에 대한 상기 태그의 상응도를 산출하고, 그에 따라 상기 태그를 정제하는 제 1 배경분포 토픽모델링부, 상기 쿼리 이미지 또는 상기 검색 키워드가 입력되면 상기 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 상기 검색 키워드로부터 하나 이상의 텍스트 단어를 획득하는 제 2 전처리부, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00016
)를 모델링하는 제 2 배경분포 토픽모델링부, 상기 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00017
)와 상기 데이터베이스에서 상기 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00018
)를 이용하여 상기 데이터베이스 이미지의 유사도를 평가하는 유사도 평가부를 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 시각 단어(visual word), 텍스트 단어(text word), 배경(background)의 상관관계를 공식화하고, 이를 이미지 검색에 활용하여 이미지 검색 정확도를 높일 수 있다.
또한, 본 발명에 의하면 태그의 누락을 예측하고 노이즈를 제거할 수 있다.
또한, 본 발명에 의하면 효율적이고 효과적으로 쿼리 및 데이터베이스 이미지 사이의 유사성을 계산할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 이미지 검색 시스템의 구성을 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 따른 배경분포 토픽 모델을 설명하기 위한 도면,
도 3은 본 발명의 일 실시 예에 따른 이미지 검색 방법을 설명하기 위한 순서도,
도 4는 본 발명의 일 실시 예에 따른 전처리 단계를 보다 자세하게 설명하기 위한 순서도,
도 5는 본 발명의 일 실시 예에 따른 모델 파라미터 추정 단계를 보다 자세하게 설명하기 위한 순서도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
수동 이미지 태깅 문제를 해결하기 위해, 태그를 자동으로 추론하고 수정할 수 있는 자동 어노테이션 시스템이 제안된 바 있다. 최근의 가장 주목할만한 연구들에서 이미지 어노테이션은 일종의 분류 작업으로 간주되었으며, 분류기는 시각적 특징을 태그에 맵핑하는 훈련을 수행하였다. 그러나 이러한 접근법의 가장 큰 단점은 어노테이션이 잘 분류된 훈련 데이터에 의한 적은 수의 태그 어휘들로 제한된다는 점이다. 인터넷 상의 이미지에 달린 태그들은 실제로는 매우 높은 수준으로 분화된 잡음을 포함하기 때문에, 상술한 제한 사항은 실제 애플리케이션에서의 사용을 어렵게 만든다.
또한 분류 기반 접근 방식은 잘 동작하기는 하나, 실행이 쉽지 않다. 분류 클래스의 개수는 단어의 수 만큼 많아지며, 정확도를 높이기 위해서는 이는 많은 수의 트레이닝 이미지 셋을 필요로 하기 때문이다. 또한 시각적 특성과 언어적 개념 간 상관관계가 그리 단순하지만은 않다는 것도 실행을 어렵게 만드는 문제 중 하나이다.
시맨틱 갭 문제를 돌파하고, 이미지 관련 키워드를 예측하기 위한 방법으로 Correspondece Latent Dirichlet Allocation(이하, “CorrLDA”라 함)라고 불리는 생성 확률 모델(Generative Probabilistic Model)이 있다. 생성 확률 모델은 어떤 확률 분포와 그 파라미터가 있다고 할 때, 그로부터 랜덤 프로세스에 따라 데이터를 생성하는 관점의 모델이다. CorrLDA는 이미지 영역과 텍스트(워드) 집합의 잠재적 변수 표현 간 관계를 찾는 모델로, 이미지의 관련 키워드를 예측하기 위하여 이미지 내용과 이에 대응되는 텍스트의 동시 발생 패턴으로부터 잠재적인 시맨틱 주제를 발견할 수 있다. CorrLDA 모델은 이미지 특징과 텍스트 단어로부터 잠재적인 주제를 학습하는 방법을 제공한다. 이 모델은 문서-주제 비율을 통해 시각적 특징과 텍스트 단어 사이의 상응 정도를 이용하여 시각적 주제와 텍스트적 주제 사이의 직접적 관계를 도출한다.
CorrLDA 모델은 시각적, 텍스트적 주제 간 상관관계가 잠재적 주제를 통해 명시적으로 활용되며, 그 결과 효과적으로 이미지의 의미적 내용을 추출할 수 있다는 점에서 장점을 가지며, 다중 라벨링 문제를 직접 해결할 수 있다는 점에서 데이터 셋이 동적으로 업데이트되는 실제 애플리케이션에서 효과적으로 활용될 수 있다.
본 발명은 CorrLDA가 검색 작업에 충분히 활용되지 못하고 있는 문제를 해결하기 위해 고안된 것으로, 배경 단어에 관한 새로운 개념을 이용하여 CorrLDA 모델을 확장하는 것을 그 특징으로 한다.
상술한 CorrLDA 모델의 원형이 되는 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)는 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형이다. 미리 알고 있는 주제별 단어수 분포를 바탕으로 주어진 문서에서 발견된 단어수 분포를 분석함으로서 해당 문서가 어떤 주제들을 함께 다루고 있을지를 예측할 수 있다.
이와 마찬가지로, 본 발명의 일 실시 예에서 사용되는 데이터베이스 이미지 및 쿼리 이미지는 여러 개의 주제를 가지며, 주제들은 디리클레 분포를 따른다고 가정할 수 있다. 즉, 잠재 디리클레 할당이 문서를 단어의 집합으로 보는 것처럼, 이미지는 하나 이상의 시각 단어(visual word)의 집합으로 볼 수 있는 것이다.
다시 말해서, 주제는 이미지에 포함된 시각 단어의 확률분포이며, 의미적으로 유사하거나 연관성 높은 단어들로 이루어진다. 본 발명에서 각 이미지는 주제의 확률적 혼합체로 표현되며, 각 주제는 시각 단어 및 텍스트 단어(태그)의 분포로 표현된다.
본 발명의 일 실시 예에서 이미지 특징(feature)는 시각 단어(visaul word)의 형태로 정의될 수 있으며, 이는 데이터베이스 이미지 또는 쿼리 이미지에서 특징 정보를 추출하여, 이산화하는 과정을 통해 획득 가능하다. 이렇게 생성된 본 발명의 일 실시 예에 따른 이미지 코퍼스는 시각 단어집(Bag of visual word) 및 텍스트 단어집(Bag of text word)으로 표현할 수 있다. 시각 단어집은 이미지로부터 SIFT 등으로 이미지 특징 정보를 추출하고, 추출된 이미지 특징 정보들에 대해 클러스터링을 수행하여 시각 단어를 찾아낸 후, 각각의 이미지들을 시각 단어들의 히스토그램으로 표현한 것으로 이해될 수 있으며, 텍스트 단어집은 각 이미지에 수동으로 달린 하나이상의 태그들의 집합으로 이해될 수 있다.
본 명세서에서 ‘하나 이상의 시각 단어’는 시각 단어집을 의미하며, ‘하나 이상의 텍스트 단어’는 텍스트 단어집을 의미하는 것으로 이해될 수 있다. 또한 ‘텍스트 단어’와 ‘태그’는 지칭하는 대상은 동일하나, ‘태그’는 웹, 소셜 네트워크 서비스 등 수집처에서 사용자들이 이미지에 수동으로 맵핑시킨 단어를 의미하며, ‘텍스트 단어’는 ‘시각 단어’와 대비되는 보다 포괄적인 개념으로 이해될 수 있다.
한편, 본 발명의 일 실시 예에 의한 이미지 검색 방법은 이미지의 배경에 일반적으로 포함되어 있는 의미가 좁거나 없는 시각 단어인 ‘배경 단어’를 제거하는 개념을 사용한다. 배경 단어는 거의 모든 이미지에 포함되어 있으나 유용하지 않고, 이미지 검색 시 유사도를 측정함에 있어서 노이즈가 될 수 있으므로, 배경 단어를 고려한 토픽 모델링을 통해 이미지 검색의 정확도를 향상시킬 수 있다.
나아가, 본 발명에서는 주제를 추출하고 태그를 정제함에 있어서, 쿼리와 데이터베이스에 저장된 이미지 사이의 유사성을 평가하는 점수 체계를 제안한다.
본 발명의 일 실시 예에 따르면, 시각 단어는 주제 단어와 배경 단어로 분류될 수 있다. 따라서 본 발명에서 각각의 이미지는 시각 주제 분포, 배경 분포, 텍스트 주제 분포로 나타낼 수 있다.
이하에서는, 도면을 참조하여 본 발명의 일 실시 예에 따른 토픽 모델링 기반 시맨틱 이미지 검색 방법을 설명한다.
도 1은 본 발명의 일 실시 예에 따른 이미지 검색 시스템을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 이미지 검색 시스템은 검색 데이터 생성 모듈(100) 및 검색 모듈(200)을 포함할 수 있으며, 검색 데이터 생성 모듈(100)은 데이터베이스(110), 제 1 전처리부(130), 제 1 배경분포 토픽모델링부(150)를 포함할 수 있고, 검색 모듈(200)은 제 2 전처리부(230), 제 2 배경분포 토픽모델링부(250), 유사도 평가부(270)를 포함할 수 있다.
실시 예에 따라, 검색 데이터 생성 모듈(100)은 오프라인에서 실행될 수 있으며, 검색 모듈(200)은 온라인에서 실행될 수 있다.
검색 데이터 생성 모듈(100)의 데이터베이스(110)는 하나 이상의 데이터베이스 이미지를 저장한다. 데이터베이스 이미지는 웹에서 수집된 이미지 또는 사용자에 의하여 저장된 이미지로, 하나 이상의 태그가 맵핑된 이미지일 수 있다.
최근 널리 사용되고 있는 소셜 네트워크 서비스의 경우 해시태그(#태그)를 이미지에 기재하여 이미지의 특징을 설명할 수 있도록 하고, 태그를 이용하여 태그와 관련된 이미지 검색이 용이하게 이루어질 수 있도록 한다. 이러한 웹 수집 이미지의 특징에 따라서, 데이터베이스에는 수집된 이미지가 해당 이미지에 맵핑된 태그와 함께 저장될 수 있다.
데이터베이스에 저장된 하나 이상의 데이터베이스 이미지는 제 1 전처리부(130)로 전달될 수 있다. 제 1 전처리부(130)는 데이터베이스 이미지를 전처리하여 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득한다. 예를 들어, 제 1 전처리부(130)는 아핀 불변 검출기(Affine invariant detector)를 이용하여 데이터베이스 이미지에서 이미지 특징(image feature)를 추출하고, 이미지 특징은 128-DSIFT(Scale-InvariantFeature Transform) 디스크립터(discriptor)를 사용하여 표현될 수 있다. 제 1 전처리부(130)는 추출한 이미지 특징을 클러스터링하여 클러스터의 대표 값을 추출하고, 대표 값을 양자화하여 시각 단어를 획득할 수 있다. 일 예로, 제 1 전처리부(130)는 k-means 클러스터링에 의해 학습된 코드북을 사용하여 디스크립터를 시각 단어로 양자화할 수 있다. 나아가 제 1 전처리부(130)는 데이터베이스 이미지에 태그가 맵핑되어 있지 않은 경우, 시각 단어를 이용하여 상기 데이터베이스 이미지에 대한 태그(텍스트 단어)를 생성할 수 있다.
제 1 배경분포 토픽모델링부(150)는 제 1 전처리부(130)에서 획득한 하나 이상의 시각 단어와 태그로부터 획득한 하나 이상의 텍스트 단어를 본 발명의 일 실시 예에 의한 배경분포 토픽모델의 모델 파라미터를 학습 및 추정하는데 사용할 수 있다.
보다 구체적으로, 제 1 배경분포 토픽모델링부(150)는 계산부(153, 미도시) 및 모델 파라미터 추정부(155, 미도시)를 포함할 수 있다.
제 1 배경분포 토픽모델링부(150)는 상기 시각 단어와 상기 텍스트 단어를 이용하여 주제별 시각 단어 분포(
Figure 112017068234498-pat00019
), 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00020
) 및 배경의 시각 단어 분포(
Figure 112017068234498-pat00021
)를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정할 수 있는데, 계산부(153)는 주제 분포에 할당된 시각 단어의 비율, 특정 주제(t)에서 특정 시각 단어(
Figure 112017068234498-pat00022
)가 나올 확률, 특정 이미지(
Figure 112017068234498-pat00023
)에서 특정 주제(t)가 나올 확률을 이용하여 주제 분포에 할당된 시각 단어의 비율을 도출하고, 배경 분포에 할당된 시각 단어의 비율, 배경 단어의 확률을 이용하여 배경 분포에 할당된 시각 단어의 비율을 도출하고, 특정 주제(t)에서 텍스트 단어(
Figure 112017068234498-pat00024
)가 나올 확률, 특정 이미지(
Figure 112017068234498-pat00025
)에서 특정 주제(t)가 나올 확률을 이용하여 상기 텍스트 단어(
Figure 112017068234498-pat00026
)가 상기 특정 주제(t)에 할당될 확률을 도출할 수 있다.
모델 파라미터 추정부(155)는 모델 파라미터가 수렴될 때 까지 데이터베이스에 저장된 데이터베이스 이미지 셋에 대하여 계산부(153)에서의 동작을 반복적으로 수행함으로써, 정규화된 디리클레 파라미터인 상기 주제별 시각 단어 분포(
Figure 112017068234498-pat00027
), 상기 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00028
) 및 상기 배경의 시각 단어 분포(
Figure 112017068234498-pat00029
)를 획득할 수 있다.
도 2를 참조하여 본 발명의 일 실시 예에 의한 배경분포 토픽모델을 설명한다. 도 2의 (a)는 종래의 상응 잠재 디리클레 할당(이하, CorrLDA 이라 함)의 확률 그래프를 도시한 것이고, (b)는 본 발명의 일 실시 예에 따른 배경분포 토픽모델(CTMB)의 확률 그래프를 도시한 것이다.
도 2(b)에 도시된 본 발명의 일 실시 예에 따른 CTMB의 파라미터에 관한 설명은 표 1과 같다.
파라미터 설명
Figure 112017068234498-pat00030
기 설정된 디리클레 하이퍼 파라미터
Figure 112017068234498-pat00031
이미지 내 단어 종류(시각 단어/배경)의 베르누이 분포
Figure 112017068234498-pat00032
배경의 시각 단어 멀티노미얼 분포
Figure 112017068234498-pat00033
이미지 d의 주제 멀티노미얼 분포
Figure 112017068234498-pat00034
주제 t의 시각 단어 멀티노미얼 분포
Figure 112017068234498-pat00035
주제 t의 텍스트 단어 멀티노미얼 분포
도 2(b)에서, 사각형은 복제물을 나타낸다. D개의 데이터베이스 이미지와 개별 데이터베이스 이미지(
Figure 112017068234498-pat00036
)는
Figure 112017068234498-pat00037
개의 시각 단어와
Figure 112017068234498-pat00038
개의 텍스트 단어로 표현할 수 있다. 도 2(b)에서 음영처리된 노드는 관찰된 변수를 나타내고, 흰색 노드는 잠재 변수를 나타낸다. CTMB에서 각 데이터베이스 이미지는 주제 분포로 모델링되며, 각 주제는 크기 v의 시각 단어와 크기 w의 텍스트 단어에 대한 분포로 모델링 된다. 잠재 변수 z는 시각 주제를 나타내고, y는 텍스트 주제를 나타낸다. CTMB에서 이미지 특징, 즉, 이미지의 시각적 특징(visual feature)은 텍스트 단어 생성에 사용되며, CTMB의 확률 모델은 다음과 같은 단계를 거친다.
1. 각 토픽 t에 대하여,
a. 시각 단어 분포:
Figure 112017068234498-pat00039
~
Figure 112017068234498-pat00040
b. 텍스트 단어 분포:
Figure 112017068234498-pat00041
~
Figure 112017068234498-pat00042
2. 배경 분포:
Figure 112017068234498-pat00043
~
Figure 112017068234498-pat00044
3. 데이터베이스 이미지 각각에 대하여(
Figure 112017068234498-pat00045
, d=1,...,D)
a. 단어 타입 분포:
Figure 112017068234498-pat00046
~ Beta(
Figure 112017068234498-pat00047
)
b. 주제 분포:
Figure 112017068234498-pat00048
~
Figure 112017068234498-pat00049
4. 각 시각 단어 분포에 있어서,
Figure 112017068234498-pat00050
,
Figure 112017068234498-pat00051
a. 스위치 샘플
Figure 112017068234498-pat00052
~
Figure 112017068234498-pat00053
b.
Figure 112017068234498-pat00054
이면,
ⅰ. 시각 주제 변수
Figure 112017068234498-pat00055
~ Multinomial(
Figure 112017068234498-pat00056
)
ⅱ. 시각 주제 단어
Figure 112017068234498-pat00057
~ Multinomial(
Figure 112017068234498-pat00058
)
c.
Figure 112017068234498-pat00059
이면,
ⅰ. 시각 배경 단어
Figure 112017068234498-pat00060
~ Multinomial(
Figure 112017068234498-pat00061
)
5. 각 텍스트 단어
Figure 112017068234498-pat00062
,
Figure 112017068234498-pat00063
a. 텍스트 주제 변수
Figure 112017068234498-pat00064
~ Unif(
Figure 112017068234498-pat00065
)
b. 텍스트 단어
Figure 112017068234498-pat00066
~ Multinomial(
Figure 112017068234498-pat00067
)
위 프로세스에서, Dirichlet, Multinomial은 각각 디리클레 분포, 멀티노미얼 분포를 의미한다. 멀티노미얼 분포는 단어 분포에 대해 디리클레 분포와 공역을 맺도록 선택되어 계산의 단순화와 효율적인 추론을 보장한다. 스위치 변수 s는 시각 단어의 생성을 제어한다. 이미지는 두 가지 유형의 시각 단어를 포함하는데, 하나는 주제 분포 Multinomial(
Figure 112017068234498-pat00068
)으로부터 생성되고, 다른 하나는 배경 분포 Multinomial(
Figure 112017068234498-pat00069
)에서 생성되어 시각 단어와 배경 간의 직접적인 상관관계를 유도한다. 그렇지 않은 경우, 텍스트 주제 y는 균일한 분포를 통해 시각 주제 z 중 하나에 대응되며, 텍스트 단어는 주제 분포 Multinomial(
Figure 112017068234498-pat00070
)에서 생성된다. 따라서 본 발명의 일 실시 예에 따른 CTMB를 사용하면 시각 단어와 텍스트 단어의 상관 관계가 크게 강화된다.
CTMB 모델의 목표는 주어진 이미지 코퍼스
Figure 112017068234498-pat00071
로부터 하기 수학식 1을 최대화하여 모델 파라미터(
Figure 112017068234498-pat00072
)를 추정하는 것이다.
Figure 112017068234498-pat00073
여기서,
Figure 112017068234498-pat00074
는 하이퍼 파라미터 {
Figure 112017068234498-pat00075
}를 나타낸다. 파라미터
Figure 112017068234498-pat00076
Figure 112017068234498-pat00077
,
Figure 112017068234498-pat00078
는 각각 시각 주제, 배경, 텍스트 주제 분포를 나타낸다.
위의 분포를 정확하게 추정하는 것은 매우 어려운 문제이므로, 근사 추정 알고리즘을 사용할 수 있다. CTMB의 파라미터 추정의 일 실시 예로, 아래와 같은 Monte Carlo EM 알고리즘이 사용될 수 있다. 이 알고리즘에서 잠재변수 z, s, y의 샘플링에는 뭉개진 깁스 샘플링 알고리즘이 사용될 수 있으며, 이는 수학식 2 내지 4와 같이 계산될 수 있다.
보다 구체적으로, Monte Carlo EM 알고리즘에 의하면, 하나 이상의 시각 단어(시각 단어집) 및 하나 이상의 텍스트 단어(텍스트 단어집)으로 형성된 이미지 코퍼스가 입력이 되고, 출력은 추정된 파라미터인
Figure 112017068234498-pat00079
가 된다. 상기 알고리즘에 따르면, 먼저 각 파라미터를 초기화({
Figure 112017068234498-pat00080
})하고, 주제의 개수를 K라고 할 때, k=1, ..., K에서, {
Figure 112017068234498-pat00081
}가 주어졌을 때, 하기 수학식 2 내지 수학식 4를 이용한 뭉개진 깁스 샘플링으로부터 각각의 이미지(
Figure 112017068234498-pat00082
)에 대하여 N깁스 단계에 의한 샘플 잠재 변수를 획득할 수 있다. 다음으로, 수학식 6 내지 8을 이용하여 {
Figure 112017068234498-pat00083
}의 계산을 완료할 수 있다.
Figure 112017068234498-pat00084
Figure 112017068234498-pat00085
Figure 112017068234498-pat00086
상기 수학식 2 내지 4를 살펴보면,
Figure 112017068234498-pat00087
Figure 112017068234498-pat00088
는 각각 연관된 주제 단어와 배경 단어에 할당된 이미지 d의 시각 단어 수를 의미한다.
Figure 112017068234498-pat00089
는 주제 t에 할당된 이미지 d의 시각 단어 수이며,
Figure 112017068234498-pat00090
는 시각 단어 v, 텍스트 단어 w가 각각 주제 t에 할당된 횟수,
Figure 112017068234498-pat00091
는 단어 v가 이미지 코퍼스의 배경 단어 분포에 할당된 횟수이다. 그리고
Figure 112017068234498-pat00092
는 현재 할당을 제외한 모든 할당을 나타낸다.
위 방정식은 파라미터
Figure 112017068234498-pat00093
를 별도로 주변화(marginalize)시킴으로써 얻어진다. 관찰되는 바와 같이, 수학식 2의 첫 번째 항은 주제 분포
Figure 112017068234498-pat00094
과 배경 분포
Figure 112017068234498-pat00095
dp 할당된 시각 단어의 비율을 나타낸다. 수학식 2의 두 번째 항은 특정 주제(t)에서 특정 시각 단어(
Figure 112017068234498-pat00096
)가 나올 확률을 나타내며, 수학식 3의 두 번째 항은 배경 단어의 확률을 나타낸다. 수학식 2의 마지막 항은 특정 이미지(
Figure 112017068234498-pat00097
)에서 특정 주제(t)가 나올 확률을 나타낸다. 나아가 수학식 4는 관찰된 텍스트 단어
Figure 112017068234498-pat00098
가 주제(t)에 할당되는 확률을 측정하는데, 이 식의 마지막 항은 하나의 이미지에서 주제 t에 할당된 시각 단어의 비율을 통해 시각적 내용과의 상응도를 나타낸다.
모든 잠재 변수가 샘플링 방정식으로부터 계산되므로, 파라미터
Figure 112017068234498-pat00099
는 사후 분포를 검토하여 추정된다. 몇 번의 반복되는 단계에 따라, 파라미터들은
Figure 112017068234498-pat00100
로 수렴한다. 주제-시각 단어 다항식의 뒷부분은 다음 수학식 5 내지 8과 같이 계산된다.
Figure 112017068234498-pat00101
Figure 112017068234498-pat00102
,
Figure 112017068234498-pat00103
,
Figure 112017068234498-pat00104
이다. 따라서,
Figure 112017068234498-pat00105
Figure 112017068234498-pat00106
의 사후 평균으로 추정할 수 있다. 이는 다음과 같이 단순히 정규화된 디리클레 파라미터이다.
Figure 112017068234498-pat00107
수학식 6에서의 추정과 유사하게, 배경 분포 및 텍스트 분포에 해당하는
Figure 112017068234498-pat00108
Figure 112017068234498-pat00109
도 다음과 같이 추정할 수 있다.
Figure 112017068234498-pat00110
Figure 112017068234498-pat00111
모델 파라미터가 추정되면, 본 발명의 일 실시 예에 따른 배경분포 토픽모델링부(130, 230)는 쿼리이미지가 입력되거나, 새 이미지가 데이터베이스에 추가될 때, 이미지를 추론할 준비를 한다. 추론 단계에서, 수학식 2 및 수학식 3의 두 번째 항과 수학식 4의 첫 번째 항을 이미 추정된 파라미터
Figure 112017068234498-pat00112
로 대체하여,
Figure 112017068234498-pat00113
와 같은 보이지 않는 이미지들의 잠재 파라미터를 유도할 수 있다.
본 발명의 일 실시 예에 따른 이미지검색 프레임워크는 각 이미지를 독립적으로 고려한다. 따라서 처리할 여러 시스템 간에 이미지 분배가 가능하므로, 프레임워크의 확장이 가능하며, 데이터베이스에 있는 수십억개의 이미지가 실제 응용 프로그램에서 작동할 수 있다.
제 1 배경분포 토픽모델링부(150)는 추정된 모델 파라미터를 포함하는 배경분포 토픽모델을 이용하여 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00114
)를 모델링하고, 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00115
)와 이미지 내 특정 주제 비율(
Figure 112017068234498-pat00116
)을 이용하여 데이터베이스 이미지에 대한 태그의 상응도를 산출하고, 그에 따라 태그를 정제할 수 있다. 이미지의 주제 분포 모델링은 전술한 바와 같으며, 태그의 정제는 후술하는 바와 같다.
본 발명의 일 실시 예에 따른 배경분포 토픽모델(CTMB)에서, 특정 이미지
Figure 112017068234498-pat00117
에 대한 태그
Figure 112017068234498-pat00118
의 상응도(상응 확률)은 수학식 9에 따라 계산될 수 있다.
Figure 112017068234498-pat00119
따라서 태그를 예측하고, 누락된 태그를 추가하여 향상시키는 태그의 정제는 관련 태그가 계산된 확률에 기초하여 정렬하는 것을 통해 달성된다. 다시 말해서, 관련성 없는 태그의 확률은 작아야 하지만, 누락된 태그의 확률은 추출된 주제를 통해 증가된다. 여기서,
Figure 112017068234498-pat00120
Figure 112017068234498-pat00121
는 각각 태그-토픽 분포와 토픽-문서 비율을 나타낸다.
검색 모듈(200)에 쿼리 이미지 또는 검색 키워드가 입력되면, 제 2 전처리부(230)는 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 검색 키워드로부터 하나 이상의 텍스트 단어를 획득할 수 있는데, 제 2 전처리부(230)의 동작은 데이터베이스 이미지 및 데이터베이스 이미지에 맵핑된 태그를 전처리하는 제 1 전처리부(130)의 동작과 동일하다.
제 2 배경분포 토픽모델링부(250)는 추정된 모델 파라미터를 포함하는 배경분포 토픽모델을 이용하여 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00122
)를 모델링할 수 있다. 여기서, 제 2 배경분포 토픽모델링부(250)는 제 1 배경분포 토픽모델링부(150)에서 추정된 모델 파라미터를 이용하여 토픽 모델링을 수행한다. 제 2 배경분포 토픽모델링부(250)의 토픽 모델링은 전술한 제 1 배경분포 토픽모델링부(150)에서의 동작과 동일한 방법으로 이루어진다.
제 1 배경분포 토픽모델링부(150)가 데이터베이스 이미지의 주제를 추출하고, 데이터베이스 이미지에 맵핑된 태그를 정제하고(170), 제 2 배경분포 토픽모델링부(250)가 쿼리 이미지의 주제를 추출하고 이를 이용하여 태그를 생성하면, 유사도 평가부(270)는 이들을 이용하여 데이터베이스 이미지와 쿼리 이미지의 유사도 또는 검색 키워드와 데이터베이스 이미지의 유사도를 평가한다.
보다 구체적으로, 유사도 평가부(270)는 데이터베이스 이미지(
Figure 112017068234498-pat00123
) 각각에 대하여 쿼리 이미지(
Figure 112017068234498-pat00124
)와의 유사도(
Figure 112017068234498-pat00125
)를 수학식 10에 따라 계산할 수 있다.
Figure 112017068234498-pat00126
위 수식에서
Figure 112017068234498-pat00127
Figure 112017068234498-pat00128
는 데이터베이스 이미지(
Figure 112017068234498-pat00129
) 및 쿼리 이미지(
Figure 112017068234498-pat00130
)의 시각 정보에 각각 대응되며,
Figure 112017068234498-pat00131
Figure 112017068234498-pat00132
는 데이터베이스 이미지(
Figure 112017068234498-pat00133
) 및 쿼리 이미지(
Figure 112017068234498-pat00134
) 각각의 텍스트 정보를 나타내는 두 개의 W차원 벡터이다.
Figure 112017068234498-pat00135
는 미리 설정된 텍스트 유사성의 가중치를 제어하는 파라미터로, 이 값은 사용자의 기본 설정 또는 쿼리 유형을 기반으로 설정될 수 있다. 예를 들어, 쿼리가 검색 키워드이면,
Figure 112017068234498-pat00136
는 1로 설정될 수 있다. 이 경우,
Figure 112017068234498-pat00137
이며, 여기서 i 번째 태그가 쿼리에 나타나면 i번째 요소는 1로 설정될 수 있다.
반면, 검색 요청이 이미지 또는 이미지와 검색키워드 모두를 포함하는 경우, 시각적 표현
Figure 112017068234498-pat00138
와 정제된 태그 r의 텍스 표현은 CTMB 모델 적용 후에 추정될 수 있다. 이 작업에서 텍스트 정보 및 시각 정보는 동일한 중요도를 가지므로, 파라미터
Figure 112017068234498-pat00139
는 0.5로 설정될 것이다. 검색 요청(쿼리)에 검색 키워드 없이 쿼리 이미지만 포함된 경우, CTMB의 텍스트 부분은 제외되고, 주제는 온전하게 이미지 특징에서만 추출될 수 있다.
최종적으로, 리스트 제공부(280, 미도시)는 유사도 평가부(270)에서의 평가 결과에 따라 데이터베이스 이미지를 점수에 따라 내림차순으로 정렬하여 사용자에게 제공할 수 있다.
다음으로, 도 3을 참조하여, 본 발명의 일 실시 예에 따른 토픽 모델링을 이용한 시맨틱 이미지 검색 방법을 설명한다. 이하에서의 설명의 편의를 위해 본 발명의 일 실시 예에 따른 시맨틱 이미지 검색이 임의의 검색 시스템에서 이루어진다고 가정하고 설명한다. 실제로 본 발명의 일 실시 예에 따른 이미지 검색 방법은 다수의 서로 다른 주체(모듈)에 의해 수행될 수 있으며, 오프라인/온라인에서 각 단계가 별도로 이루어질 수 있음에 유의한다.
도 3을 참조하면, 데이터베이스에 저장된 하나 이상의 데이터베이스 이미지에서 쿼리이미지 또는 검색 키워드에 대응되는 이미지를 검색하는 본 발명의 일 실시 예에 의한 이미지 검색 방법에 의하면, 검색 시스템은 하나 이상의 태그가 맵핑된 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득하고(S100), 시각 단어와 텍스트 단어를 이용하여 주제별 시각 단어 분포(
Figure 112017068234498-pat00140
), 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00141
) 및 배경의 시각 단어 분포(
Figure 112017068234498-pat00142
)를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정할 수 있다(S200). 다음으로, 검색 시스템 추정된 모델 파라미터를 포함하는 배경분포 토픽모델을 이용하여 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00143
)를 모델링할 수 있다(S300). 다음으로 검색 시스템은 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00144
)와 이미지 내 주제 비율(
Figure 112017068234498-pat00145
)을 이용하여 데이터베이스 이미지에 대한 태그의 상응도를 산출하고, 그에 따라 태그를 정제할 수 있다(S400).
한편 검색 시스템에 검색 요청이 수신되면, 검색 시스템은 검색 요청에 쿼리 이미지가 포함되어 있는지, 검색 키워드가 포함되어 있는지 여부를 판단할 수 있다(S500). 판단 결과, 쿼리 이미지를 포함하는 검색 요청이 입력되면 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 추정된 모델 파라미터를 포함하는 배경분포 토픽모델을 이용하여 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00146
)를 모델링하고(S630), 데이터베이스 이미지의 주제 분포(
Figure 112017068234498-pat00147
)와 데이터베이스에서 쿼리 이미지의 주제 분포(
Figure 112017068234498-pat00148
)를 이용하여 데이터베이스 이미지의 유사도를 평가할 수 있다(S700). 만약, 검색 요청에 검색 키워드가 포함되어 있으면, 검색 시스템은 단계 100 내지 단계 300을 통해 정제된 데이터베이스 이미지의 태그 중에서 검색 키워드에 대응되는 태그를 검색할 수 있다(S650). 그리고 단계 700에서 키워드-태그 간 유사도를 평가할 수 있다. 단계 630과 단계 650은 동시에 이루어질 수 있으며, 검색 요청에 쿼리 이미지 또는 검색 키워드 중 어느 하나만 포함되어 있다면 하나의 단계만 수행될 수 있다.
단계 700의 유사도 평가 결과에 따라, 쿼리 이미지 또는 검색 키워드 중 적어도 하나와 유사한 데이터베이스 이미지의 유사도 점수가 산출되면, 검색 시스템은 유사도가 높은 순서대로 데이터베이스 이미지를 정렬하여 제공할 수 있다(S800)
도 4를 참조하여 단계 100을 보다 자세하게 살펴보면, 단계 100에서 검색 시스템은 데이터베이스 이미지에서 이미지 특징을 추출하고(S130), 추출한 이미지 특징을 클러스터링하여 클러스터의 대표 값을 추출하고(S150), 대표 값을 양자화하여 시각 단어를 획득(S170)함으로써, 데이터베이스 이미지에서 시각 단어를 획득할 수 있다.
도 5를 참조하여 단계 200을 보다 자세하게 살펴보면, 단계 210에서 검색 시스템은 주제 분포에 할당된 시각 단어의 비율, 특정 주제(t)에서 특정 시각 단어(
Figure 112017068234498-pat00149
)가 나올 확률, 특정 이미지(
Figure 112017068234498-pat00150
)에서 특정 주제(t)가 나올 확률을 이용하여 주제 분포에 할당된 시각 단어의 비율을 도출할 수 있다. 다음으로, 단계 230에서 검색 시스템은 배경 분포에 할당된 시각 단어의 비율, 배경 단어의 확률을 이용하여 배경 분포에 할당된 시각 단어의 비율을 도출한다. 그리고 단계 250에서 특정 주제(t)에서 텍스트 단어(
Figure 112017068234498-pat00151
)가 나올 확률, 특정 이미지(
Figure 112017068234498-pat00152
)에서 특정 주제(t)가 나올 확률을 이용하여 텍스트 단어(
Figure 112017068234498-pat00153
)가 특정 주제(t)에 할당될 확률을 도출한다. 검색 시스템은 파라미터 값이 수렴 될 때까지 하나 이상의 데이터베이스 이미지에 대하여 a 단계 내지 c 단계를 반복적으로 수행하여, 정규화된 디리클레 파라미터인 주제별 시각 단어 분포(
Figure 112017068234498-pat00154
), 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00155
) 및 배경의 시각 단어 분포(
Figure 112017068234498-pat00156
)를 획득할 수 있다(S290). 그리고 이렇게 획득한 모델 파라미터는 이후 단계 630에서 쿼리 이미지의 주제 분포를 모델링할 때 사용된다.
단계 290에서 주제별 시각 단어 분포(
Figure 112017068234498-pat00157
), 상기 주제별 텍스트 단어 분포(
Figure 112017068234498-pat00158
) 및 상기 배경의 시각 단어 분포(
Figure 112017068234498-pat00159
)는 전술한 수학식 6내지 수학식 8에 따라 추정되며, 이 수식에서
Figure 112017068234498-pat00160
,
Figure 112017068234498-pat00161
,
Figure 112017068234498-pat00162
는 기 설정된 디리클레 파라미터,
Figure 112017068234498-pat00163
는 시각 단어 v가 주제 t에 할당된 횟수,
Figure 112017068234498-pat00164
는 텍스트 단어 w가 주제 t에 할당된 횟수,
Figure 112017068234498-pat00165
는 시각 단어 v가 배경 분포에 할당된 횟수를 의미한다.
한편, 단계 700의 유사도 평가 방법을 보다 자세히 살펴보면, 데이터베이스 이미지(
Figure 112017068234498-pat00166
) 각각에 대하여 쿼리 이미지(
Figure 112017068234498-pat00167
)와의 유사도(
Figure 112017068234498-pat00168
)는 전술한 수학식 10에 따라 계산될 수 있으며, 수학식 10에서
Figure 112017068234498-pat00169
Figure 112017068234498-pat00170
는 데이터베이스 이미지(
Figure 112017068234498-pat00171
) 및 쿼리 이미지(
Figure 112017068234498-pat00172
)의 시각 정보에 각각 대응되며,
Figure 112017068234498-pat00173
Figure 112017068234498-pat00174
는 데이터베이스 이미지(
Figure 112017068234498-pat00175
) 및 쿼리 이미지(
Figure 112017068234498-pat00176
)의 텍스트 정보에 각각 대응되고,
Figure 112017068234498-pat00177
는 미리 설정된 텍스트 유사성의 가중치를 제어하는 파라미터일 수 있다.
본 발명의 일 실시 예에 따르면, 인터넷의 발전으로 인해 매일 인터넷에 업로드 되는 수백만 개의 이미지를 텍스트 또는 이미지를 이용하여 효율적으로 검색할 수 있다. 본 발명은 웹 애플리케이션 및 모바일 애플리케이션에 적용 가능하며, 사용자는 스마트 폰 또는 인터넷 브라우저를 사용하여 텍스트, 이미지 또는 둘 다를 사용하여 관련 이미지를 매우 손쉽고 간단하게 쿼리할 수 있다. 각 이미지의 처리는 독립적으로 수행될 수 있어, 본 발명에 의하면 빠른 이미지 처리가 가능하며, 따라서 애플리케이션에 실제적인 적용이 가능하다. 또한, 각 이미지는 시각 단어 및 텍스트 단어의 작은 벡터로 표시되기 때문에 저장 공간을 줄이고 네트워크 대기 시간을 줄일 수 있다는 장점이 있다.
본 명세서에서 생략된 일부 실시 예는 그 실시 주체가 동일한 경우 동일하게 적용 가능하다. 또한, 전술한 본 발명은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.
100: 검색 데이터 생성 모듈
110: 데이터베이스
130: 제 1 전처리부
150: 제 1 배경분포 토픽모델링부
200: 검색 모듈
230: 제 2 전처리부
250: 제 2 배경분포 토픽모델링부
270: 유사도 평가부

Claims (15)

  1. 검색 시스템이 데이터베이스에 저장된 하나 이상의 데이터베이스 이미지에서 쿼리이미지 또는 검색 키워드에 대응되는 이미지를 검색하는 방법에 있어서,
    하나 이상의 태그가 맵핑된 상기 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득하는 전처리 단계;
    상기 시각 단어와 상기 텍스트 단어를 이용하여 주제별 시각 단어 분포(
    Figure 112019007512504-pat00178
    ), 주제별 텍스트 단어 분포(
    Figure 112019007512504-pat00179
    ) 및 배경의 시각 단어 분포(
    Figure 112019007512504-pat00180
    )를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정하는 단계;
    상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 데이터베이스 이미지의 주제 분포(
    Figure 112019007512504-pat00181
    )를 모델링하는 단계;
    상기 주제별 텍스트 단어 분포(
    Figure 112019007512504-pat00182
    )와 이미지 내 주제 비율(
    Figure 112019007512504-pat00183
    )을 이용하여 상기 데이터베이스 이미지에 대한 상기 태그의 상응도를 산출하고, 그에 따라 상기 태그를 정제하는 단계;
    상기 쿼리 이미지를 포함하는 검색 요청이 입력되면 상기 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 쿼리 이미지의 주제 분포(
    Figure 112019007512504-pat00184
    )를 모델링하는 단계;
    상기 검색 키워드를 포함하는 검색 요청이 입력되면 상기 정제된 태그와 상기 검색 키워드의 유사도를 평가하고, 상기 데이터베이스 이미지의 주제 분포(
    Figure 112019007512504-pat00185
    )와 상기 데이터베이스에서 상기 쿼리 이미지의 주제 분포(
    Figure 112019007512504-pat00186
    )를 이용하여 상기 데이터베이스 이미지의 유사도를 평가하는 단계; 및
    상기 유사도 평가 결과에 따라, 상기 쿼리 이미지 또는 상기 검색 키워드 중 적어도 하나와 유사한 데이터베이스 이미지를 유사도가 높은 순서대로 정렬하는 단계를 포함하는 이미지 검색 방법.
  2. 제1항에 있어서,
    상기 모델 파라미터 추정 단계는
    주제 분포에 할당된 시각 단어의 비율, 특정 주제(t)에서 특정 시각 단어(
    Figure 112018092942076-pat00187
    )가 나올 확률, 특정 데이터베이스 이미지(
    Figure 112018092942076-pat00188
    )에서 특정 주제(t)가 나올 확률을 이용하여 주제 분포에 할당된 시각 단어의 비율을 도출하는 a 단계;
    배경 분포에 할당된 시각 단어의 비율, 배경 단어의 확률을 이용하여 배경 분포에 할당된 시각 단어의 비율을 도출하는 b 단계;
    특정 주제(t)에서 텍스트 단어(
    Figure 112018092942076-pat00189
    )가 나올 확률, 특정 데이터베이스 이미지(
    Figure 112018092942076-pat00190
    )에서 특정 주제(t)가 나올 확률을 이용하여 상기 텍스트 단어(
    Figure 112018092942076-pat00191
    )가 상기 특정 주제(t)에 할당될 확률을 도출하는 c 단계;
    상기 하나 이상의 데이터베이스 이미지에 대하여 상기 a 단계 내지 상기 c 단계를 반복적으로 수행하여, 정규화된 디리클레 파라미터인 상기 주제별 시각 단어 분포(
    Figure 112018092942076-pat00192
    ), 상기 주제별 텍스트 단어 분포(
    Figure 112018092942076-pat00193
    ) 및 상기 배경의 시각 단어 분포(
    Figure 112018092942076-pat00194
    )를 획득하는 모델 파라미터 획득 단계를 포함하는 이미지 검색 방법.
  3. 제2항에 있어서,
    상기 모델 파라미터 획득 단계는
    상기 주제별 시각 단어 분포(
    Figure 112018092942076-pat00195
    ), 상기 주제별 텍스트 단어 분포(
    Figure 112018092942076-pat00196
    ) 및 상기 배경의 시각 단어 분포(
    Figure 112018092942076-pat00197
    )는 하기 수식에 따라 추정되며,
    상기 수식에서
    Figure 112018092942076-pat00198
    ,
    Figure 112018092942076-pat00199
    ,
    Figure 112018092942076-pat00200
    는 기 설정된 디리클레 파라미터,
    Figure 112018092942076-pat00201
    는 시각 단어 v가 주제 t에 할당된 횟수,
    Figure 112018092942076-pat00202
    는 텍스트 단어 w가 주제 t에 할당된 횟수,
    Figure 112018092942076-pat00203
    는 시각 단어 v가 배경 분포에 할당된 횟수인 이미지 검색 방법.
    Figure 112018092942076-pat00204

    Figure 112018092942076-pat00205

    Figure 112018092942076-pat00206

  4. 제1항에 있어서,
    상기 유사도 평가 단계는
    상기 데이터베이스 이미지(
    Figure 112018092942076-pat00207
    ) 각각에 대하여 쿼리 이미지(
    Figure 112018092942076-pat00208
    )와의 유사도(
    Figure 112018092942076-pat00209
    )를 하기 수식에 따라 계산하는 단계를 포함하고,
    상기 수식에서
    Figure 112018092942076-pat00210
    Figure 112018092942076-pat00211
    는 상기 데이터베이스 이미지(
    Figure 112018092942076-pat00212
    ) 및 상기 쿼리 이미지(
    Figure 112018092942076-pat00213
    )의 시각 정보에 각각 대응되며,
    Figure 112018092942076-pat00214
    Figure 112018092942076-pat00215
    는 상기 데이터베이스 이미지(
    Figure 112018092942076-pat00216
    ) 및 상기 쿼리 이미지(
    Figure 112018092942076-pat00217
    )의 텍스트 정보에 각각 대응되고,
    Figure 112018092942076-pat00218
    는 미리 설정된 텍스트 유사성의 가중치를 제어하는 파라미터인 것을 특징으로 하는 이미지 검색 방법.
    Figure 112018092942076-pat00219

  5. 하나 이상의 데이터베이스 이미지를 저장하는 데이터베이스;
    하나 이상의 태그가 맵핑된 상기 데이터베이스 이미지로부터 하나 이상의 시각 단어 및 하나 이상의 텍스트 단어를 획득하는 제 1 전처리부;
    상기 시각 단어와 상기 텍스트 단어를 이용하여 주제별 시각 단어 분포(
    Figure 112018092942076-pat00220
    ), 주제별 텍스트 단어 분포(
    Figure 112018092942076-pat00221
    ) 및 배경의 시각 단어 분포(
    Figure 112018092942076-pat00222
    )를 포함하는 배경분포 토픽모델의 모델 파라미터를 추정하고, 상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 상기 데이터베이스 이미지의 주제 분포(
    Figure 112018092942076-pat00223
    )를 모델링하고, 상기 주제별 텍스트 단어 분포(
    Figure 112018092942076-pat00224
    )와 이미지 내 특정 주제 비율(
    Figure 112018092942076-pat00225
    )을 이용하여 상기 데이터베이스 이미지에 대한 상기 태그의 상응도를 산출하고, 그에 따라 상기 태그를 정제하는 제 1 배경분포 토픽모델링부;
    쿼리 이미지 또는 검색 키워드가 입력되면 상기 쿼리 이미지로부터 하나 이상의 시각 단어를 획득하고, 상기 검색 키워드로부터 하나 이상의 텍스트 단어를 획득하는 제 2 전처리부;
    상기 추정된 모델 파라미터를 포함하는 상기 배경분포 토픽모델을 이용하여 쿼리 이미지의 주제 분포(
    Figure 112018092942076-pat00226
    )를 모델링하는 제 2 배경분포 토픽모델링부;
    상기 검색 키워드를 포함하는 검색 요청이 입력되면 상기 정제된 태그와 상기 검색 키워드의 유사도를 평가하고, 상기 데이터베이스 이미지의 주제 분포(
    Figure 112018092942076-pat00227
    )와 상기 데이터베이스에서 상기 쿼리 이미지의 주제 분포(
    Figure 112018092942076-pat00228
    )를 이용하여 상기 데이터베이스 이미지의 유사도를 평가하는 유사도 평가부; 및
    상기 유사도 평가부에서의 유사도 평가 결과에 따라, 상기 쿼리 이미지 또는 상기 검색 키워드 중 적어도 하나와 유사한 데이터베이스 이미지를 유사도가 높은 순서대로 정렬하는 리스트 제공부를 포함하는 이미지 검색 시스템.
  6. 제5항에 있어서,
    상기 제 1 배경분포 토픽모델링부는
    주제 분포에 할당된 시각 단어의 비율, 특정 주제(t)에서 특정 시각 단어(
    Figure 112018092942076-pat00229
    )가 나올 확률, 특정 데이터베이스 이미지(
    Figure 112018092942076-pat00230
    )에서 특정 주제(t)가 나올 확률을 이용하여 주제 분포에 할당된 시각 단어의 비율을 도출하고, 배경 분포에 할당된 시각 단어의 비율, 배경 단어의 확률을 이용하여 배경 분포에 할당된 시각 단어의 비율을 도출하고, 특정 주제(t)에서 텍스트 단어(
    Figure 112018092942076-pat00231
    )가 나올 확률, 특정 데이터베이스 이미지(
    Figure 112018092942076-pat00232
    )에서 특정 주제(t)가 나올 확률을 이용하여 상기 텍스트 단어(
    Figure 112018092942076-pat00233
    )가 상기 특정 주제(t)에 할당될 확률을 도출하는 계산부;
    상기 하나 이상의 데이터베이스 이미지에 대하여 상기 계산부에서의 계산을 반복적으로 수행하여, 정규화된 디리클레 파라미터인 상기 주제별 시각 단어 분포(
    Figure 112018092942076-pat00234
    ), 상기 주제별 텍스트 단어 분포(
    Figure 112018092942076-pat00235
    ) 및 상기 배경의 시각 단어 분포(
    Figure 112018092942076-pat00236
    )를 획득하는 모델 파라미터 추정부를 포함하는 이미지 검색 시스템.
  7. 제6항에 있어서,
    상기 모델 파라미터 추정부는
    상기 주제별 시각 단어 분포(
    Figure 112019502247420-pat00237
    ), 상기 주제별 텍스트 단어 분포(
    Figure 112019502247420-pat00238
    ) 및 상기 배경의 시각 단어 분포(
    Figure 112019502247420-pat00239
    )를 하기 수식에 따라 추정하며,
    상기 수식에서
    Figure 112019502247420-pat00240
    ,
    Figure 112019502247420-pat00241
    ,
    Figure 112019502247420-pat00242
    는 기 설정된 디리클레 파라미터,
    Figure 112019502247420-pat00243
    는 시각 단어 v가 주제 t에 할당된 횟수,
    Figure 112019502247420-pat00244
    는 텍스트 단어 w가 주제 t에 할당된 횟수,
    Figure 112019502247420-pat00245
    는 시각 단어 v가 배경 분포에 할당된 횟수인 이미지 검색 시스템.
    Figure 112019502247420-pat00246

    Figure 112019502247420-pat00247

    Figure 112019502247420-pat00248

  8. 제5항에 있어서,
    상기 유사도 평가부는
    상기 데이터베이스 이미지(
    Figure 112018092942076-pat00249
    ) 각각에 대하여 쿼리 이미지(
    Figure 112018092942076-pat00250
    )와의 유사도(
    Figure 112018092942076-pat00251
    )를 하기 수식에 따라 계산하고,
    상기 수식에서
    Figure 112018092942076-pat00252
    Figure 112018092942076-pat00253
    는 상기 데이터베이스 이미지(
    Figure 112018092942076-pat00254
    ) 및 상기 쿼리 이미지(
    Figure 112018092942076-pat00255
    )의 시각 정보에 각각 대응되며,
    Figure 112018092942076-pat00256
    Figure 112018092942076-pat00257
    는 상기 데이터베이스 이미지(
    Figure 112018092942076-pat00258
    ) 및 상기 쿼리 이미지(
    Figure 112018092942076-pat00259
    )의 텍스트 정보에 각각 대응되고,
    Figure 112018092942076-pat00260
    는 미리 설정된 텍스트 유사성의 가중치를 제어하는 파라미터인 이미지 검색 시스템.
    Figure 112018092942076-pat00261

  9. 제1항 내지 제4항의 방법 중 어느 하나의 방법을 실행시키기 위하여 컴퓨터 판독 가능 매체에 저장된 이미지 검색 응용 프로그램.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
KR1020170090390A 2017-07-17 2017-07-17 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 KR101976081B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170090390A KR101976081B1 (ko) 2017-07-17 2017-07-17 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170090390A KR101976081B1 (ko) 2017-07-17 2017-07-17 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20190008699A KR20190008699A (ko) 2019-01-25
KR101976081B1 true KR101976081B1 (ko) 2019-08-28

Family

ID=65280573

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170090390A KR101976081B1 (ko) 2017-07-17 2017-07-17 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR101976081B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102193571B1 (ko) * 2019-03-29 2020-12-22 경북대학교 산학협력단 전자 장치, 이미지 검색 시스템 및 제어 방법
KR102415366B1 (ko) * 2020-04-02 2022-07-01 네이버 주식회사 서로 다른 모달의 피처를 이용한 복합 랭킹 모델을 통해 연관 이미지를 검색하는 방법 및 시스템
CN114253437A (zh) * 2020-09-21 2022-03-29 Oppo广东移动通信有限公司 主题相关信息获取方法及装置、存储介质和电子设备
WO2022085823A1 (ko) * 2020-10-22 2022-04-28 주식회사 데이타솔루션 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법
CN113343679B (zh) * 2021-07-06 2024-02-13 合肥工业大学 一种基于标签约束的多模态主题挖掘方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101255841B1 (ko) * 2011-01-06 2013-04-23 서울대학교산학협력단 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101255841B1 (ko) * 2011-01-06 2013-04-23 서울대학교산학협력단 바이소스 토픽모델을 이용한 이미지 연관 검색 방법 및 그 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nguyen Anh Tu 등, "Topic modeling and improvement of image representation for large-scale image retrieval", Information Sciences, Volume 366, Pages 99-120, 20 October 2016*

Also Published As

Publication number Publication date
KR20190008699A (ko) 2019-01-25

Similar Documents

Publication Publication Date Title
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US10482146B2 (en) Systems and methods for automatic customization of content filtering
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
Aznag et al. Probabilistic topic models for web services clustering and discovery
CN112559684A (zh) 一种关键词提取及信息检索方法
Hidayat et al. Automatic text summarization using latent Drichlet allocation (LDA) for document clustering
CN103778206A (zh) 一种网络服务资源的提供方法
CN112052356A (zh) 多媒体分类方法、装置和计算机可读存储介质
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
de Ves et al. Modeling user preferences in content-based image retrieval: A novel attempt to bridge the semantic gap
CN111767404B (zh) 一种事件挖掘方法和装置
Tian et al. Automatic image annotation with real-world community contributed data set
Sang et al. Faceted subtopic retrieval: Exploiting the topic hierarchy via a multi-modal framework
Zha et al. Text mining in multimedia
Bouhlel et al. Hypergraph learning with collaborative representation for image search reranking
Su et al. Parallel big image data retrieval by conceptualised clustering and un-conceptualised clustering
Lin et al. A novel multi-modal integration and propagation model for cross-media information retrieval
Theodosiou et al. Image retrieval using keywords: The machine learning perspective
Morsillo et al. Mining the web for visual concepts
Wang et al. Exploring statistical correlations for image retrieval
KR101643979B1 (ko) 비디오 컨텐츠 증강 방법
Vadivel et al. Image retrieval from the web using multiple features

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant