KR101657674B1

KR101657674B1 - 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법

Info

Publication number: KR101657674B1
Application number: KR1020150027491A
Authority: KR
Inventors: 장병탁; 이상우; 왓킨스 크리스토퍼
Original assignee: 서울대학교산학협력단
Priority date: 2015-02-26
Filing date: 2015-02-26
Publication date: 2016-09-19
Also published as: KR20160104442A

Abstract

본 발명은 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법에 관한 것으로, 복수의 이미지 데이터 및 상기 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신하여 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성하는 단계, 상기 제1 이미지 모달 정보 및 상기 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계, 사용자 단말로부터 특정 텍스트가 수신되면 상기 특정 텍스트와 연관된 텍스트 모달 정보를 검색하는 단계 및 성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공하는 단계를 포함한다. 따라서 비모수 베이지안 합곱 네트워크를 통해 데이터에 대한 모달 정보를 학습하여 빠른 검색 서비스를 제공할 수 있다.

Description

컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법{COMPUTER-EXECUTABLE IMAGE SEARCHING METHOD USING NON-PARAMETRIC BAYESIAN SUM-PRODUCT NETWORKS}

본 발명은 이미지 검색 기술에 관한 것으로, 보다 상세하게는, 비모수 베이지안 합곱 네트워크를 통해 데이터에 대한 모달 정보를 학습하여 빠른 검색 서비스를 제공할 수 있는 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법에 관한 것이다.

심층 모델(Deep Architecture)은 얕은 모델(Shallow Architecture)과 대비되는 기계학습 모델 구조의 일종으로, 기계학습 모델 또는 인공신경망 모델에서 두 개 이상의 많은 은닉 변수 층을 가지는 모델이다. 심층 모델은 얕은 모델보다 더 적은 파라미터 또는 적은 모델 복잡도를 가지고 데이터를 잘 표현할 수 있다. 예를 들어, 심층 모델이면서 확률 그래프 모델인 모델은 심층 볼쯔만 머신(Deep Boltzmann Machine) 및 합 곱 네트워크를 포함할 수 있다.

확률 그래프 모델(Probabilistic Graphical Model)은 그래프 구조를 사용하여 데이터의 확률 분포를 제한된 표현력 하에서 표현하는 확률 모델이다. 합 곱 네트워크(Sum-Product Networks)는 합 연산과 곱 연산을 표현하여 빠른 시간에 임의의 일부 입력이 주어졌을 때 나머지 입력에 대한 확률을 계산할 수 있는 확률 그래프 모델이다. 베이지안(Bayesian) 기법은 확률 모델의 파라미터를 추정할 때 데이터를 가장 잘 설명하는 파라미터에만 관심을 가지는 것이 아니라 파라미터 자체의 선험적 확률을 같이 고려하여 학습하는 방법이며, 가중치에 대한 선험적 사전 확률이 가정된다. 비모수 베이지안(Non-parametric Bayesian)은 베이지안 기법의 확장으로, 파라미터의 개수가 무한하다고 가정하고 무한한 파라미터의 가능성에 대해 확률을 부여하는 기법이다.

한국등록특허 제10-0401470호는 웹 브라우저상의 일정 텍스트 입력창에 텍스트가 입력되면 텍스트 관련 이미지를 텍스트 입력창의 주위에 디스플레이할 수 있는 사용자 입력 텍스트에 관한 이미지 처리 서비스 방법을 개시한다. 이러한 기술은 로고 이미지 등을 해당 텍스트 관련 이미지로 사용하면 다수의 사용자들에게 반복적이고 지속적으로 기업 이미지를 홍보 할 수 있어 타사와의 차별화 및 이미지 독창성을 살린 광고가 가능해질 수 있다.

한국등록특허 제10-1449604호는 가속도 센서, 자이로 센서 등 인체의 모션을 측정할 수 있는 센서로부터 모션 측정 데이터를 수집하고, 수집된 데이터를 통계적으로 분석하여 모션을 인식할 수 있는 비모수적 베이지언 모션 인식 방법 및 그 장치를 개시한다. 이러한 기술은 시간에 따라 변하는 사람의 움직임의 동적이고 예측할 수 없는 특성을 설명하기 위하여 새로 관찰된 움직임의 탐색 및 클러스터링을 수용할 수 있다.

한국등록특허 제10-0401470호 한국등록특허 제10-1449604호

본 발명의 일 실시예는 비모수 베이지안 합곱 네트워크를 통해 데이터에 대한 모달 정보를 학습하여 빠른 검색 서비스를 제공할 수 있는 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법을 제공하고자 한다.

본 발명의 일 실시예는 실시간으로 들어오는 다수의 데이터 또는 다수의 변수에 대해 빠른 속도로 가중치 학습 및 추론을 수행할 수 있는 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법을 제공하고자 한다.

본 발명의 일 실시예는 이미지에 대응하는 키워드 및 키워드에 대응하는 이미지를 검색할 수 있는 검색 엔진을 제공할 수 있는 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법을 제공하고자 한다.

실시예들 중에서, 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법은 복수의 이미지 데이터 및 상기 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신하여 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성하는 단계, 상기 제1 이미지 모달 정보 및 상기 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계, 사용자 단말로부터 특정 텍스트가 수신되면 상기 특정 텍스트와 연관된 텍스트 모달 정보를 검색하는 단계 및 성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공하는 단계를 포함한다.

일 실시예에서, 상기 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계는 하기의 수학식1을 통해 비모수 베이지안 합 네트워크 프레임워크를 산출하는 단계를 포함할 수 있다.

[수학식1]

X: 특정 사건

w: 가중치

P: 자식 곱 노드

일 실시예에서, 상기 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계는 하기의 수학식2를 통해 비모수 베이지안 곱 네트워크 프레임워크를 산출하는 단계를 단계를 포함할 수 있다.

[수학식2]

X: 특정 사건

K: 상수

S: 자식 합 노드

본 발명의 일 실시예에 따른 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법은 비모수 베이지안 합곱 네트워크를 통해 데이터에 대한 모달 정보를 학습하여 빠른 검색 서비스를 제공할 수 있다.

본 발명의 일 실시예에 따른 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법은 실시간으로 들어오는 다수의 데이터 또는 다수의 변수에 대해 빠른 속도로 가중치 학습 및 추론을 수행할 수 있다.

본 발명의 일 실시예에 따른 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법은 이미지에 대응하는 키워드 및 키워드에 대응하는 이미지를 검색할 수 있다.

도 1은 본 발명의 일 실시예에 따른 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 시스템을 설명하는 블록도이다.
도 2는 도 1에 있는 이미지 검색 서버를 설명하는 블록도이다.
도 3은 도 1에 있는 이미지 검색 서버에서 수행되는 이미지 검색 과정을 설명하는 순서도이다.
도 4는 도 1에 있는 이미지 검색 서버에서 사용하는 디리클레 프로세스 및 계층적인 디리클레 프로세스를 설명하는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

한편, 본 발명은 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 서버 및 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체를 포함한다.

이미지 검색 서버는 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 복수의 이미지 데이터 및 상기 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신하여 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성하는 모달 정보 생성부, 상기 제1 이미지 모달 정보 및 상기 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 연관 학습 수행부, 사용자 단말로부터 특정 텍스트가 수신되면 상기 특정 텍스트와 연관된 텍스트 모달 정보를 검색하는 모달 정보 검색부 및 성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공하는 데이터 제공부를 포함한다.

이미지 검색 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체는 복수의 이미지 데이터 및 상기 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신하여 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성하는 기능, 상기 제1 이미지 모달 정보 및 상기 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 기능, 사용자 단말로부터 특정 텍스트가 수신되면 상기 특정 텍스트와 연관된 텍스트 모달 정보를 검색하는 기능 및 성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공하는 기능을 포함한다.

도 1은 본 발명의 일 실시예에 따른 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 시스템을 설명하는 블록도이다.

도 1을 참조하면, 이미지 검색 시스템(100)은 사용자 단말(110) 및 이미지 검색 서버(120)를 포함한다.

사용자 단말(110)은 네트워크를 통해 이미지 검색 서버(120)와 연결되어 이미지 검색 서버(120)에 텍스트를 입력하고 텍스트와 연관된 적어도 하나의 이미지 데이터를 수신할 수 있다. 일 실시예에서, 사용자 단말(110)은 이미지 검색 서버(120)에 복수의 텍스트들을 한번에 입력하고 각각의 텍스트에 대응하는 이미지 데이터를 수신할 수 있다. 예를 들어, 사용자 단말(110)은 입출력 장치가 구비된 스마트폰, 태블릿PC, 데스크탑(Desktop) 및 노트북 등으로 구현될 수 있다.

이미지 검색 서버(120)는 네트워크를 통해 사용자 단말(110)과 연결되어 사용자 단말(110)로부터 입력되는 텍스트와 연관된 이미지 데이터를 검출하여 사용자 단말(110)에 제공할 수 있다. 이미지 검색 서버(120)는 사용자 단말(110)로부터 텍스트 입력을 수신하기 전에, 복수의 이미지 데이터 및 복수의 텍스트 데이터들 각각에 대한 모달 정보를 생성하고 모달 정보에 대해 비모수 베이지안 합-곱 네트워크를 통해 연관 학습을 수행할 수 있다. 이하, 이미지 검색 서버(120)에 대한 상세한 설명은 도 3에서 설명한다.

한편, 본 발명에서는 사용자 단말(110)에서 입력한 텍스트에 대응하는 이미지 데이터를 검색하여 제공하는 것으로 설명하나, 이에 권리범위를 한정하고자 하는 것이 아니며, 사용자 단말(110)로부터 수신한 이미지에 대응하는 텍스트 데이터를 검색하여 제공하는 것 또한 당업자에 의해 용이하게 구현 가능하다.

도 2는 도 1에 있는 이미지 검색 서버를 설명하는 블록도이다.

도 2를 참조하면, 이미지 검색 서버(120)는 모달 정보 생성부(210), 연관 학습 수행부(220), 모달 정보 검색부(230), 데이터 제공부(240) 및 제어부(250)를 포함한다.

모달 정보 생성부(210)는 복수의 이미지 데이터 및 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신한다. 하나의 이미지 데이터는 적어도 하나의 텍스트와 연관될 수 있고, 하나의 텍스트는 적어도 하나의 이미지 데이터와 연관될 수 있다.

일 실시예에서, 모달 정보 생성부(210)는 실시간으로 적어도 하나의 웹문서를 수집하여 웹문서에서 복수의 이미지 데이터 및 복수의 텍스트 데이터를 검출할 수 있다.

다른 일 실시예에서, 모달 정보 생성부(210)는 사용자 단말(110)로부터 적어도 하나의 콘텐츠를 수신하여 적어도 하나의 콘텐츠로부터 복수의 이미지 데이터 및 복수의 텍스트 데이터를 검출할 수 있다.

모달 정보 생성부(210)는 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성한다. 모달 정보는 이미지 데이터 및 텍스트 데이터 각각에 대해 일반적으로 널리 쓰이는 정해진 양식에 해당한다.

연관 학습 수행부(220)는 제1 이미지 모달 정보 및 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행한다. 비모수 베이지안 합-곱 네트워크 프레임워크는 비모수 베이지안 합 네트워크 프레임워크 및 비모수 베이지안 곱 네트워크 프레임워크의 결합에 의해 생성될 수 있다.

비모수 베이지안 합 네트워크 프레임워크는 하기의 [수학식1]을 통해 산출될 수 있다.

[수학식1]

여기에서, X는 특정 사건에 해당하고, w는 자식 노드의 가중치에 해당하며, P는 자식 곱 노드에 해당한다. 비모수 베이지안 합 네트워크 프레임워크는 무한히 많은 자식 곱 노드를 가질 수 있고, 자식 곱 노드 각각에 대한 가중치의 합에 따라 값이 결정될 수 있다.

비모수 베이지안 곱 네트워크 프레임워크는 하기의 [수학식2]를 통해 산출될 수 있다.

[수학식2]

여기에서, X는 특정 사건에 해당하고, K는 상수에 해당하며, S는 자식 합 노드에 해당한다. 비모수 베이지안 곱 네트워크 프레임워크는 제한된 수의 자식 합 노드를 가질 수 있고, 자식 합 노드들 간의 곱에 따라 값이 결정될 수 있다.

연관 학습 수행부(220)는 비모수 베이지안 합-곱 네트워크 프레임워크에서 비모수 베이지안 합 네트워크 프레임워크의 자식 곱 노드의 무한한 가중치에 어떠한 확률 가정(prior)을 주느냐에 따라 다른 동작을 할 수 있다. 일 실시예에서, 연관 학습 수행부(220)는 디리클레 프로세스 확률 가정(Dirichlet Process prior)을 기초로 비모수 베이지안 합-곱 네트워크 프레임워크를 생성할 수 있다. 연관 학습 수행부(220)는 디리클레 프로세스 확률 가정을 기초로 트리(Tree) 구조의 비모수 베이지안 합-곱 네트워크 프레임워크를 생성할 수 있다(도 4의 (a)를 참조).

다른 일 실시예에서, 연관 학습 수행부(220)는 계층적인 디리클레 프로세스 확률 가정(Hierarchical Dirichlet Process prior)을 기초로 비모수 베이지안 합-곱 네트워크 프레임워크를 생성할 수 있다. 연관 학습 수행부(220)는 계층적인 디리클레 프로세스 확률 가정을 기초로 방향성 비순환 그래프(Directed Acyclic Graph, DAG) 구조의 비모수 베이지안 합-곱 네트워크 프레임워크를 생성할 수 있다(도 4의 (b)를 참조).

연관 학습 수행부(220)는 마르코프 사슬 몬테 카를로(Markov chain Monte Carlo; MCMC)를 기초로 제1 이미지 모달 정보 및 적어도 하나의 제1 텍스트 모달 정보에 대한 연관 학습을 수행할 수 있다.

일 실시예에서, 연관 학습 수행부(220)는 마르코프 사슬 몬테 카를로의 메트로폴리스-헤이팅스(Metropolist-Hastings) 알고리즘을 기초로 제1 이미지 모달 정보 및 적어도 하나의 제1 텍스트 모달 정보에 대한 연관 학습을 수행할 수 있다. 메트로폴리스-헤이팅스 알고리즘과 연관된 의사코드(Pseudo code; 실제 동작하는 코드는 아니지만 알고리즘이나 논리를 설명하는데 도움이 되는 코드)는 하기 [알고리즘1]과 같다.

[알고리즘1]

다른 일 실시예에서, 연관 학습 수행부(220)는 마르코프 사슬 몬테 카를로의 깁스 샘플링(Gibbs sampling) 알고리즘을 기초로 제1 이미지 모달 정보 및 적어도 하나의 제1 텍스트 모달 정보에 대한 연관 학습을 수행할 수 있다. 깁스 샘플링 알고리즘과 연관된 의사코드는 하기 [알고리즘2]와 같다.

[알고리즘2]

모달 정보 검색부(230)는 사용자 단말(110)로부터 특정 텍스트가 수신되면 특정 텍스트와 연관된 텍스트 모달 정보를 검색한다. 일 실시예에서, 모달 정보 검색부(230)는 특정 텍스트의 형태소를 분석하여 특정 텍스트와 연관된 텍스트 모달 정보를 검색할 수 있다.

데이터 제공부(240)는 특정 텍스트와 연관된 텍스트 모달 정보가 성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공한다. 예를 들어, 데이터 제공부(240)는 해당 텍스트 모달 정보와 상관 관계가 80% 이상인 해당 이미지 모달 정보를 검색할 수 있다.

일 실시예에서, 데이터 제공부(240)는 특정 텍스트와 적어도 하나의 해당 이미지 데이터를 쌍으로 연관하여 그래프 형태로 제공할 수 있다.

제어부(250)는 이미지 검색 서버(120)에 대한 전체적인 동작을 제어하고, 모달 정보 생성부(210), 연관 학습 수행부(220), 모달 정보 검색부(230) 및 데이터 제공부(240) 간의 동작 및 데이터 흐름을 제어할 수 있다.

도 3은 도 1에 있는 이미지 검색 서버에서 수행되는 이미지 검색 과정을 설명하는 순서도이다.

도 3을 참조하면, 모달 정보 생성부(210)는 복수의 이미지 데이터 및 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신하여 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성한다(단계 S301).

연관 학습 수행부(220)는 제1 이미지 모달 정보 및 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행한다(단계 S302).

모달 정보 검색부(230)는 사용자 단말(110)로부터 특정 텍스트가 수신되면 특정 텍스트와 연관된 텍스트 모달 정보를 검색한다(단계 S303 및 S304).

데이터 제공부(240)는 특정 텍스트와 연관된 텍스트 모달 정보가 성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공한다(단계 S305).

상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

[참고문헌]

(1) Poon, H. and Domingos, P. Sum-product networks: A new deep architecture. Uncertainty in Articial Intelligence 27 (UAI11), 2011.

(2) Poon, H. and Domingos, P. Discriminative learning of sum-product networks. Advances in Neural Information Processing Systems 25 (NIPS12), 2012.

(3) Amer, M. R. and Todorovic, S. Sum-product networks for modeling activities with stochastic structure. Computer Vision and Pattern Recognition (CVPR12), 2012.

(4) Gens, R. and Domingos, P. Learning the structure of sum-product networks. International Conference on Machine Learning 30 (ICML13), 2013.

(5) Teh, Y. W., Jordan, M. I., Beal, M. J, and Blei, D. M. Hierarchical Dirichlet Process. Journal of the American Statistical Association, 101(476): 1566{1581, 2004.

(6) Blackwell, D. and MacQueen, J. B. Ferguson Distributions Via Polya Urn Schemes. Annals of Statistics, 1(2):353{355, 1973.

(7) Delalleau, O. and Bengio, Y. Shallow vs. deep sum-product networks. Advances in Neural Information Processing Systems 24 (NIPS11), 2011.

(8) Neal, R. M. Markov Chain Sampling Methods for Dirichlet Process Mixture Models. Journal of Computational and Graphical Statistics, 9(2):249-265,2000.

(9) Rooshenas, A. and Lowd, D. Learning Sum-Product Networks with Direct and Indirect Variable Interactions. International Conference on Machine Learning 31 (ICML14), 2014.

(10) Lowd, D. and Domingos, P. Learning Markov networks with arithmetic circuits. International Conference on Articial Intelligence and Statistics 16 (AISTATS13), 2013.

(11) Peharz, R., Geiger, B. C., and Pernkopf, F. Greedy Part-Wise Learning of Sum-Product Networks. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD13), 2013.

100: 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 시스템
110: 사용자 단말
120: 이미지 검색 서버
210: 모달 정보 생성부
220: 연관 학습 수행부
230: 모달 정보 검색부
240: 데이터 제공부
250: 제어부

Claims

복수의 이미지 데이터 및 상기 복수의 이미지 데이터 각각과 연관된 적어도 하나의 텍스트 데이터를 수신하여 제1 이미지 데이터 및 적어도 하나의 제1 텍스트 데이터에 대한 모달 정보를 제1 이미지 모달 정보와 적어도 하나의 제1 텍스트 모달 정보로서 생성하는 단계;
상기 제1 이미지 모달 정보 및 상기 적어도 하나의 제1 텍스트 모달 정보에 대해 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계;
사용자 단말로부터 특정 텍스트가 수신되면 상기 특정 텍스트와 연관된 텍스트 모달 정보를 검색하는 단계; 및
성공적으로 검색되면 해당 텍스트 모달 정보와 상관 관계가 특정 기준 이상인 적어도 하나의 해당 이미지 모달 정보를 검색하여 적어도 하나의 해당 이미지 데이터를 제공하는 단계를 포함하고,
상기 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계는
하기의 수학식1을 통해 비모수 베이지안 합 네트워크 프레임워크를 산출하는 단계를 포함하는 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법.

[수학식1]

X: 특정 사건
w: 가중치
P: 자식 곱 노드
삭제
제1항에 있어서, 상기 비모수 베이지안 합-곱 네트워크 프레임워크를 통해 연관 학습을 수행하는 단계는
하기의 수학식2를 통해 비모수 베이지안 곱 네트워크 프레임워크를 산출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 비모수 베이지안 합곱 네트워크를 통한 이미지 검색 방법.

[수학식2]

X: 특정 사건
K: 상수
S: 자식 합 노드