KR20190129110A

KR20190129110A - 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치

Info

Publication number: KR20190129110A
Application number: KR1020197030955A
Authority: KR
Inventors: 린 마; 웬하오 장; 웨이 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-09-12
Filing date: 2018-09-07
Publication date: 2019-11-19
Also published as: EP3683724A4; KR102235051B1; WO2019052403A1; US20200019807A1; CN110532571B; JP2020522791A; US20210312211A1; CN108288067A; CN108288067B; CN110532571A; JP6887026B2; US11087166B2; US11699298B2; EP3683724A1

Abstract

본 출원은 인공 지능 기술 분야에 관한 것으로서, 특히 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치에 관한 것이다. 트레이닝 방법은 이미지 샘플과 텍스트 샘플의 글로벌 표현 및 로컬 표현을 추출하는 단계; 및 매칭 모델을 트레이닝하여 매칭 모델의 모델 파라미터를 결정하는 단계를 포함하고, 매칭 모델은 이미지의 글로벌 표현 및 로컬 표현 그리고 텍스트의 글로벌 표현 및 로컬 표현에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다. 본 출원에서의 매칭 정도는 이미지의 모든 상세한 특징 및 글로벌 특징에 기반하여 획득되며, 획득된 매칭 정도는 더욱 정확하고 포괄적이다.

Description

이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치

본 출원은 2017년 9월 12일 중국 특허청에 제출된 "이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치"라는 명칭의 중국 특허 출원 번호 제201710817344.5호에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.

본 출원은 인공 지능 기술 분야에 관한 것으로서, 특히 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치에 관한 것이다.

이미지와 텍스트에 대한 이해는 항상 인공 지능의 가장 중요한 연구 방향 중 하나였다. 하나의 중요한 연구는 이미지와 텍스트 사이의 연관 관계를 탐색하는 것이다. 예를 들어, 웹 페이지 뉴스의 뉴스 텍스트 콘텐츠 및 뉴스 이미지는 동일한 테마(theme)를 표현할 수 있다. 즉, 이미지와 텍스트 사이에는 절대적 독립성이 없으며 이미지와 텍스트 사이에는 매칭 관계가 있다. 따라서, 주어진 이미지와 매칭하는 텍스트를 찾거나 주어진 텍스트와 매칭하는 이미지를 찾는 방법은 업계에서 관심의 대상이 된다.

이미지와 텍스트 사이의 매칭 정도(matching degree)를 포괄적으로(comprehensively) 측정할 수 있고, 획득된 매칭 정도가 더욱 정확하고 포괄적이도록, 본 출원의 실시 예들은 이미지-텍스트 매칭 모델을 위한 트레이닝 방법 및 관련 장치를 제공한다.

이미지-텍스트 양방향 검색이 수행될 때 더욱 정확한 검색 결과를 획득할 수 있도록, 본 출원의 실시 예들은 양방향 검색 방법 및 관련 장치를 제공한다.

본 출원의 실시 예는 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 제공하며, 상기 트레이닝 방법은 컴퓨터에 의해 수행되고 다음:

이미지 샘플의 글로벌 특징(global feature) 및 로컬 특징(local feature)을 추출하는 단계;

텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계; 및

상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하는 단계 - 상기 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 -를 포함한다.

본 출원의 실시 예는 이미지-텍스트 양방향 검색 방법을 제공하며, 상기 검색 방법은 컴퓨터에 의해 수행되고 다음:

참조 샘플을 수신하는 단계 - 상기 참조 샘플은 텍스트 또는 이미지임 -;

상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계;

상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료(material)를 계산할 수 있게 하는 단계 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 -; 및

매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하는 단계를 포함한다.

본 출원의 실시 예는 이미지-텍스트 매칭 모델을 위한 트레이닝 장치를 제공하며, 상기 트레이닝 장치는,

이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 이미지 특징 추출 모듈;

텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및

상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하도록 - 상기 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 구성된 트레이닝 모듈을 포함한다.

본 출원의 실시 예는 이미지-텍스트 양방향 검색 장치를 제공하며, 상기 검색 장치는,

참조 샘플을 수신하도록 - 상기 참조 샘플은 텍스트 또는 이미지임 - 구성된 참조 샘플 수신 모듈;

상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 참조 샘플 특징 추출 모듈;

상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료를 계산할 수 있게 하도록 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 - 구성된 검색 모듈; 및

매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하도록 구성된 선택 모듈을 포함한다.

본 출원의 실시 예는 메모리 및 프로세서를 포함하는 컴퓨팅 디바이스를 제공하며, 상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 본 출원의 실시 예들 중 어느 하나에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행하도록 구성된다.

본 출원의 실시 예는 컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체를 제공하며, 상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 본 출원의 실시 예들 중 어느 하나에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행할 수 있게 하는데 사용된다.

본 출원의 실시 예는 메모리 및 프로세서를 포함하는 컴퓨팅 디바이스를 제공하며, 상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 본 출원의 실시 예들에 따른 이미지-텍스트 양방향 검색 방법을 수행하도록 구성된다.

본 출원의 실시 예는 컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체를 제공하며, 상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 본 출원의 실시 예들에 따른 이미지-텍스트 양방향 검색 방법을 수행할 수 있게 하는데 사용된다.

도 1은 본 출원의 일부 실시 예에 따른 애플리케이션 시나리오의 개략도이다.
도 2a는 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다.
도 2b는 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다.
도 3은 본 출원의 일부 실시 예에 따른 매칭 모델의 블록도이다.
도 4는 본 출원의 일부 실시 예에 따른 이미지 특징의 유사성을 계산하기 위한 모델의 블록도이다.
도 5는 본 출원의 일부 실시 예에 따른 이미지 정보의 카테고리의 개략도이다.
도 6은 본 출원의 일부 실시 예에 따른 텍스트의 글로벌 표현(global representation)을 추출하는 블록도이다.
도 7은 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다.
도 8은 본 출원의 일부 실시 예에 따른 이미지-텍스트 양방향 검색 방법의 개략적인 흐름도이다.
도 9는 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 장치의 개략적인 구조도이다.
도 10은 본 출원의 일부 실시 예에 따른 이미지-텍스트 양방향 검색 장치의 개략적인 구조도이다.
도 11은 본 출원의 일부 실시 예에 따른 컴퓨터 디바이스의 개략적인 구조도이다.

본 출원의 실시 예들에 의해 제공되는 기술적 솔루션의 이해를 용이하게 하기 위해, 본 출원의 실시 예들이 본 명세서의 첨부 도면들을 참조하여 아래에서 상세하게 설명된다.

일부 실시 예들에서, 이미지와 텍스트 사이의 매칭(matching)은 두 가지 방법을 통해 구현된다.

방법 1: 이미지와 텍스트의 각각의 글로벌 표현을 추출하고, 글로벌 표현들을 동일한 시맨틱 공간(semantic space)에 맵핑하며, 시맨틱 공간에서 이미지와 텍스트의 글로벌 표현들 사이의 매칭 관계를 구축하여, 이미지와 텍스트 사이의 매칭 관계를 구축한다. 글로벌 표현은 이미지의 글로벌 특성을 반영하고, 이미지의 전체 특징을 기술하는 데 사용되며, 글로벌 표현은 예를 들어 컬러 특징, 형상 특징, 텍스처 특징 등이다.

방법 2: 콘볼루션 뉴럴 네트워크(convolutional neural network)를 통해 이미지의 로컬 정보의 로컬 표현(local representation)을 획득하고, 이미지와 텍스트의 로컬 표현들 사이의 매칭 관계를 학습하기 위해 신택스 트리(syntax tree) 정보를 통해 텍스트의 로컬 표현을 획득한다. 로컬 표현은 이미지의 로컬 정보를 반영하며, 이미지의 로컬 세부 특징을 설명하는 데 사용된다. 글로벌 표현과 비교할 때, 로컬 표현은 이미지에서 많은 양, 특징 사이의 작은 관련성(relevance), 그리고 모호한 상황(obscured situation)에서 일부 특징의 소멸(disappearance)에 의해 영향을 받지 않는 다른 특징의 검출 및 매칭이 특징이다.

그러나, 전술한 두 가지 방법에서, 이미지와 텍스트 사이의 매칭은 단일 양상(single aspect)으로 정보를 사용하여, 즉, 글로벌 표현을 독립적으로 사용하거나 로컬 표현을 독립적으로 사용하는 것에 의해 수행된다. 로컬 표현 또는 글로벌 표현이 이미지와 텍스트 사이의 매칭을 수행하는 데 사용되는지의 여부, 이미지와 텍스트 사이의 매칭 정도는 한 레벨에만 반영될 수 있다. 콘텐츠가 풍부한 이미지의 경우 글로벌 표현을 사용하면, 단지 색상 특징, 모양 특징 및 텍스처 특징이 추출될 수 있지만, 로컬 표현의 세부적인 특징은 표현될 수 없다. 결과적으로 반영할 수 있는 특징이 제한된다. 로컬 표현을 사용하면, 이미지와 텍스트 사이의 매칭 관계가 로컬로만 간주될 수 있으며 글로벌 표현의 특징을 반영할 수 없다. 따라서, 전술한 방법들 중 어느 것도 이미지와 텍스트 사이의 매칭 정도를 포괄적으로 측정할 수 없다.

이미지와 텍스트를 포괄적으로 매칭시키고 더욱 정확한 매칭 정도를 획득하기 위해, 본 출원의 실시 예에서, 이미지-텍스트 매칭 모델은 다음의 방법에 따라 트레이닝 되며, 상기 방법은,

이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계;

이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 매칭 모델의 모델 파라미터를 결정하는 단계 - 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라, 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 를 포함한다.

이러한 방식으로, 매칭 정도는 이미지 및 텍스트의 각각의 글로벌 표현 및 로컬 표현에 기반하여 획득된다. 이미지의 세부적인 특징 및 글로벌 특징이 모두 고려되므로, 획득된 매칭 정도는 더욱 정확하고 포괄적이다. 따라서, 본 출원의 본 실시 예에 의해 제공되는 매칭 모델에 기반하여 이미지-텍스트 양방향 검색이 수행될 때, 검색 결과도 더 정확하다.

예를 들어, 도 1을 참조하면, 도 1은 본 출원의 실시 예에 따른 애플리케이션 시나리오의 개략도이다. 시나리오는 예를 들어, 단말 디바이스(11) 및 서버(12)를 포함할 수 있다. 소셜 통신을 위한 블로그 클라이언트, 위챗(WeChat) 클라이언트 및 현재 이벤트를 학습하기 위한 뉴스 클라이언트와 같은 다양한 클라이언트가 단말 디바이스(11)에 설치될 수 있다. 단말 디바이스(11)의 클라이언트와 서버(12)가 통신 연결을 구축한 후, 단말 디바이스(11)의 클라이언트는 이미지 및/또는 텍스트의 글로벌 특징 및 로컬 특징을 추출하여 서버(12)에 전송할 수 있다. 다르게는, 단말 디바이스(11)의 클라이언트는 이미지 및/또는 텍스트를 서버(12)에 전송하고, 서버(12)가 이미지 및/또는 텍스트의 글로벌 특징 및 로컬 특징을 추출한다. 그 다음에, 서버(12)는 이미지의 글로벌 특징 및 로컬 특징에 따라 그리고 매칭 모델에 기반하여 이미지와 매칭하는 텍스트를 검색하거나, 서버(12)는 텍스트의 글로벌 특징 및 로컬 특징에 따라 그리고 매칭 모델을 기반으로 텍스트와 매칭하는 이미지를 검색한다. 이어서, 서버(12)는 검색 결과를 단말 디바이스(11)로 리턴한다.

단말 디바이스(11)와 서버(12)는 통신 네트워크를 통해 통신 가능하게 연결될 수 있다. 통신 네트워크는 근거리 네트워크, 광역 네트워크 등일 수 있다. 단말 디바이스(11)는 휴대 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 개인용 컴퓨터 등일 수 있다. 서버(12)는 이미지-텍스트 매칭 모델의 트레이닝 및 양방향 검색을 지원할 수 있는 임의의 서버 디바이스일 수 있다.

본 출원의 본 실시 예에 의해 제공되는 솔루션은 텍스트에 따라 이미지를 검색 및/또는 이미지에 따라 텍스트를 검색하기 위한 임의의 시나리오에 적용 가능하다. 예를 들어, 솔루션은 클라우드 앨범 관리, 위챗 모멘트(WeChat Moments), QQ 공간(QQ Space), QQ 매스 이노베이션 공간(QQ Mass Innovation Space) 그리고 위챗과 QQ의 채팅 환경에서 이미지 및/또는 텍스트를 검색하는 시나리오(예를 들어, 주어진 텍스트에 따라 매칭하는 이미지를 검색)에 적용 가능할 수 있다.

도 2a를 참조하면, 도 2a는 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다. 상기 방법은 컴퓨터에 의해 수행되며, 컴퓨터는 서버(12)일 수 있다. 상기 방법은 다음 단계들을 포함한다.

S21: 이미지 샘플의 글로벌 특징 및 로컬 특징을 추출한다.

S22: 텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출한다.

S23: 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여, 매칭 모델의 모델 파라미터를 결정하며, 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다.

본 출원에서 제공하는 이 기술 솔루션을 사용하는 경우, 이미지 샘플과 텍스트 샘플의 글로벌 특징들 및 로컬 특징들에 따라 매칭 모델이 트레이닝된다. 이미지와 텍스트의 로컬 특징들 및 글로벌 특징들이 모두 고려되기 때문에, 트레이닝된 매칭 모델에 따라 결정된 매칭 정도가 더욱 정확하고 포괄적이다. 본 출원의 본 실시 예에 의해 제공된 매칭 모델에 기반하여 이미지-텍스트 양방향 검색이 수행될 때, 검색 결과가 더 정확하다.

도 2b를 참조하면, 도 2b는 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 흐름도이다. 상기 방법은 도 1에 도시된 서버(12)에 의해 수행될 수 있으며, 다음의 단계들을 포함한다.

단계 201: 이미지 샘플의 글로벌 특징 및 로컬 특징을 추출한다.

일부 실시 예들에서, 글로벌 특징은 대응하는 이미지의 텍스트 정보를 나타내는 데 사용되는 벡터이다. 이미지 샘플의 로컬 특징은 또한 벡터이고, 벡터의 각 차원(dimension)의 정보는 이미지의 로컬 영역이 대응하는 워드(word) 카테고리의 정보, 예를 들어 이미지의 로컬 영역이 대응하는 워드 카레고리의 정보를 포함할 확률(probability)을 포함함을 나타낸다.

단계(202): 텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출한다.

일부 실시 예들에서, 텍스트 샘플의 글로벌 특징은 텍스트 샘플의 전체 시맨틱 정보를 나타내는 데 사용된다. 텍스트 샘플의 로컬 특징은 텍스트의 로컬 시맨틱 정보의 신세시스(synthesis)를 나타내는 데 사용된다. 텍스트 샘플의 로컬 특징은 워드 또는 문구(phrase)와 같은 텍스트의 로컬 정보에 중점을 둔다.

단계(201) 및 단계(202)의 실행 순서는 상기 설명에 제한되지 않는다.

단계(203): 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝시켜 매칭 모델의 모델 파라미터를 결정하며, 매칭 모델은, 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라, 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다.

상기 방법에서, 매칭 모델이 완전히 트레이닝된 후에, 이미지와 텍스트 사이의 매칭 정도가 다음 단계들을 포함하는 트레이닝된 매칭 모델에 따라 결정될 수 있다.

단계(204): 이미지 및 텍스트의 각각의 글로벌 특징을 매칭 모델을 통해 지정된 시맨틱 공간에 매핑하고, 이미지와 텍스트의 글로벌 특징들 사이의 유사성을 계산하며; 이미지 및 텍스트의 각각의 로컬 특징을 지정된 시맨틱 공간에 매핑하고, 이미지와 텍스트의 로컬 특징들 사이의 유사성을 계산하며; 그리고 글로벌 특징들 사이의 유사성의 미리 설정된 가중치와 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식(weighted summation manner)을 이용하여 이미지와 텍스트 사이의 매칭 정도를 결정한다.

도 3에 도시된 바와 같이, 도 3은 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델의 블록도이다. 도 3에서, 입력된 이미지(310)의 경우, 로컬 이미지 콘볼루션 뉴럴 네트워크(convolutional neural network, CNN)(311)가 이미지(310)의 로컬 표현(로컬 특징이라고도 지칭됨)(도 3에서 312로 도시됨)을 추출하는 데 사용되며, 글로벌 이미지 CNN(313)은 이미지(310)의 글로벌 표현(글로벌 특징이라고도 지칭됨)(도 3에서 314로 도시됨)을 추출하는 데 사용된다. 입력된 텍스트(320)의 경우, 로컬 텍스트 인코더(321)가 텍스트(320)의 로컬 표현(로컬 특징이라고도 지칭됨)(도 3에서 322로 도시됨)을 추출하는 데 사용되고, 글로벌 텍스트 인코더(323)가 텍스트(320)의 글로벌 표현(글로벌 특징이라고도 지칭됨) (도 3에서 324로 도시됨)을 추출하는 데 사용된다. 이미지(310) 및 텍스트(320)의 로컬 표현들과 글로벌 표현들이 추출된 후, 이미지(310) 및 텍스트(320)의 각각의 로컬 표현은 로컬 깊이 매칭을 통해 지정된 시맨틱 공간에 매핑되고, 이미지(310) 및 텍스트(320)에 의해 구성된 이종 샘플 쌍(heterogeneous sample pair)(이미지-텍스트 쌍으로도 지칭됨)의 로컬 특징들 사이의 유사성이 지정된 시맨틱 공간에서 결정된다. 유사하게, 이미지(310) 및 텍스트(320)의 각각의 글로벌 특징은 글로벌 깊이 매칭을 통해 지정된 시맨틱 공간에 매핑되고, 이미지(310)와 텍스트(320)에 의해 구성된 이종 샘플 쌍의 글로벌 특징들 사이의 유사성이 지정된 시맨틱 공간에서 결정된다. 이어서, 모델 통합(model integration)을 통해, 이종 샘플 쌍의 매칭 정도가 글로벌 특징들 사이의 유사성의 미리 설정된 가중치 및 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 사용하여 결정된다.

이해를 돕기 위해, 본 출원의 실시 예는 다음 콘텐츠를 사용하여 설명되는 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 제공한다.

1) 지정된 시맨틱 공간으로의 매핑과 관련하여.

일부 실시 예에서, 이미지와 텍스트의 글로벌 표현들 사이의 정확한 유사성 및 이미지와 텍스트의 로컬 표현들 사이의 정확한 유사성을 획득하기 위해, 본 출원의 본 실시 예에서, 이미지 샘플과 텍스트 샘플의 각각의 글로벌 표현이 지정된 시맨틱 공간에 맵핑되는 것은,

이미지 샘플 및 텍스트 샘플의 각각의 글로벌 특징을 적어도 2개의 완전히 연결된 레이어(fully connected layer)를 통해 지정된 시맨틱 공간에 각각 매핑하는 단계를 포함하고, 그리고,

이미지 샘플 및 텍스트 샘플의 각각의 로컬 표현을 지정된 시맨틱 공간에 맵핑하는 것은,

이미지 샘플 및 텍스트 샘플의 각각의 로컬 특징을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 각각 매핑하는 단계를 포함한다.

완전히 연결된 레이어는 콘볼루션 뉴럴 네트워크의 기본 구조에 있는 레이어다. 완전히 연결된 레이어의 각각의 노드는 이전 레이어의 모든 노드에 연결되어 추출된 특징을 통합한다. 완전히 연결된 레이어는 이미지와 텍스트의 글로벌 특징들과 로컬 특징들을 지정된 시맨틱 공간에 매핑하도록 구성된다. 완전 연결 작동(full connection operation)은 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 매핑하는 작동을 지칭한다. 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따른 트레이닝을 통해 획득된다. 미리 설정된 타깃 함수(target function)는 시맨틱적으로 연관된 이종 샘플 쌍(이미지-텍스트 쌍)의 유사성이 비시맨틱적으로(non-semantically) 연관된 이종 샘플 쌍의 유사성보다 더 높은 것을 구현하는 데 사용된다. 다르게는, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높은 것을 구현하는 데 사용된다.

본 출원의 이러한 실시 예에서, 텍스트와 이미지의 글로벌 표현들 및 로컬 표현들을 동일한 시맨틱 공간에 매핑하기 위해, 텍스트 및 이미지의 각각의 글로벌 표현 및 로컬 표현은 복수의 완전히 연결된 레이어를 통해 정확하게 분석된다. 또한, 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따라 결정된다. 이종 샘플 쌍의 유사성은 실제 상황에 따라 미리 설정된 타깃 함수를 통해 정확하게 결정될 수 있으며, 여기서 유사성은 글로벌 표현의 유사성 또는 로컬 표현의 유사성이다.

또한, 이미지와 텍스트 사이의 직접적인 매칭 관계를 탐색하기 위해, 복수의 완전히 연결된 레이어들을 통한 텍스트 및 이미지의 설명에 대해 멀티-레이어 비선형 변환(multi-layer nonlinear transformation )이 수행될 수 있다.

미리 설정된 타깃 함수가 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 높다는 것을 인식하는 데 사용되면, 미리 설정된 타깃 함수는 수식(1):

에서 보여질 수 있으며,

여기서,

는 미리 설정된 타깃 함수를 나타내며;

및

는 텍스트 샘플을 나타내고;

및

는 이미지 샘플을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내며; λ₁ 및 λ₂는 모두 미리 설정된 계수를 나타내고;

는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성을 나타내며;

및

는 모두 비시맨틱적 연관된 이종 샘플 쌍의 유사성을 나타내고; μ₁ 및μ₂는 모두 미리 설정된 임계 값을 나타낸다.

하나의 이미지는 일반적으로 복수의 샘플과 시맨틱적으로 연관되어 있는 것으로 간주된다. 예를 들어, 새가 하늘에서 날고 물고기가 물에서 수영하는 풍경 이미지에서, 대응하는 시맨틱적 정보는 새가 하늘에서 날고 물고기가 물에서 수영한다는 것을 포함할 수 있다. 따라서, 매칭 모델의 정확성을 향상시키기 위해, 동일한 이미지와 시맨틱적으로 연관된 텍스트들 사이의 유사성이 다른 상이한 이미지들과 시맨틱적으로 연관된 텍스트들 사이의 유사성보다 더 높게 하는 것이 필요하다. 수식(1)에 기술된 조건을 만족시키는 것에 기반하여, 미리 설정된 타깃 함수는 또한 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높다는 것을 만족시킬 필요가 있다. 목적에 도달하기 위해, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성을 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높게 만드는 수식은 수식(2):

에 보여진 바와 같으며,

여기서,

는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높게 되는 것을 요구하는 미리 설정된 타깃 함수를 나타내고;

는 동일한 이미지 샘플과 시맨틱적으로 연관된 텍스트 샘플들을 나타내며;

는 상이한 이미지 샘플들과 연관된 텍스트 샘플들을 나타내고; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플들의 글로벌 표현들 사이의 유사성을 나타내며; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플들의 로컬 표현들 사이의 유사성을 나타내고; u₃는 미리 설정된 임계 값을 나타낸다.

일부 실시 예에서, 수식(1) 및 수식(2)는 통합되어 수식(3) 또는 수식(4):

에서 기재된 바와 같이 미리 설정된 타깃 함수를 획득할 수 있고, 획득된 미리 설정된 타깃 함수는 수식(1) 및 수식(2)에 기재된 바와 같은 요건(reqiurement)을 만족시킬 수 있다.

일 실시 예에서, 미리 설정된 타깃 함수의 요건에 따라 지정된 수학적 표현 방식이 설계될 수 있다. 이것은 본 출원의 본 실시 예에서 제한되지 않는다.

미리 설정된 타깃 함수의 효과에 따라, 도 4에 도시된 깊이 매칭 모델이 트레이닝될 수 있다. 깊이 매칭 모델은 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다. 도 4에서, 이미지의 특징 벡터(이미지 임베딩(image embedding))(특징 벡터는 글로벌 특징 또는 로컬 특징의 특징 벡터임)가 왼쪽에 입력되고, 텍스트의 특징 벡터(문장(sentence) 임베딩)(특징 벡터는 글로벌 특징의 특징 벡터 또는 로컬 특징의 특징 벡터임)가 오른쪽에 입력된다. 이미지와 텍스트의 특징 벡터들이 동일한 지정된 시맨틱 공간에 매핑된 후에, 특징 벡터 사이의 사이의 거리가 계산된다. 예를 들어, 도 4에서,

및

는 텍스트의 특징 벡터를 나타내고,

및

은 이미지의 특징 벡터를 나타낸다. 지정된 시맨틱 공간에서 이미지와 텍스트 사이의 거리가 계산된다. 사용된 특징 벡터가 글로벌 특징을 나타내는 특징 벡터이면, 계산 결과는 글로벌 특징들 사이의 유사성이다. 사용된 특징 벡터가 로컬 특징을 나타내는 특징 벡터이면, 계산 결과는 로컬 특징들 사이의 유사성이다.

2) 이미지 샘플의 글로벌 표현(글로벌 특징) 및 로컬 표현(로컬 특징)의 추출과 관련하여.

본원의 본 실시 예에서 이미지의 글로벌 특징의 추출은 제한되지 않는다. 예를 들어, 이미지의 글로벌 표현은 이미지의 콘볼루션 뉴럴 네트워크, 예를 들어, 전술한 CNN의 완전히 연결된 레이어의 특징을 사용하여 표현된다. 여기서 CNN은 VGG(Visual Geometry Group)의 대규모 이미지 인식을 위한 매우 깊은 콘볼루션 네트워크(Very Deep Convolutional Networks for Large-Scale Image Recognition), 잔류 네트워크(Residual Network, ResNet), 인셉션(Inception), 인셉션 V3 및 인셉션 V4로부터 선택될 수 있지만, 이에 제한되지는 않는다. 물론, 시맨틱 세그먼테이션을 위한 FCN(Full Convolutional Networks)과 같은 네트워크 모델이 다르게는, 이미지의 글로벌 표현을 추출하는 데 사용될 수도 있다.

여기에서, 본 출원의 본 실시 예에서 제공되는 이미지 샘플의 로컬 표현의 추출이 설명되고, 다음:

이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 이미지 블록이 지정된 카테고리의 이미지 정보를 포함할 확률을 계산하는 단계; 및

지정된 수량의 이미지 블록에서 각각의 지정된 카테고리의 이미지 정보의 최대 확률을 선택하는 단계 - 각각의 지정된 카테고리의 이미지 정보의 최대 확률은 이미지 샘플의 로컬 특징을 구성함 -

에 의해 실행될 수 있다.

예를 들어, 도 5에 도시된 바와 같이, 도 5의 이미지 CNN은 이미지 CNN을 이용하여 이미지 블록의 특징을 추출하는 것을 나타낸다. 본 출원은 주어진 이미지에 대해, 이미지가 이미지 블록들로 분할된 후, 각각의 이미지 블록의 특징이 추출되는 것에 중점을 둔다. 사람(people), 잔디, 하늘, 개, 고양이 등 총 5개의 카테고리의 이미지 정보가 있다고 가정한다. 추출을 위한 4개의 이미지 블록이 있고, 각각의 이미지 블록에 대해, 이미지 블록이 전술한 5개의 카테고리의 이미지 정보를 포함할 확률이 있다고 가정한다. 그리고, 각각의 카테고리에 대해, 4개의 이미지 블록의 카테고리의 확률로부터 최대 확률이 선택된다. 각각의 카테고리의 최대 확률은 이미지 샘플의 로컬 특징을 구성한다.

실시 예에서, 다르게는, 각각의 카테고리에 대해, 카테고리의 최대 확률이 대응하는 확률 임계 값과 비교되어 샘플 이미지의 적어도 하나의 이미지 블록이 카테고리의 이미지 정보를 포함하는지를 결정한다. 예를 들어, 사람의 카테고리에 대해, 4개의 이미지 블록에서 최대 확률은 0.99이고, 대응하는 확률 임계 값은 0.8이며, 이는 4개의 이미지 블록 중 적어도 하나가 사람을 포함한다는 것을 지시한다.

3) 텍스트 샘플의 글로벌 표현(글로벌 특징) 및 로컬 표현(로컬 특징)의 추출과 관련하여.

본 출원의 실시 예에서, 텍스트 샘플에서 글로벌 표현을 더 잘 추출하기 위해, 다음:

텍스트 샘플에 대해 워드 세그먼테이션을 수행하는 작동;

각각의 워드 세그먼트에 대해, 워드 세그먼트의 벡터를 결정하는 작동 - 상이한 워드 세그먼트는 동일한 벡터 길이를 가짐 -: 및

동일한 텍스트 샘플의 워드 세그먼트의 벡터를 콘볼루션 뉴럴 네트워크에 입력하여 텍스트 샘플의 글로벌 특징을 추출하는 작동 - 뉴럴 네트워크는 복수의 콘볼루션 레이어 및 상기 복수의 콘볼루션 레이어에 연결된 풀링(polling) 레이어를 포함하는 텍스트 샘플의 글로벌 특징을 추출하는 데 사용되며, 이전 콘볼루션 레이어의 지정된 크기의 시야(field of view)가 현재 콘볼루션 레이어의 입력으로 사용괴고, 지정된 크기의 시야는 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함함 -이 포함된다.

예를 들어, 특정 구현 동안, 콘볼루션 레이어의 콘볼루션 연산(convolutional operation)은 다음 수식(5):

를 사용하여 표현될 수 있으며, 여기서,

이다.

수식(5)에서,

은 지정된 크기의 시야를 나타내고;

은

번째 콘볼루션 레이어(즉, 이전 콘볼루션 레이어)를 나타내며;

은

번째 콘볼루션 레이어(즉, 현재 콘볼루션 레이어)을 나타내고;

은 곱 행렬(product matrix)을 나타내며;

는

번째 특징을 나타내고;

는

번째 위치 정보를 나타내며;

는

번째 위치의

번째 특징에 대응하는

번째 콘볼루션 레이어로부터 추출된 특징을 나타낸다.

풀링 레이어의 연산은 다음 수식(6):

으로 나타낼 수 있으며,

여기서,

는 풀링 레이어의 출력을 나타내고;

은 풀링 레이어를 나타내며;

는

번째 레이어로부터 추출된 (M×1)번째 특징을 나타타내고; M은 풀링 연산의 크기를 제어하는 데 사용되는 상수(constant)이다.

예를 들어, 도 6에 도시된 바와 같이, 입력된 텍스트가 "큰 잔디밭을 통과하는 어린 아이"이고, 텍스트의 글로벌 표현은 텍스트 콘볼루션 뉴럴 네트워크(즉, 도 6의 문장 CNN)를 통해 추출된다. 구체적으로, 문장 CNN은 텍스트의 특징을 추출하기 위한 복수의 콘볼루션 레이어를 포함한다. 그런 다음 최대 풀링 레이어(max-pooling layer)를 사용하여 콘볼루션 레이어에 의해 추출된 특징에 대해 통합 및 차원 축소(dimension reduction)를 수행하여 텍스트의 글로벌 표현을 획득한다.

따라서, 본 출원의 본 실시 예에서, 텍스트 샘플의 특징은 복수의 콘볼루션 레이어를 통해 추출될 수 있고, 쓸모없는 특징 정보는 풀링 레이어를 통해 필터링된다. 또한, 복수의 콘볼루션 레이어를 사용하여 콘볼루션 연산을 수행하는 경우, 지정된 크기의 시야가 사용된다. 시야는 복수의 워드 세그먼트의 특징을 포함하기 때문에, 텍스트 샘플의 글로벌 표현에서 인접한 워드 세그먼트들 사이의 학습 조직(learning organization) 및 상호 작용 정보와 동일하므로, 최종적으로 추출된 글로벌 표현이 더 적절하고 정확하다.

일 실시 예에서, 워드2vec(word2vec) 툴은 각각의 워드 세그먼트를 고정 길이의 벡터로 나타내는 데 사용될 수 있다.

또한, 텍스트의 글로벌 표현을 추출하는 데 사용되는 뉴럴 네트워크는 콘볼루션 뉴럴 네트워크 또는 반복 뉴럴 네트워크(recurrent neural network, RNN)일 수 있다.

텍스트 샘플의 로컬 표현은 다양한 방법을 사용하여 추출될 수 있고, 각 워드 세그먼트에 더욱 집중될 수 있다. 예를 들어, 종래의 용어 빈도-역 문서 빈도(term frequency-inverse document frequency, TF-IDF)가 사용될 수 있거나, 피셔(Fisher) 벡터가 각각의 워드 세그먼트의 벡터 또는 워드 세그먼트의 벡터의 평균값에 작용한다. 이러한 표현은 워드 세그먼트들 사이의 관련성을 전체적으로 고려하기보다는 워드 세그먼트 자체에 더 집중되므로, 텍스트의 로컬 표현으로서 간주될 수 있다.

본 출원의 실시 예들에서의 전술한 매칭 모델에 기반한 이미지-텍스트 양방향 검색 방법이 아래에 설명된다.

도 7에 도시된 바와 같이, 도 7은 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이며, 상기 방법은 다음 단계들을 포함한다.

단계 701: 글로벌 이미지 표현 CNN에 기반하여 이미지 샘플의 글로벌 표현을 추출한다.

단계 702: 이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 로컬 이미지 CNN에 기반하여, 이미지 블록이 지정된 카테고리의 이미지 정보를 포함할 확률을 계산하고, 지정된 수량의 이미지 블록에서 각각의 지정된 카테고리의 이미지 정보의 최대 확률을 선택하며, 지정된 카테고리의 이미지 정보의 최대 확률은 이미지 샘플의 로컬 표현을 구성한다.

단계 703: 텍스트 샘플에 대해 워드 세그먼테이션을 수행하고, 각각의 워드 세그먼트에 대해 워드 세그먼트의 벡터를 결정하고, 상이한 워드 세그먼트는 동일한 벡터 길이를 가지며, 그리고 동일한 텍스트 샘플의 워드 세그먼트의 벡터를 미리 구성된 콘볼루션으로 입력하여 텍스트 샘플의 글로벌 표현을 추출하며, 뉴럴 네트워크는 복수의 콘볼루션 레이어 및 복수의 콘볼루션 레이어에 연결된 풀링 레이어를 포함하는 텍스트 샘플의 글로벌 표현을 추출하는 데 사용되며, 이전 콘볼루션 레이어의 지정된 크기의 시야는 현재 콘볼루션 레이어의 입력으로서 사용되고, 지정된 크기의 시야는 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함한다.

단계 704: 텍스트 샘플의 로컬 표현을 추출한다.

단계들(701 내지 704)의 실행 순서는 상기 실시 예들에서 설명된 것으로 제한되지 않는다.

단계 705: 이미지 샘플 및 텍스트 샘플의 각각의 글로벌 표현을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 각각 매핑하고, 이미지 샘플과 텍스트 샘플에 의해 구성된 이종 샘플 쌍(이미지-텍스트 쌍)의 글로벌 표현들 사이의 유사성을 계산하며, 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따라 결정된다.

단계 706: 이미지 샘플 및 텍스트 샘플의 각각의 로컬 표현을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 각각 매핑하고, 이종 샘플 쌍(이미지-텍스트 쌍)의 로컬 표현들 사이의 유사성을 계산하며, 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따라 결정된다.

단계들(705 및 706)의 실행 순서는 상기 실시 예들에서 설명된 것으로 제한되지 않는다.

또한, 미리 설정된 타깃 함수는 전술한 실시 예들에서 설명되었고, 여기서 다시 상세히 설명되지 않는다.

단계 707: 글로벌 표현들 사이의 유사성의 미리 설정된 가중치 및 로컬 표현들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 이용하여 이종 샘플 쌍의 매칭 정도를 결정한다.

본 출원의 본 실시 예에서, 이미지의 로컬 표현은 이미지 블록을 통해 추출되고, 텍스트의 글로벌 표현은 복수의 콘볼루션 레이어 및 풀링 레이어를 사용하여 추출되므로, 텍스트의 워드 세그먼트들 사이의 관계가 획득될 수 있으며 추출된 특징이 더 정확하고 포괄적이다. 그 다음에, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 더 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높게 하는 데 사용되므로, 이미지와 텍스트 사이의 매칭 정확도를 향상시키기 위해 최종 유사성의 계산이 실제 요건을 잘 만족시킨다.

도 8에 도시된 바와 같이, 도 8은 본 출원의 실시 예들에서 설명된 매칭 모델에 기반한 이미지-텍스트 양방향 검색 방법의 개략적인 흐름도이다. 상기 방법은 컴퓨터에 의해 수행되고, 컴퓨터는 서버(12)일 수 있고, 방법은 다음 단계를 포함한다.

단계 801: 참조 샘플(reference sample)을 수신하고, 참조 샘플은 텍스트 또는 이미지이다.

단계 802: 참조 샘플의 글로벌 특징 및 로컬 특징을 추출한다.

단계 803: 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 매칭 모델이 참조 샘플과 대응하는 자료 사이의 매칭 정도를 계산할 수 있게 하며; 참조 샘플이 텍스트인 경우에 대응하는 자료(material)는 이미지이고, 참조 샘플이 이미지인 경우에 대응하는 자료는 텍스트이며; 그리고 매칭 모델은 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 참조 샘플과 대응하는 자료 사이의 매칭 정도를 결정할 수 있다.

자료 라이브러리에서 참조 샘플과 각각의 대응하는 자료 사이의 매칭도를 계산하기 위해 자료 라이브러리가 구축될 수 있다. 매칭 정도를 계산하는 방법은 전술한 실시 예들에서 설명되었고, 여기서는 다시 상세히 설명되지 않는다.

단계 804: 매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 참조 샘플과 매칭하는 자료로서 선택한다.

본 출원의 본 실시 예에서, 글로벌 표현 및 로컬 표현의 매칭 모델에 기반하여 참조 샘플의 대응하는 자료가 검색될 수 있으므로, 최종적으로 획득된 매칭 결과가 더욱 정확하다. 예를 들어, 텍스트와 매칭하는 이미지가 검색되거나 이미지와 매칭하는 질문이 검색된다.

전술한 실시 예에서와 동일한 발명 개념에 기반하여, 본 출원의 실시 예는 이미지-텍스트 매칭 모델을 위한 트레이닝 장치를 추가로 제공한다. 장치의 원리 및 유익한 효과는 전술한 방법 실시 예의 효과와 유사하며, 여기서는 다시 상세히 설명하지 않는다.

도 9는 장치의 구조의 개략도이다. 상기 장치는,

이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 이미지 특징 추출 모듈(901);

텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 텍스트 특징 추출 모듈(902); 및

이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여, 매칭 모델의 모델 파라미터를 결정하도록 - 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 구성된 트레이닝 모듈(903)을 포함한다.

일부 실시 예에서, 이미지와 텍스트의 각각의 글로벌 특징은 매칭 모델을 통해 지정된 시맨틱 공간에 매핑되고, 이미지와 텍스트의 글로벌 특징들 사이의 유사성이 계산되며; 이미지와 텍스트의 각각의 로컬 특징이 지정된 시맨틱 공간에 매핑되고, 이미지와 텍스트의 로컬 특징들 사이의 유사성이 계산되며; 이미지와 텍스트 사이의 매칭 정도가 글로벌 특징들 사이의 유사성의 미리 설정된 가중치와 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 이용하여 결정된다.

일부 실시 예에서, 매칭 모델은 적어도 2개의 완전히 연결된 레이어를 포함하고, 매칭 모델의 모델 파라미터는적어도 2개의 완전히 연결된 레이어의 파라미터를 포함한다.

트레이닝 모듈(903)은,

이미지 샘플 및 텍스트 샘플의 각각의 글로벌 특징을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 매핑하도록 구성된 글로벌 트레이닝 유닛(9401); 및

이미지 샘플 및 텍스트 샘플의 각각의 로컬 특징을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 매핑하도록 구성된 로컬 트레이닝 유닛(9032)을 포함한다.

적어도 2개의 완전히 연결된 레이어의 파라미터는 맵핑 결과 및 미리 설정된 타깃 함수에 따라 결정되며, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용되거나: 또는

미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높은 것을 구현하는 데 사용된다.

일부 실시 예들에서, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용된다.

맵핑 결과는, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 완전히 연결된 레이어의 적어도 2개의 파라미터에 의해 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함한다.

트레이닝 모듈(903)은:

적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 이미지 샘플의 글로벌 특징 및 로컬 특징 그리고 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 결정하고; 그리고

적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 미리 설정된 타깃 함수에 입력하여, 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하도록 구성된다.

미리 설정된 타깃 함수가 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 높다는 것을 인식하는 데 사용되면, 미리 설정된 타깃 함수는

일 수 있으며,

는 미리 설정된 타깃 함수를 나타내며;

및

는 텍스트 샘플을 나타내고;

및

일부 실시 예들에서, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 동일한 이미지와 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높은 것을 구현하는 데 사용된다.

트레이닝 모듈(903)은,

적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 이미지 샘플의 글로벌 특징 및 로컬적 특징 그리고 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 결정하고; 그리고

적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 미리 설정된 타깃 함수에 입력하여, 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하도록 구성된다.

일부 실시 예들에서, 미리 설정된 타깃 함수는 다음:

중 하나를 통해 결정되고,

이다.

LY는 미리 설정된 타깃 함수이고,

는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성과 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 사이의 관계를 나타내며,

는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성과 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성 사이의 관계를 나타내고,

및

는 텍스트 샘플을 나타내고;

및

는 시맨틱적으로 연관된 이종 샘플 쌍(이미지-텍스트 쌍)의 유사성을 나타내며;

및

는 모두 비시맨틱적 연관된 이종 샘플 쌍(이미지-텍스트 쌍)의 유사성을 나타내고; μ₁ 및μ₂는 모두 미리 설정된 임계 값을 나타내며, 여기서,

이며,

여기서,

일부 실시 예들에서, 이미지 특징 추출 모듈은 이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 이미지 블록이 지정된 카테고리의 이미지 정보를 포함할 확률을 계산하며; 그리고

지정된 수량의 이미지 블록들에서 각각의 특정된 이미지 정보 카테고리의 최대 확률을 선택하도록 - 각각의 특정된 이미지 정보 카테고리의 최대 확률은 이미지 샘플의 로컬 특징을 구성함 - 구성된다.

일부 실시 예에서, 이미지 특징 추출 모듈은, 텍스트 샘플에 대해 워드 세그먼테이션을 수행하고;

각각의 워드 세그먼트에 대해, 워드 세그먼트의 벡터를 결정하며 - 상이한 워드 세그먼트는 동일한 벡터 길이를 가짐 -, 그리고

동일한 텍스트 샘플의 워드 세그먼트의 입력 벡터를 콘볼루션 뉴럴 네트워크로 입력하여 텍스트 샘플의 글로벌 특징을 추출하도록 - 뉴럴 네트워크는 복수의 콘볼루션 레이어 및 복수의 콘볼루션 레이어에 연결된 풀링 레이어를 포함하는 텍스트 샘플의 글로벌 특징을 추출하는 데 사용되며, 이전 콘볼루션 레이어의 지정된 크기의 시야는 현재 콘볼루션 레이어의 입력으로서 사용되고, 지정된 크기의 시야는 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함함 - 구성된다.

전술한 실시 예에서와 동일한 발명 개념에 기반하여, 본 출원의 실시 예는 이미지-텍스트 양방향 검색 장치를 추가로 제공한다. 장치의 원리 및 유익한 효과는 전술한 방법 실시 예의 효과와 유사하며, 여기서는 다시 상세히 설명하지 않는다.

도 10은 장치의 구조의 개략도이다. 상기 장치는,

참조 샘플을 수신하도록 - 참조 샘플은 텍스트 또는 이미지임 - 구성된 참조 샘플 수신 모듈(1001);

참조 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 참조 샘플 특징 추출 모듈(1002);

참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여 매칭 모델이 참조 샘플과 대응하는 자료 사이의 매칭 정도를 계산할 수 있게 하도록 - 참조 샘플이 텍스트인 경우에 대응하는 자료는 이미지이고, 참조 샘플이 이미지인 경우에 대응하는 자료는 텍스트이며, 매칭 모델은 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 참조 샘플과 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 - 구성된 검색 모듈(1003); 및

매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 참조 샘플과 매칭하는 자료로서 선택하도록 구성된 선택 모듈(1004)을 포함한다.

본 출원의 실시 예는 또한 컴퓨팅 디바이스를 제공한다. 컴퓨팅 디바이스는 데스크탑 컴퓨터, 휴대용 컴퓨터, 스마트 폰, 태블릿 컴퓨터, 개인 휴대 정보 단말기(personal digital assistant, PDA) 등일 수 있다. 도 11에 도시된 바와 같이, 컴퓨팅 디바이스는 중앙 처리 장치(CPU)(1101), 메모리(1102), 입력 디바이스(1103), 출력 디바이스(1104) 등을 포함할 수 있다. 입력 디바이스는 키보드, 마우스, 터치 스크린 등을 포함할 수 있다. 출력 디바이스는 액정 디스플레이(liquid crystal display, LCD) 또는 음극선 관(cathode ray tube, CRT)과 같은 디스플레이 디바이스를 포함할 수 있다.

메모리는 ROM(read-only memory) 및 RAM(random access memory)을 포함할 수 있고, 메모리에 저장된 프로그램 명령 및 데이터를 프로세서에 제공한다. 본 출원의 본 실시 예에서, 메모리는 이미지-텍스트 매칭 모델을 위한 트레이닝 방법 및/또는 이미지-텍스트 양방향 검색 방법의 프로그램 명령을 저장하도록 구성될 수 있다. 프로세서는 메모리에 저장된 프로그램 명령을 호출하여, 프로그램 명령에 따라, 이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하는 작동; 텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 작동; 및 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여, 매칭 모델의 모델 파라미터를 결정하는 작동 - 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는데 사용됨 - 을 수행한다.

다르게는, 프로세서는 메모리에 저장된 프로그램 명령을 호출하여, 프로그램 명령에 따라, 참조 샘플을 수신하는 작동 - 참조 샘플은 텍스트 또는 이미지임 - ; 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하는 작동; 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여 매칭 모델이 참조 샘플과 대응하는 자료 사이의 매칭 정도를 계산할 수 있게 하는 작동 - 참조 샘플이 텍스트인 경우에 대응하는 자료는 이미지이고, 참조 샘플이 이미지인 경우에 대응하는 자료는 텍스트이며, 매칭 모델은 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 참조 샘플과 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 -; 및 매칭 정도가 지정된 매칭 정도보다 큰 대응 자료를 참조 샘플과 매칭하는 자료로서 선택하는 작동을 수행한다.

본 출원은 전술한 컴퓨팅 디바이스에 의해 사용되는 컴퓨터 프로그램 명령을 저장하고, 전술한 이미지-텍스트 매칭 모델을 위한 트레이닝 방법 및/또는 전술한 이미지-텍스트 양방향 검색 방법을 수행하기 위한 프로그램을 포함하는, 컴퓨터 저장 매체를 제공한다.

컴퓨터 저장 매체는, 컴퓨터에 의해 액세스될 수 있으면서 또한 자기 메모리(예를 들어, 플로피 디스크, 하드 디스크, 자기 테이프, 및 광 자기 디스크(magneto-optical disk, MO)), 광 메모리(예를 들어, CD, DVD, BD 및 HVD), 반도체 메모리(예를 들어, ROM, EPROM, EEPROM, 비 휘발성 메모리(NAND FLASH) 및 솔리드 스테이트 드라이브(SSD)) 등을 포함하는, 임의의 이용 가능한 매체 또는 데이터 저장 디바이스일 수 있다.

마지막으로, 상기 실시 예는 본 출원의 기술적 솔루션을 설명하기 위해 제공된 것일뿐 본 출원을 제한하려는 것은 아니다. 본 출원은 전술한 실시 예들을 참조하여 상세하게 설명되었지만, 이러한 수정 또는 교체로 인해 해당 기술 솔루션의 본질이 본 출원의 취지 및 범위를 벗어나지 않는 한, 전술한 실시 예들에서 설명된 기술적 솔루션들에 대한 수정들이 이루어질 수 있거나, 기술 솔루션의 일부 기술적 특징에 대해 동등한 대체들이 이루어질 수 있다는 것이 당업자에 의해 이해되어야 한다.

Claims

컴퓨터에 의해 수행되는, 이미지-텍스트 매칭 모델을 위한 트레이닝 방법으로서,
이미지 샘플의 글로벌 특징(global feature) 및 로컬 특징(local feature)을 추출하는 단계;
텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계; 및
상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하는 단계 - 상기 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 -
를 포함하는 트레이닝 방법.
제1항에 있어서,
상기 매칭 모델을 통해 상기 이미지 및 상기 텍스트의 각각의 글로벌 특징을 지정된(specified) 시맨틱 공간(semantic space)에 매핑하고, 상기 이미지와 상기 텍스트의 글로벌 특징들 사이의 유사성을 계산하며, 상기 이미지 및 상기 텍스트의 각각의 로컬 특징을 지정된 시맨틱 공간에 매핑하고, 상기 이미지와 상기 텍스트의 로컬 특징들 사이의 유사성을 계산하는 단계; 및
상기 글로벌 특징들 사이의 유사성의 미리 설정된 가중치 및 상기 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 이용하여 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 단계
를 더 포함하는 트레이닝 방법.
제1항에 있어서,
상기 매칭 모델은 적어도 2개의 완전히 연결된 레이어(fully connected layer)를 포함하고, 상기 매칭 모델의 모델 파라미터는 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 포함하며; 그리고
상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하는 단계는,
상기 이미지 샘플 및 상기 텍스트 샘플의 각각의 글로벌 특징을 상기 적어도 2개의 완전히 연결된 레이어들을 통해 상기 지정된 시맨틱 공간으로 매핑하는 단계;
상기 이미지 및 상기 텍스트 샘플의 각각의 로컬 특징을 상기 적어도 2개의 완전히 연결된 레이어를 통해 상기 지정된 시맨틱 공간에 매핑하는 단계; 및
맵핑 결과 및 미리 설정된 타깃 함수(target function)에 따라 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계 - 상기 미리 설정된 타깃 함수는 시맨틱적으로(semantically) 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로(non-semantically) 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용되거나, 상기 미리 설정된 타깃 함수가 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높은 것을 구현하는 데 사용됨 -
를 포함하는, 트레이닝 방법.
제3항에 있어서,
상기 미리 설정된 타깃 함수가 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용되는 경우,
상기 맵핑 결과는 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함하며,
상기 맵핑 결과 및 미리 설정된 타깃 함수에 따라 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계는,
상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 결정하는 단계; 및
상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 상기 미리 설정된 타깃 함수에 입력하여, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계
를 포함하는, 트레이닝 방법.
제4항에 있어서,
상기 미리 설정된 타깃 함수는

이며,

는 상기 미리 설정된 타깃 함수를 나타내고;
및
는 상기 텍스트 샘플을 나타내며;
및
는 상기 이미지 샘플을 나타내고; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내며; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내고; λ₁ 및 λ₂는 모두 미리 설정된 계수를 나타내며;
는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 나타내고;
및
는 모두 상기 비시맨틱적 연관된 이미지-텍스트 쌍의 유사성을 나타내며고; μ₁ 및μ₂는 모두 미리 설정된 임계 값을 나타내는, 트레이닝 방법.
제3항에 있어서,
상기 미리 설정된 타깃 함수가 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 상기 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높은 것을 구현하는데 사용되는 경우,
상기 맵핑 결과는 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함하며, 그리고
상기 맵핑 결과 및 미리 설정된 타깃 함수에 따라 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계는,
상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 결정하는 단계; 및
상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 상기 미리 설정된 타깃 함수에 입력하여, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계
를 포함하는, 트레이닝 방법.
제6항에 있어서,
상기 미리 설정된 타깃 함수는 다음:

중 하나를 통해 결정되고, 여기서,

이며,
여기서, LY는 상기 미리 설정된 타깃 함수이고,
는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성과 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 사이의 관계를 나타내며,
는 상기 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성과 상기 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성 사이의 관계를 나타내고;
및
는 상기 텍스트 샘플을 나타내고;
및
는 상기 이미지 샘플을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내며; λ₁ 및 λ₂는 모두 미리 설정된 계수를 나타내고;
는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 나타내며;
및
는 모두 상기 비시맨틱적 연관된 이미지-텍스트 쌍의 유사성을 나타내고; μ₁ 및μ₂는 모두 미리 설정된 임계 값을 나타내며; 그리고,

이며,

는 상기 동일한 이미지 샘플과 시맨틱적으로 연관된 텍스트 샘플들을 나타내고;
는 상기 상이한 이미지 샘플들과 연관된 텍스트 샘플들을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플들의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플들의 로컬 표현들 사이의 유사성을 나타내며; u₃는 미리 설정된 임계 값을 나타내는, 트레이닝 방법.
제1항에 있어서,
상기 이미지 샘플의 로컬 특징을 추출하는 단계는,
상기 이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 상기 이미지 블록이 지정된 카테고리의 이미지 정보를 포함하는 확률을 계산하는 단계; 및
상기 지정된 수량의 이미지 블록들에서 각각의 지정된 카테고리의 이미지 정보의 최대 확률을 선택하는 단계 - 상기 각각의 지정된 카테고리의 이미지 정보의 최대 확률은 상기 이미지 샘플의 로컬 특징을 구성함 -
를 포함하는, 트레이닝 방법.
제1항에 있어서,
상기 텍스트 샘플의 글로벌 특징을 추출하는 단계는,
상기 텍스트 샘플에 대해 워드 세그먼테이션(word segmentation)을 수행하는 단계;
각각의 워드 세그먼트에 대해, 상기 워드 세그먼트의 벡터를 결정하는 단계 - 상이한 워드 세그먼트는 동일한 벡터 길이를 가짐 -; 및
동일한 텍스트 샘플의 워드 세그먼트의 벡터를 콘볼루션 뉴럴 네트워크(convolutional neural network)에 입력하여 상기 텍스트 샘플의 글로벌 특징을 추출하는 단계 - 상기 뉴럴 네트워크는 복수의 콘볼루션 레이어(convolutional layer) 및 상기 복수의 콘볼루션 레이어에 연결된 풀링(polling) 레이어를 포함하는 상기 텍스트 샘플의 글로벌 특징을 추출하는 데 사용되고, 이전 콘볼루션 레이어의 지정된 크기의 시야는 현재 콘볼루션 레이어의 입력으로서 사용되며, 상기 지정된 크기의 시야는 상기 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함함 -
를 포함하는, 트레이닝 방법.
컴퓨터에 의해 수행되는, 이미지-텍스트 양방향 검색 방법으로서,
참조 샘플을 수신하는 단계 - 상기 참조 샘플은 텍스트 또는 이미지임 -;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료(material)를 계산할 수 있게 하는 단계 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 -; 및
매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하는 단계
를 포함하는 검색 방법.
이미지-텍스트 매칭 모델을 위한 트레이닝 장치로서,
이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 이미지 특징 추출 모듈;
텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및
상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하도록 - 상기 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 구성된 트레이닝 모듈
을 포함하는 트레이닝 장치.
이미지-텍스트 양방향 검색 장치로서,
참조 샘플을 수신하도록 - 상기 참조 샘플은 텍스트 또는 이미지임 - 구성된 참조 샘플 수신 모듈;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 참조 샘플 특징 추출 모듈;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료를 계산할 수 있게 하도록 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 - 구성된 검색 모듈; 및
매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하도록 구성된 선택 모듈
을 포함하는 검색 장치.
메모리 및 프로세서를 포함하는 컴퓨팅 디바이스로서,
상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 제1항 내지 제9항 중 어느 한 항에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행하도록 구성되는, 컴퓨팅 디바이스.
컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체로서,
상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 제1항 내지 제9항 중 어느 한 항에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행할 수 있게 하는데 사용되는, 컴퓨터 저장 매체.
메모리 및 프로세서를 포함하는 컴퓨팅 디바이스로서,
상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 제10항에 따른 이미지-텍스트 양방향 검색 방법을 수행하도록 구성되는, 컴퓨팅 디바이스.
컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체로서,
상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 제10항에 따른 이미지-텍스트 양방향 검색 방법을 수행할 수 있게 하는데 사용되는, 컴퓨터 저장 매체.