KR20170007747A

KR20170007747A - 자연어 이미지 검색 기법

Info

Publication number: KR20170007747A
Application number: KR1020167031976A
Authority: KR
Inventors: 모타즈 아마드 엘-사반; 아메드 야신 타우피크; 아크라프 아브델 모네임 타우피크 찰라비; 사예드 하산 사예드
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2014-05-16
Filing date: 2015-05-14
Publication date: 2017-01-20
Also published as: MX370916B; EP3143521A1; MX2016014986A; RU2688271C2; WO2015175736A1; JP6487944B2; CA2947036A1; RU2016144699A; US20220075806A1; CN106255968B; AU2015259118A1; US11222044B2; RU2016144699A3; CN106255968A; KR102422977B1; US20150331929A1; AU2015259118B2; JP2017519285A

Abstract

자연어 이미지 검색, 예를 들면, 자연어 질의를 사용하여 온톨로지의 컨셉(계층적인 컨셉을 포함할 수 있음)인 이미지 태그로 자동으로 태그된 이미지 저장소로부터 이미지를 검색할 수 있는 자연어 이미지 검색에 대해서 설명한다. 다양한 예시에 있어서, 자연어 질의는 하나 이상의 복수의 이미지 태그에 매핑되며, 또한 이 매핑된 질의는 검색에 사용된다. 다양한 예시에 있어서, 질의는 질의와 이미지 태그 사이의 하나 이상의 거리 측도를 계산하여 매핑되며, 거리 측도는 온톨로지에 대해서 및/또는 자연어 말뭉치로부터 계산된 단어들의 의미 공간에 대해서 계산된다. 예시에 있어서, 이미지 태그는 이미지 중에 묘사된 객체의 경계 상자와 연관될 수 있으며, 또한 사용자는 경계 상자 및/또는 이미지를 선택함으로써 이미지 저장 장치를 탐색할 수 있다.

Description

자연어 이미지 검색 기법{NATURAL LANGUAGE IMAGE SEARCH}

사용자들은 휴대폰 카메라, 디지털 카메라, 비디오 카메라 및 기타 장치와 같이 서로 다른 장치를 사용하여 다량의 이미지를 수집한다. 이미지는 전형적으로 개인용 컴퓨터, 클라우드, 또는 기타 위치에 저장되거나 백업된다.

사용자가 자신의 이미지 수집물(collection)을 효율적이고 효과적으로 검색하는 데에는 시간이 걸리고 또한 복잡하다. 전형적으로 사용자는 이미지 썸네일만을 스크롤할 수 있을 뿐이다. 이는 사용자가 특정 작업을 위한 이미지를 찾아 보거나 검색하기 어렵게 한다.

종래의 접근법은 날짜 및 시간 스탬프 또는 키워드와 같은 메타 데이터를 사용하여 이미지를 태그하는 방법과 관련되어 있었다. 태깅(태그 달기)은 수동으로 또는 자동으로 행해진다. 태깅이 끝난 후에, 사용자는 이 태그를 사용하여 이미지를 찾을 수 있었다. 이와 같은 유형의 접근법은 제한적이었는데, 이는 사용자가 종종 이미지 검색을 위해서 사용하는 태그를 기억하지 못하거나 알지 못하거나 또는 이해하지 못하기 때문이다.

이하에서 설명하는 각 실시예는 공지의 이미지 검색 시스템의 임의의 또는 모든 단점을 해결하는 구현만으로 제한되지는 않는다.

이하의 내용은 본 명세서를 기본적으로 이해할 수 있도록 하기 위해서 본 발명을 단순화시킨 요약을 나타내고 있다. 본 발명의 내용은 본 발명의 상세한 개괄이 아니며 또한 본 발명의 핵심/중요 요소를 식별하거나 본 발명의 범위를 기술하지 않는다. 발명의 내용의 유일한 목적은 후술하는 "발명을 실시하기 위한 구체적인 내용"에 앞서서 단순화된 형태로 본 명세서에서 개시되는 개념을 선택하여 나타내는 것이다.

자연어 이미지 검색, 예를 들면, 자연어 질의를 사용하여 온톨로지의 컨셉(계층적인 컨셉을 포함할 수 있음)인 이미지 태그로 자동으로 태그된 이미지 저장소로부터 이미지를 검색할 수 있는 자연어 이미지 검색에 대해서 설명한다. 다양한 예시에 있어서, 자연어 질의는 하나 이상의 복수의 이미지 태그에 매핑되며, 또한 이 매핑된 질의는 검색(retrieve)에 사용된다. 다양한 예시에 있어서, 질의는 질의와 이미지 태그 사이의 하나 이상의 거리 측도를 계산하여 매핑되며, 거리 측도는 온톨로지에 대해서 및/또는 자연어 말뭉치로부터 계산된 단어들의 의미 공간에 대해서 계산된다. 단어들의 의미 공간은 신경망을 사용하여 계산될 수 있다. 예시에 있어서, 이미지 태그는 이미지 중에 묘사된 객체의 경계 상자와 연관될 수 있으며, 또한 사용자는 경계 상자 및/또는 이미지를 선택함으로써 이미지 저장 장치를 탐색할 수 있다.

부수적인 다양한 특징들은 첨부 도면과 관련하여 고려되는 후술하는 "발명을 실시하기 위한 구체적인 내용"을 참조함으로써 이들 특징들이 더욱 즉각적으로 이해될 수 있음을 잘 알 것이다.

본 발명은 첨부 도면을 참고하여 파악할 때 후술하는 "발명을 실시하기 위한 구체적인 내용"을 더욱 잘 이해할 수 있을 것이다.
도 1은, 자연어를 사용하여 일련의 이미지를 검색하는 시스템의 개략도이다.
도 2는, 자연어를 사용하여 일련의 이미지를 검색하는 예시적인 사용자 인터페이스의 개략도이다.
도 3은, 자연어를 사용하여 일련의 이미지를 검색하는 다른 예시적인 사용자 인터페이스의 개략도이다.
도 4는, 도 1의 이미지 태깅 서버의 블록도이다.
도 5는, 도 1의 자연어 질의 매퍼의 블록도이다.
도 6은, 자연어 질의어를 하나 이상의 태그에 매핑하는 방법의 흐름도이다.
도 7은, 자연어를 사용하여 일련의 이미지를 검색하는 방법의 흐름도이다.
도 8은, 일련의 이미지를 탐색하는 방법의 흐름도이다.
도 9는, 본 명세서에서 설명한 시스템 및 방법의 실시예를 구현할 수 있는 예시적인 컴퓨팅 기반 장치를 도시한 도면이다.
첨부 도면에서 동일한 구성 요소는 동일한 도면 부호를 사용하여 지정하였다.

첨부 도면과 관련하여 이하에서 제공되는 '발명을 실시하기 위한 구체적인 내용' 항목은 본 발명의 예시에 대한 설명으로서 의도된 것이며, 본 발명의 예시를 구성하거나 이용할 수 있는 형태만을 나타내는 것을 의도하지는 않는다. 본 발명의 설명은 예시의 기능 및 이 예시를 구성하고 동작시키기 위한 일련의 단계를 설명한다. 그러나, 다른 예시에 의해서 동일하거나 동등한 기능 및 단계가 달성될 수도 있다.

본 명세서에서 설명한 예시는 디지털 사진과 같은 이미지를 사용하고 있다.

이미지는 또한 비디오일 수 있다.

본 명세서에서는 자연어 질의를 사용하여 일련의 이미지를 검색하기 위한 시스템 및 방법을 설명한다. 이미지는 이미지의 콘텐츠를 설명하는 하나 이상의 이미지 태그를 사용하여 자동으로 태그될 수 있다. 검색은 온톨로지(ontology)와 의미 임베딩(semantic embedding)의 조합을 사용하여 자연어 질의를 하나 이상의 이미지 태그에 매핑하는 것에 의해서 실행될 수 있다. 예를 들면, 일부 경우에 있어서, 자연어 질의는 질의 및 이미지 태그 사이의 하나 이상의 거리 측도를 계산함으로써 매핑되며, 거리 측도는 온톨로지에 대해서 및/또는 자연어 말뭉치로부터 계산된 단어들의 의미 공간에 대해서 계산된다. 계산된 거리 측도는 이후에 조합되어 자연어 질의를 나타내는 하나 이상의 태그를 식별하게 된다. 식별된 이미지 태그는 이후에 검색 조건에 매칭되는 이미지(예컨대, 식별된 이미지 태그로 태그된 이미지)를 식별하는데 사용된다.

이미지의 콘텐츠 및/또는 특징을 설명하는 하나 이상의 이미지 태그와 연관된 일련의 이미지를 저장하면 이미지 검색 시 각각의 이미지를 분석하거나 각각의 이미지에 대한 메타 데이터를 수동으로 수정 또는 제공하지 않아도 쉽고 효율적으로 이미지를 검색할 수 있게 된다. 본 발명에서 설명하는 방법 및 시스템을 사용하여 일련의 이미지로부터 이미지를 검색하면 사용자는 자연어를 사용하여 관련된 이미지를 신속하고 쉽게 검색할 수 있다. 이렇게 하면, 사용자가 특정한 콘텐츠를 가진 이미지를 찾을 때, 시간이 걸릴 뿐만 아니라 실수하기 쉬운 이미지 리스트를 수동으로 스크롤할 필요가 없어진다.

뿐만 아니라, 하나 이상의 이미지 태그에 자연어 질의어를 자동으로 매핑하게 되면 사용자가 특정한 이미지 태그가 무엇인지를 알지 못해도 되기 때문에 검색이 쉽고 또한 직관적으로 되며, 사용자는 간단히 자신들에게 익숙하고 직관적인 언어를 사용할 수 있다. 온톨로지 및 의미 임베딩을 모두 사용하여 자연어 질의어 구절을 하나 이상의 태그에 매핑하게 되면 온톨로지 또는 의미 임베딩 중의 하나를 사용하는 것에 비해서 뜻밖으로 더욱 정확한 매핑이 가능해진다.

본 명세서에서 설명한 다양한 예시는 자연어 이미지 검색(즉, 훈련된 컨셉/태그로 제한되지 않음) 및 전체 이미지 유사도 또는 영역 수준에서의 유사도 중의 하나에 의해서 이미지 사이의 탐색을 가능하게 한다.

본 명세서에서 분산형 이미지 검색 시스템으로 구현되는 것으로서 본 발명의 예시를 설명하고 도시하였지만, 본 발명에서 설명되는 시스템은 예시로서 제공되며 또한 제한하는 것이 아니다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(통상의 기술자)라면, 본 발명의 예시는 다양한 서로 다른 유형의 이미지 검색 시스템에서의 응용에도 적합하다는 것을 충분히 이해할 것이다.

먼저, 자연어 질의를 사용하여 일련의 이미지를 검색하는 예시적인 시스템을 도시하고 있는 도 1을 참조하기로 한다.

시스템은 일련의 언태그된 이미지(114)를 자동으로 분석하고 또한 각각의 언태그된 이미지(114)에 대해서 태그된 이미지(112)를 생성하도록 구성된 이미지 태깅 서버(102)를 포함하고 있다. 언태그된 이미지(114)는 이미지들의 임의의 수집물 또는 집합일 수 있다. 예를 들면, 언태그된 이미지는, 특정 장치(예컨대, 스마트 폰) 상의 모든 이미지, 특정 장치 상의 특정 사용자와 연관된 모든 이미지, 또는 복수의 장치(예컨대, 스마트 폰 및 랩탑) 상의 특정한 사용자와 연관된 모든 이미지일 수 있다. 이미지는 한 장소에 모두 위치하거나 또는, 예를 들면, 통신 네트워크(100)를 통해서 분산된 장소에 위치할 수 있다.

각각의 언태그된 이미지에는 해당 이미지의 특징 및/또는 콘텐츠를 설명하기 위해 하나 이상의 태그가 할당된다. 특징은, 예를 들면, 이미지 내의 객체, 장면, 및/또는 랜드마크일 수 있다. 각각의 태그는 온톨로지(108)의 컨셉(concept)이다. 온톨롤지(108)는 컨셉을 나타내는 노드의 그래프이며, 노드는 컨셉 사이의 관계에 따라 에지(edge)에 의해서 연결되어 있다. 일부 예시에 있어서, 온톨로지는 복수의 하위 카테고리를 갖는 계층적 구조를 가질 수 있다.

보다 구체적으로, 이미지 태깅 서버(102)는 각각의 언태그된 이미지(114)를 분석하여 이미지 내의 특징을 식별하고 또한 하나 이상의 이미지 태그를 각각의 식별된 특징에 할당하여 태그된 이미지를 생성하도록 구성된다. 예시적인 이미지 태깅 서버(102)에 대해서 도 4를 참조하여 이하에서 설명하기로 한다.

이 시스템은 또한 사용자로 하여금 태그된 이미지(112)에서의 자연어 검색을 수행할 수 있도록 하는 이미지 검색 및 탐색 모듈(104)을 포함하고 있다. 보다 구체적으로, 이미지 검색 및 탐색 모듈(104)은 최종 사용자 장치(116)를 통해서 사용자로부터 자연어 질의어 및/또는 구절을 수신하고, 또한 이 자연어 질의어를 자연어 질의 매퍼(106)로 제공하도록 구성된다. 최종 사용자 장치(116)는, 예를 들면, 스마트 폰, 개인용 컴퓨터, 태블릿 컴퓨터, 또는 랩탑일 수 있다.

자연어 질의 매퍼(106)는 각각의 자연어 질의어 또는 구절을 하나 이상의 태그에 매핑한다. 다양한 예시에 있어서, 자연어 질의 매퍼(106)는 자연어 질의어 또는 구절이 태그 리스트 내의 태그 중의 하나와 매칭되는지를 판정하도록 구성될 수 있다. 질의어 또는 구절이 리스트 내의 태그 중의 하나와 매칭되는 경우, 자연어 질의 매퍼(106)는 이 질의어 또는 구절을 매핑 프로세스의 결과물로 하여 다시 이미지 검색 및 탐색 모듈(104)로 되돌려 제공할 수 있다.

그러나, 자연어 질의어 또는 구절이 리스트 내의 태그 중의 하나와 매칭되지 않는 경우에는, 자연어 질의 매퍼(106)는 자연어 질의어 또는 구절과 가장 유사한 태그를 선택하도록 구성될 수 있다. 일부 경우에 있어서, 자연어 질의 매퍼(106)는 온톨로지 및 의미 분석의 조합을 사용하여 해당 질의어 또는 구절과 가장 유사한 태그를 선택하도록 구성된다. 예를 들면, 자연어 질의 매퍼(106)는 질의어 또는 구절과 태그 사이의 하나 이상의 거리를 계산할 수 있으며, 이때 각각의 거리는 질의어 및 태그 사이의 유사도를 나타낸다. 일부 예시에 있어서, 자연어 질의 매퍼(106)는 질의어 또는 구절 및 태그 사이의 온톨로지에서의 거리를 계산하고, 또한 질의어 또는 구절 및 태그 사이의 의미 공간(semantic space)에서의 하나 이상의 거리를 계산하도록 구성된다. 계산된 거리는 이후에 질의어 또는 구절에 가장 근접하거나 가장 유사한 태그(들)를 선택하는데 사용된다.

예를 들면, 이미지 검색 및 탐색 모듈(104)은 최종 사용자 장치(116)의 디스플레이 모듈 상의 그래픽 사용자 인터페이스(118)와 상호 작용하도록 구성될 수 있다. 그래픽 사용자 인터페이스(118)는 사용자로 하여금 하나 이상의 질의어 및/또는 구절을 (예컨대, 질의어 입력 상자(120)에) 입력하도록 하고 또한 이 입력된 질의어 및/또는 구절을 사용하여 (예컨대, 검색 버튼(122)을 클릭하거나 다른 방법으로 선택하는 것에 의해서) 태그된 이미지(114)의 검색을 시작하도록 한다. (예컨대, 검색 버튼(122)을 클릭하거나 다른 방법으로 선택하는 것에 의해서) 검색이 시작됨에 따라서, (예컨대, 질의어 입력 상자(120)에 입력됨에 따라서) 자연어 질의어 및/또는 구절은 이미지 검색 및 탐색 모듈(104)로 제공된다. 이미지 검색 및 탐색 모듈(104)은 이후에 자연어 질의어 및/또는 구절을 자연어 질의 매퍼(106)로 제공한다.

사용자가 태그 중의 하나와 매칭되지 않는 자연어 질의어 또는 구절(예컨대, "차량"(vehicle))을 제공하는 경우라면, 자연어 질의 매퍼(106)는 이 자연어 질의어 또는 구절(예컨대, "차량"(vehicle))을 하나 이상의 태그(예컨대, "자동차"(car))로 매핑하고 또한 이 매핑된 태그(예컨대, "자동차")를 이미지 검색 및 탐색 모듈(104)로 제공한다.

예시적인 자연어 질의 매퍼(106)는 도 5를 참조하여 설명하기로 하며, 또한 자연어 질의 매퍼(106)에 의해서 수행될 수 있는 자연어 질의어 또는 구절을 하나 이상의 태그에 매핑하는 예시적인 방법은 도 6을 참조하여 설명하기로 한다.

자연어 질의 매퍼(106)로부터 하나 이상의 태그를 수신하게 되면, 이미지 검색 및 탐색 모듈(104)은 이 수신된 태그를 사용하여 검색 질의어 및/또는 구절과 매칭되는 태그된 이미지(122)로부터 이미지를 선택하게 된다. 일부 경우에 있어서, 이미지 검색 및 탐색 모듈(104)은 태그되어 있거나 수신된 태그(들)와 연관된 이미지를 선택하도록 구성되어 있다. 이미지 검색 및 탐색 모듈(104)은 이후에 선택된 이미지(예컨대, 검색 질의어 및/또는 구절과 매치된 이미지)를 제공한다.

예를 들면, 사용자가 질의어로 "자동차"를 제공하고 또한 자연어 질의 매퍼(106)가 이 질의어를 "자동차" 태그에 매핑한 경우, 이미지 검색 및 탐색 모듈(104)은 "자동차" 태그가 할당된 이미지에 대해서 태그된 이미지(112)를 검색할 수 있다. 이미지 검색 및 탐색 모듈(104)은 이후에, 예를 들면, 최종 사용자 장치(116)에 디스플레이된 그래픽 사용자 인터페이스(124)를 통해서 사용자에게 검색 결과(130)(예컨대, 질의어 및/또는 구절과 매칭되는 이미지)를 디스플레이할 수 있다. 일부 경우에 있어서, 이미지 검색 및 탐색 모듈(104)은 검색 결과를 사용자에게 디스플레이하기 전에 이들의 순위를 정하도록 구성될 수 있다.

이제 사용자로 하여금 자연어 질의를 사용하여 일련의 이미지를 검색하도록 하는 예시적인 그래픽 사용자 인터페이스(124)를 도시하고 있는 도 2를 참조하기로 한다.

도 1을 참조하여 설명한 바와 같이, 그래픽 사용자 인터페이스(124)는 사용자로부터 자연어 질의어 및/또는 구절을 수신하도록 구성된 질의어 입력 상자(126)를 포함할 수 있다. 질의어 및/또는 구절은 하나 이상의 키워드 또는 키 구절(예컨대, "자동차"(car) 및 "사람"(person))을 포함할 수 있다. 관계어는 "and", "not", "or"와 같이 키워드 간의 관계를 한정하는 어휘이다. 공간 관계어 또한 "옆에"(beside), "오른쪽에"(right), "왼쪽"(left), "근처에"(near)와 같이 사용될 수 있다. 일부 경우에 있어서, 그래픽 사용자 인터페이스는 관계어가 한정되지 않는 경우에, 기본 관계어를 and와 같은 관계어로 상정할 수 있다.

그래픽 사용자 인터페이스(124)는 또한 (예컨대, 검색 버튼(128)을 클릭하거나 다른 방법으로 버튼(128)을 선택하는 것에 의해서) 활성화되는 경우에 질의어 입력 상자(126) 내의 자연어 질의어 및/또는 구절을 사용하여 태그된 이미지(114)의 검색을 시작하는 검색 버튼(128)을 포함하고 있다.

상술한 바와 같이, 검색이 시작되는 경우, 질의어 입력 상자(126) 내의 자연어 질의어 및/또는 구절은 이미지 검색 및 탐색 모듈(104)로 전송되고, 이들은 이후에 자연어 질의 매퍼(106)에 의해서 하나 이상의 태그로 전환 또는 매핑되며, 이후에 매핑된 태그를 사용하여 자연어 질의어 및/또는 구절에 매칭되는 이미지가 식별되고 또한 검색된다. 식별된 이미지(또는 그 일부 또는 그 변형)는 이후에 (예컨대, 최종 사용자 장치(116)를 통해서) 사용자에게 제공된다.

도 2에 나타낸 예시에 있어서, 사용자는 자연어 질의어인 "자동차"(car)를 사용하여 일련의 이미지를 검색하고 있다. 질의와 매칭되는 이미지(또는 썸네일 또는 그 변형)(130)(예컨대, 태그인 "자동차"와 연관된 이미지)는 그래픽 사용자 인터페이스(124)를 통해서 사용자에게 디스플레이된다.

일부 경우에 있어서, 사용자는 디스플레이된 특정 이미지에 대해서 이미지를 클릭하거나 다른 방법으로 선택하는 것에 의해서 더 많은 정보를 찾아낼 수도 있다. 예를 들면, 도 2에 나타낸 바와 같이, 사용자가 가장 먼저 디스플레이된 이미지(130)를 클릭하거나 다른 방법으로 선택하는 경우, 이 이미지는 창(200)에 디스플레이되면서 동시에 이미지(130)에 대한 또는 관련된 정보(예컨대, 태그, 관련된 이미지 등)를 함께 디스플레이할 수 있다. 창(200)은 메인 그래픽 사용자 인터페이스(124)의 일부이거나 메인 그래픽 사용자 인터페이스로부터 분리되어 있을 수 있다.

일부 예시에 있어서, 창(200)은 이미지(130)와 연관되어 있는 태그(202) 리스트를 디스플레이할 수 있다. 예를 들면, 도 2에 있어서, 창(200)은 선택된 이미지(130)가 "사람", "자동차", 및 "길거리"(street) 태그(202)와 연관되어 있음(또는 태그 처리됨)을 보여주고 있다. 일부 경우에 있어서, 태그는 범주화될 수 있으며, 태그가 사용자에게 (예컨대, 창(200)에) 디스플레이될 때 태그가 범주와 연관되어서 표시된다. 예를 들면, 이미지 내에서 식별된 객체와 관련된 태그는 "객체" 태그로 식별되고, 이미지 내에서 식별된 특정 장면과 관련된 태그는 "장면" 태그로 식별되고, 또한 이미지 내에서 식별된 특정 랜드마크와 관련된 태그는 "랜드마크" 태그로 식별될 수 있다. 이미지 내의 특정 영역(또는 경계 상자)과 관련된 태그는 "영역" 태그로 식별될 수 있다. 일부 경우에 있어서, 사용자는 태그 중의 하나를 클릭하거나 다른 방법으로 선택하는 것에 의해서 질의어를 자동으로 갱신할 수 있다. 예를 들면, 사용자가 "사람"이라는 태그를 클릭하거나 다른 방법으로 선택하는 경우, 질의어 입력 상자에 "사람"이라는 어휘가 추가될 수 있다.

일부 예시에 있어서, 창(200)은 또한, 또는 다르게는, 선택된 이미지(130)와 유사한 하나 이상의 이미지(204 및 206)를 디스플레이할 수 있다. 두 이미지의 유사도는, 예를 들면, 공유하고 있는 (즉, 공통으로 가지고 있는) 이미지 태그의 숫자에 기초하여 판정될 수 있다. 예를 들면, 일부 경우에 있어서, 두 이미지가 더 많은 이미지 태그를 공통으로 가지고 있으면, 이들은 더욱 유사한 이미지가 된다. 두 이미지의 유사도는 또한 이미지 태그에 할당된 신뢰값에 기초하여 판정될 수도 있다. 예를 들면, 언태그된 이미지(114)에 하나 이상의 이미지 태그를 태깅하는 것에 덧붙여, 이미지 태깅 서버(102)는 하나의 이미지에 할당된 각각의 태그에 신뢰값을 할당하도록 구성될 수 있다. 이 신뢰값은 이미지에 대한 이미지 태그의 정확도를 나타낸다(예컨대, 이미지가 이미지 태그에 의해서 표시되는 특징(예컨대, 객체, 장면 등)을 포함하는지의 가능성을 나타낸다). 사용자는 유사 이미지를 클릭하거나 다른 방법으로 선택하는 것에 의해서 특정한 유사 이미지에 대해서 더욱 많이 학습할 수 있다. 다른 예시에 있어서, 두 이미지의 유사도는 이미지로부터 추출되는 시각적 특징에 기초하여 판정될 수 있다. 특징은 심층 신경망을 사용하여 또는 다른 방식을 사용하여 추출될 수 있다.

일부 예시에 있어서, 사용자는 창(200)에 디스플레이된 선택된 이미지(130) 위로 커서를 움직여서 이 선택된 이미지(130) 내에서 어떤 객체가 식별되었는지를 알 수 있다. 커서가 식별된 객체 위에 위치하게 되는 경우, 그와 같이 식별된 객체가 표시되거나 강조될 수 있다. 예를 들면, 도 2에 나타낸 바와 같이, 직사각형 상자(208)(또한 경계 상자로 통칭함)가 식별된 객체 주위에 표시될 수 있다. 객체 주위의 경계 상자는 실제로 그려지지 않고, 이미지 위에 바로 팝업될 수 있다. 상자(208)는, 클릭되었을 때, 이미지 중에서 관련된 영역 태그를 갖는 이미지를 탐색하는데 사용될 수 있다. 예를 들면, 경계 상자(208)가 사람을 포함하고 있는 경우라면, 이 영역의 태그는 "사람"(person)일 수 있다. 경계 상자(208)를 선택하는 사용자 입력이 수신되면 질의로서 해당 영역의 태그를 사용하여 이미지를 검색할 수 있다.

사용자는 선택된 이미지(130) 내의 객체를 클릭하거나 다른 방법으로 선택하는 것에 의해서 자동으로 어휘를 질의에 추가할 수 있다. 예를 들면, 사용자가 선택된 이미지(130) 내에 나타난 사람 중의 한 사람 위로 커서를 이동하게 되면, 직사각형 상자가 이 사람 위에 디스플레이된다. 사용자가 이후에 이 직사각형 상자 내의 아무 곳이나 클릭하게 되면, 어휘 "사람"(person)이 질의어 입력 상자에 추가되어 두 개의 질의어, 즉 "자동차"(car)와 "사람"(person)을 포함하게 될 수 있다. 그 후에 질의가 시작되면, 질의는 시스템의 구성에 따라서 질의어 중의 하나 또는 이들 모두와 매칭되는 이미지를 찾도록 수행될 수 있다. 예를 들면, 질의가 자동으로 갱신되거나 변형되어 "자동차" 및 "사람"이라는 어휘를 포함하게 되는 경우, 그래픽 사용자 인터페이스(210)도 갱신되어 질의어 모두(예컨대, "자동차" 및 "사람")와 매칭되는 이미지(212)를 디스플레이할 수 있다.

이와 같은 방식으로 사용자가 자동으로 질의어를 갱신하도록 하면, 사용자는 신속하고 효과적인 방식으로 질의를 수정하고 또한 일련의 이미지를 탐색하게 된다.

이미지 검색 결과는 격자 모양 또는 다른 패턴으로 배열된 복수의 썸네일 이미지와 같이 표현될 수 있다. 일부 예시에 있어서, (검색으로부터 반환된) 최상위 순위의 이미지는 그래픽 사용자 인터페이스의 결과 영역의 중앙에 표현되며, 또한 낮은 순위의 이미지는 중앙 이미지를 각각의 낮은 순위의 이미지에 연결하는 아크를 사용하여 중앙 이미지의 주위에 표현된다. 아크는 중앙 이미지와 낮은 순위의 이미지 사이의 유사도의 강도를 나타내는 두께, 색상, 또는 다른 특징을 가질 수 있다.

이제 사용자로 하여금 자연어를 사용하여 일련의 이미지를 검색하도록 하는 다른 예시적인 그래픽 사용자 인터페이스(300)를 도시하고 있는 도 3을 참조하기로 한다. 본 예시에 있어서, 그래픽 사용자 인터페이스(300)는, 도 1 및 도 2의 그래픽 사용자 인터페이스(124)와 마찬가지로, 도 1 및 도 2의 질의어 입력 상자(126) 및 검색 버튼(128)과 마찬가지로 동일한 방식으로 동작할 수 있는 질의어 입력 상자(302) 및 검색 버튼(304)을 포함하고 있다.

도 3의 그래픽 사용자 인터페이스(300)는 근접 선택 툴(306)을 포함하고 있다. 근접 선택 툴(306)은 사용자로 하여금 이미지 내에서 서로에 대해서 근접한 특정한 질의어를 갖는 이미지에 대해 검색할 수 있도록 한다. 그와 같은 검색은 본 명세서에서는 근접 검색 또는 질의라고 통칭한다. 예를 들면, 도 3에 나타낸 바와 같이, 질의어가 "사람"과 "자전거"(bicycle)를 포함하고 있는 경우, 이들 질의어를 사용하여 (예컨대, 검색 버튼(304)을 클릭하거나 다른 방법으로 선택하는 것에 의해서) 검색 또는 질의가 시작되면 자전거에 근접한 (또는 가깝게 근접한) 사람을 포함하고 있는 이미지를 식별할 수 있다.

일부 경우에 있어서, 이미지 태깅 서버(102)는 태그된 이미지와 연관된 이미지 내에서 식별된 임의의 객체의 위치를 기록하도록 구성될 수 있다. 이후에 근접 검색이 시작되는 경우 이 정보를 사용하여 이미지 내의 객체 사이의 거리를 동적으로 결정할 수 있다. 예를 들면, 이미지 검색 및 탐색 모듈(104)이 (예를 들면, 최종 사용자 장치(116)를 통해서) 사용자로부터 근접 검색을 수신하는 경우, 이미지 검색 및 탐색 모듈(104)은 일련의 태그된 이미지 중에서 질의어와 매칭되는 이미지를 찾거나 식별하고; 식별된 이미지 내의 특정 객체 사이의 거리를 위치 정보를 사용하여 결정하고; 또한 계산된 거리가 소정의 기준값을 초과하는 경우 식별된 임의의 이미지를 제거하도록 구성될 수 있다.

다르게는, 이미지 태깅 서버(102)는 이미지 내의 임의의 객체 사이의 거리를 자동으로 결정하고 또한 이 거리 정보를 태그된 이미지와 연관시켜서 저장할 수 있다. 이는 이미지 검색 및 탐색 모듈(104)이 매칭되는 이미지 리스트를 반환하기 전에 거리를 먼저 계산할 필요가 없기 때문에 근접 질의와 매칭되는 이미지를 신속하게 검색할 수 있게 하지만, 이는 추가적인 거리 정보를 저장하기 위해서 더 많은 공간을 필요로 한다.

이제 예시적인 이미지 태깅 서버(102)를 도시하고 있는 도 4를 참조하기로 한다. 상술한 바와 같이, 이미지 태깅 서버(102)는 언태그된 이미지(402)를 수신하고 또한 태그된 이미지(404)를 생성한다. 태그된 이미지(404)는 태그가 이미지의 일 특징을 설명하는 것과 연관된 하나 이상의 태그를 갖는 것이다. 일부 경우에 있어서, 이미지 태깅 서버(102)는 언태그된 이미지만 수신할 수 있다. 다른 경우에 있어서, 이미지 태깅 서버(102)는 또한 이미지와 연관된 메타 데이터를 수신할 수 있다. 이미지 태깅 서버가 언태그된 이미지에 추가하여 메타 데이터를 수신하는 경우 이미지 태깅 서버(102)는 이 메타 데이터를 사용하여 이미지를 태깅하는데 도움을 받을 수 있다. 예를 들면, 위치 결정 시스템(GPS: global positioning system)을 사용하여 랜드마크의 데이터베이스로부터 근처의 랜드마크를 검색할 수 있다. 근처의 랜드마크명은 태그로 사용될 수 있다. 다른 예시에 있어서, 사진 촬영 중에 플래시를 사용하면 "밤"(night) 태그가 붙을 가능성이 높아질 수 있으며 또는 이를 사용하여 낮 시간 야외와 밤 시간 야외의 경쟁적 모델 중의 하나를 선택할 수 있다.

이미지 태깅 서버(102)는 하나 이상의 인식 모듈을 포함하고 있다. 예를 들면, 랜드마크 인식 모듈은 GPS 데이터 및 랜드마크 데이터베이스를 사용한다. 인식 모듈 중의 일부는 사전 학습되어 이미지 내의 특정한 특징을 식별하고 또한 각각의 식별된 특징과 하나 이상의 태그를 연관시킨다. 예를 들면, 도 4의 이미지 태깅 서버(102)는 객체 인식 모듈(406), 장면 인식 모듈(408), 랜드마크 인식 모듈(410), 행동 인식 모듈(412), 이미지 내 텍스트 인식 모듈(414), 안면 인식 모듈(416), 성별 인식 모듈(418), 연령 인식 모듈(420), 표현 인식 모듈(422)을 포함하고 있다. 행동 인식 모듈(412)은 규칙 또는 훈련된 기계 학습 시스템을 사용하여 이미지에 묘사된 행동을 검출할 수 있다. 이미지 내 텍스트 인식 모듈은 OCR 컴포넌트를 포함할 수 있다. 연령 및 성별 인식 모듈은 이미지 내에 묘사된 임의의 사람으로부터 적절한 동의가 얻어지는 경우에 동작한다. 이들 모듈은 기계 학습 및/또는 규칙을 사용하여 이미지 내에 묘사된 사람들을 성별 및 나이 등급으로 분류한다. 표현 인식 모듈은 제스처 인식, 및 안면 표현 인식 컴포넌트를 포함할 수 있으며, 이들은 기계 학습 컴포넌트일 수 있다.

다른 예시에 있어서, 이미지 태깅 서버(402)는 이들 인식 모듈 중의 하나만 포함하거나 이들 인식 모듈의 다른 조합, 또는 다른 적절한 인식 모듈을 포함할 수 있다.

객체 인식 모듈(406)은 이미지 내의 객체를 식별하고, 이 식별된 객체를 분류하고 또한 이 분류에 기초하여 객체에 하나 이상의 태그를 할당하도록 구성된다. 객체 인식 모듈(404)은 식별 기법을 사용하여 이미지의 구성 요소를 고정된 숫자의 개체 클래스로 분류하도록 구성될 수 있다. 예를 들면, 픽셀 차이 특징(pixel difference feature)을 사용하여 이미지의 픽셀을 분류하기 위해서, 훈련된 랜덤 결정 포레스트 기법(trained random decision forest)을 사용할 수 있다. 일부 경우에 있어서, 랜덤 결정 포레스트 트리의 각각의 노드는 외관 또는 형상 중의 하나와 연관되어 있다. 하나 이상의 태그는 이후에 이 분류에 기초하여 이미지에 할당되거나, 또는 경계 상자, 픽셀 또는 픽셀 그룹과 같은 이미지의 일 요소에 할당된다.

장면 인식 모듈(408)은 이미지 중의 장면을 분류하고 또한 이 분류에 기초하여 하나 이상의 태그를 할당하도록 구성된다. 장면 분류기(scene classifier)는 소정의 장면에 대해서 라벨이 첨부된 데이터(알려진 장면을 갖는 이미지)로부터 훈련되어 기계 학습 모델을 구축할 수 있으며, 이미지로부터 시각적 특징을 추출하는 단계와 이후에 (랜덤 포레스트(random forest) 또는 신경망과 같은) 분류기를 훈련하는 단계를 포함하고 있다. 특징 추출은 원시 픽셀값에 대한 특징 추출 및 분류를 모두 수행하도록 준비된 심층 신경망을 사용하여 수행될 수 있다.

랜드마크 인식 모듈(410)은 이미지 내의 알려진 랜드마크를 식별하고 또한 이 식별에 기초하여 하나 이상의 태그를 할당하도록 구성된다. 일부 경우에 있어서, 랜드마크 인식 모듈(410)은 객체 인식 모듈(406)과 연동하여 동작할 수 있다. 예를 들면, 랜드마크 인식 모듈(410)은 이미지 내에서 식별된 객체에 대한 정보를 객체 인식 모듈(408)로부터 수신할 수 있다. 랜드마크 인식 모듈(410)은 이후에 객체의 형상과 메타 데이터 내의 위치 정보를 사용하여 객체를 랜드마크로 식별할 수 있다. 위치 정보는 이미지를 생성하는 장치(예컨대, 카메라)에 의해서 자동으로 생성되거나 메타 데이터에 수동으로 입력될 수 있다. 일단 랜드마크 인식 모듈(410)이 객체를 랜드마크로 식별하게 되면, 하나 이상의 태그가 이 이미지에 할당되거나 이와 연관된다. 다른 예시에 있어서, 이미지와 연관되어 있는 GPS 메타 데이터를 사용하여 랜드마크 데이터베이스 내의 잠재적인 랜드마크를 검색한다. 인접한 랜드마크가 두 개 이상 존재하는 경우라면, 데이터베이스 내에 저장된 랜드마크의 표준 이미지를 사용하여 잠재적인 랜드마크 중의 하나를 선택하는데 이미지의 영상 정보를 사용할 수 있다.

이제 예시적인 자연어 질의 매퍼(106)를 도시하고 있는 도 5를 참조하기로 한다. 상술한 바와 같이, 자연어 질의 매퍼(106)는 이미지 검색 및 탐색 모듈(104)로부터 자연어 질의어 및/또는 구절(500)을 수신하고 또한 각각의 자연어 질의어 및 구절을 복수의 이미지 태그(503) 중의 하나 이상의 이미지 태그(502)에 매핑(본 명세서에서는 매핑된 태그로 통칭한다)한다. 보다 구체적으로, 자연어 질의 매퍼(106)는 의미 분석 및 온톨로지의 조합(여기에서, 각각의 태그는 온톨로지 내의 컨셉)을 사용하여 각각의 자연어 질의어 및/또는 구절(500)을 하나 이상의 이미지 태그(502)에 매핑한다. 매핑된 이미지 태그(502)는 이후에 이미지 검색 및 탐색 모듈(104)로 제공되어 매핑된 이미지 태그(502)로 태그된 이미지가 식별된다.

도 5의 자연어 질의 매퍼(106)는 자연어 질의어 또는 구절 및 각각의 가능한 이미지 태그 사이의 의미 공간에서의 적어도 하나의 거리를 계산하는 의미 거리 모듈(504)을 포함하고 있다. 각각의 거리는 자연어 질의어 또는 구절 및 대응하는 이미지 태그 사이의 의미 유사도를 나타낸다. 두 단어 또는 구절의 의미 유사도는 이들이 동일한 의미를 가지고 있는지(예컨대, 이들을 사용하여 동일한 맥락에서 유사한 것을 의미하는지)에 기초한다.

일부 경우에 있어서, 의미 거리(들)는 의미 거리 모듈(504)에 의해서 단어 및/또는 구절의 의미 임베딩(506)으로부터 계산되며, 의미 임베딩은 단어들의 의미 공간이고, 여기에서 각각의 단어 또는 구절은 단어 및/또는 구절 사이의 의미 유사도를 나타내는 저차원 또는 고차원 임베딩 벡터(embedding vector)로 매핑된다.

일부 경우에 있어서, 의미 임베딩(506)은 자연어 말뭉치(510)에 의미 부호화(508)를 적용하여 생성된다. 자연어 말뭉치(510)는 일련의 커다란 텍스트이다. 의미 부호화(508)는 단어 사이의 의미 정보를 캡처하도록 훈련된 기계 학습 컴포넌트이다.

일부 경우에 있어서, 의미 부호화는 재귀 신경망(RNN, recursive neural network)과 같은 신경망이며, 이 신경망은 소정의 단어들 주위의 단어(또는 맥락)를 예측하도록 훈련된다. 그 결과, 유사한 맥락으로 보여지는 단어들은 임베딩 벡터가 유사해진다. 이와 같은 신경망을 자연어 말뭉치(510)에 적용하면 자연어 말뭉치에서 조우하게 되는 문장 중의 단어 사용의 유사도에 기초하여 각 단어의 고차원 임베딩이 이루어진다. 예를 들면, 단어 "따뜻한"(warm) 및 "뜨거운"(hot)은 다음과 유사한 문장에서 나타날 수 있다.

수프는 여전히 뜨거웠고……

수프는 아직도 따뜻했고……

뜨거운 날씨……

따뜻한 날씨……

이는 "뜨거운" 및 "따뜻한"이라는 단어가 유사하거나 동일한 임베딩 벡터를 갖도록 한다.

의미 거리 모듈(504)은 단어들의 의미 공간 내의 하나 이상의 거리를 계산(즉, 의미 임베딩(506))하도록 구성될 수 있다. 보다 구체적으로, 의미 거리 모듈(504)은 각각의 거리 모듈이 서로 다른 방식으로 거리를 계산하는 하나 이상의 거리 모듈을 포함할 수 있다. 예를 들면, 도 5의 의미 거리 모듈(504)은 자연어 질의어 및/또는 구절 및 개별 태그 사이의 코사인 유사도를 계산하는 코사인 유사도 모듈(512); 자연어 질의어 및/또는 구절 및 개별 태그의 내적(dot product)을 계산하는 내적 모듈(514); 자연어 질의어 및/또는 구절 및 개별 태그의 다이스 유사도(dice similarity)를 계산하는 다이스 유사도 모듈(516); 자연어 질의어 및/또는 구절 및 개별 태그 사이의 해밍 거리(hamming distance)를 계산하는 해밍 거리 모듈(518); 및 자연어 질의어 및/또는 구절 및 개별 태그 사이의 시티 블록 거리를 계산하는 시티 블록 거리 모듈(520)을 포함하고 있다. 그러나, 다른 예시에 있어서, 의미 거리 모듈(504)은 이들 거리 모듈 중의 하나만 포함하거나, 이들 거리 모듈의 다른 조합을 포함하거나 또는 다른 유형의 거리 모듈을 포함할 수 있다.

각각의 거리 모듈(512 - 520)은 서로 다른 방식으로 거리를 계산하며, 따라서 각각 서로 다른 방식으로 단어 및/또는 구절 사이의 유사도를 결정한다. 최상의 결과를 얻기 위해서는, 다양한 거리 모듈(512 - 520)에서 계산된 거리를 조합하여 합의된 결과를 얻는다. 보다 구체적으로, 거리는 (자연어 질의어 및 태그가 전혀 유사하지 않음을 나타내는) 소정의 기준값을 초과하는 임의의 거리를 폐기할 수 있는 기준값 모듈(522)로 제공될 수 있다. 기준값은 서로 다른 유형의 거리에 대해서 서로 다를 수 있다. 대응하는 소정의 기준값 미만에 속하는 임의의 거리는 선택 모듈(524)로 제공되며, 여기에서 기준값을 초과하는 거리는 대응하는 태그에 대해서 투표하게 된다. 투표는 이후에 조합되어 가장 많은 표를 받은 태그가 선택된다. 일부 경우에 있어서, 투표에는 유사도의 강도(예컨대, 거리값)에 기초하여 가중치가 부여된다. 이와 같은 방식으로 거리를 조합하게 되면 각각의 거리가 서로 다른 기준을 사용하고 있기 때문에 매핑의 정확도가 증가된다. 일반적으로, 거리 계산에 사용된 방법이 다르게 되면 매핑이 더욱 더 정확해진다. 그러나, 처리 시간 및 리소스면에서 이해 득실이 증가한다.

서로 다른 의미 거리값을 계산하고 조합하면 상당히 정확한 매핑 결과를 얻을 수 있지만, 때로는 하나의 단어와 그 반대말(또는 무관한 단어)이 동일한 맥락에서 공통적으로 사용된다. 예를 들면, 동일한 맥락에서 반대 의미 및 무관한 단어인 "빠른"(fast), "느린"(slow), 및 "간신히"(barely)를 "느리게 움직이는 열차"와 "빠르게 움직이는 열차", 및 "간신히 움직이는 열차"에 사용할 수 있다. 따라서, 이들 상황을 구별하는데 추가적인 정보(즉, 의미 분석 정보 이외의 정보)가 유용할 수 있으며, 따라서 매핑의 정확도가 증가된다.

일부 예시에 있어서, 추가적인 정보는 온톨로지로부터 얻어진다. 보다 구체적으로, 도 5에 나타낸 예시적인 자연어 질의 매퍼(106)는 자연어 질의어 또는 구절(500) 및 각각의 이미지 태그 사이의 온톨로지에서의 거리를 계산하도록 구성된 온톨로지 거리 모듈(526)을 포함하고 있다. 상술한 바와 같이, 온톨로지(108)는 컨셉(각각의 태그는 온톨로지에서의 컨셉임)을 나타내는 노드의 그래프이며, 여기에서 노드는 컨셉 사이의 관계에 따라 에지(edge)에 의해서 연결되어 있다. 각각의 온톨로지 거리(ontology distance)는 온톨로지 내의 노드 사이를 순회하는 것에 의해서 계산된다.

온톨로지는 WordNet®과 같은 상업적으로 시판 중인 온톨로지이거나 특별하게 개발된 온톨로지일 수 있다. WordNet®은 일련의 대형 어휘 데이터베이스로, 각각 별개의 컨셉을 나타내고 있는 인지적 동의어(cognitive synonyms, synsets)로 그룹화된 영어 단어의 데이터베이스이다. 신셋(synset)은 개념적 의미 및 어휘 관계를 사용하여 상호 링크되어 있다.

온톨로지 거리 모듈(526)에서 생성된 온톨로지 거리 또한 기준값 모듈(522)로 제공되며, 여기에서 소정의 기준값을 초과하는 임의의 거리는 폐기되거나 무시되며 또한 소정의 기준값 미만에 들어가는 임의의 거리는 대응하는 태그에 대해서 투표하는 선택 모듈(524)로 제공된다.

이제 자연어 질의 매퍼(106)에 의해서 실행될 수 있는 온톨로지 및 의미 분석의 조합을 사용하여 자연어 질의어 또는 구절을 하나 이상의 이미지 태그에 매핑하는 방법을 도시하고 있는 도 6을 참조하기로 한다. 블록(600)에서, 자연어 질의 매퍼는 자연어 질의어 또는 구절을 수신한다. 상술한 바와 같이, 자연어 질의어 또는 구절은 이미지 검색 및 탐색 모듈(104)이 최종 사용자 장치(116)를 통해서 사용자로부터 (하나 이상의 질의어 및/또는 구절을 한정하는) 검색 요청을 수신한 이후에 이미지 검색 및 탐색 모듈(104)로부터 수신될 수 있다.

자연어 질의어 및/또는 구절을 수신하게 되면, 자연어 질의 매퍼(106)는 이 질의어 및/또는 구절이 준거 집합(reference set) 중에 있는지(예컨대, 이미지 태그 중의 하나인지)를 결정한다. 자연 질의어 및/또는 구절이 준거 집합 중에 있는 경우라면, 자연어 질의 매퍼(106)는 이미지 태그를 이미지 검색 및 탐색 모듈(104)로 제공하며, 이 모듈은 이후에 이미지 태그를 사용하여 자연어 질의(604)와 매칭되는 이미지를 식별하고 또한 검색한다.

자연 질의어 및/또는 구절이 준거 집합 중에 없는 경우(예컨대, 이미지 태그와 매칭되지 않는 경우)라면, 본 발명의 방법은 블록(606 및 608)으로 진행하며, 이들 블록에서는 자연어 질의어 또는 구절 및 개별 이미지 태그 사이의 온톨로지 거리 및 하나 이상의 의미 공간이 계산된다. 도 5를 참조하여 상술한 바와 같이, 온톨로지 거리의 계산은 자연어 질의어 또는 구절 및 개별 이미지 태그 사이의 온톨로지(예컨대, WordNet®)에서의 거리를 계산하는 단계를 포함할 수 있으며, 여기에서 각각의 이미지 태그는 온톨로지 내의 컨셉이다.

도 5를 참조하여 상술한 바와 같이, 하나 이상의 의미 거리를 계산하는 단계는 자연어 질의어 또는 구절 및 개별 이미지 태그 사이의 단어들의 의미 공간에서의 거리를 계산하는 단계를 포함할 수 있다. 단어들의 의미 공간은 자연어 텍스트의 말뭉치에 신경망과 같은 훈련된 기계 학습 컴포넌트를 적용하여 생성될 수 있다. 의미 거리는 코사인 유사도, 내적, 다이스 유사도, 해밍 거리, 및 시티 블록 거리 중의 하나 이상을 포함할 수 있다.

온톨로지 및 의미 거리가 일단 생성되거나 계산되면, 본 발명의 방법은 블록(610)으로 진행하여, 여기에서 온톨로지 및 의미 거리에 하나 이상의 기준값을 적용하여 소정의 기준값을 초과하는 거리는 제거되거나 폐기된다. 각 유형의 거리에 대해서 소정의 특정한 기준값(예컨대, 온톨로지 거리에 대해서 하나 그리고 각 유형의 의미 거리에 대해서 하나)이 있을 수 있으며, 또한 모든 거리에 적용되는 하나의 소정의 기준값이 있을 수 있다. 기준값(들)을 적용하는 목적은 적절한 이미지 태그를 선택함에 있어서 질의어 또는 구절 사이의 유사도가 약하여 고려할 필요가 없는 거리를 제거하기 위함이다. 이 단계에서 이들 거리를 제거하는 것에 의해서, 최적의 이미지 태그 후보를 선택하는데 필요한 처리 능력을 감소시킬 수 있다.

일단 계산된 거리에 기준값(들)을 적용하게 되면, 본 발명의 방법은 블록(612)으로 진행하게 되며, 여기에서 남아있는 거리를 사용하여 자연어 질의어 또는 구절에 가장 근접한 하나 이상의 태그가 선택된다. 일부 경우에 있어서, 각각의 남아있는 거리는 대응하는 이미지 태그에 대한 투표로 간주된다. 각각의 이미지 태그에 대한 투표는 이후에 누적되어 각각의 이미지 태그에 대한 득표수 또는 값이 구해진다. 최다 득표 이미지 태그가 최적의 이미지 태그 후보(614)에서 선택되고 또한 이미지 검색 및 탐색 모듈(104)로 전달될 수 있다.

일부 경우에 있어서, 투표수를 누적하기 전에, 각각의 투표에 가중치가 부여된다. 가중치는 관련된 거리값의 크기에 기초할 수 있다. 예를 들면, 일부 경우에 있어서, 거리값이 작으면 더 큰 가중치가 주어질 수 있다.

이제 자연어 질의어 및/또는 구절을 사용하여 검색 및 탐색 모듈(104)에 의해서 실행될 수 있는 일련의 이미지를 검색하는 방법을 도시하고 있는 도 7을 참조하기로 한다. 블록(700)에서, 검색 및 탐색 모듈(104)은 최종 사용자 장치(116)를 통해서 사용자로부터 (자연어 질의어 및/또는 구절 및 선택적으로 근접도 지시자를 포함하는) 검색 질의를 수신한다. 자연어 질의어 및/또는 구절을 수신하기 되면, 검색 및 탐색 모듈(104)은 이 자연어 질의어 및/또는 구절을 자연어 질의 매퍼(106)로 제공하여 자연어 질의어 및/또는 구절을 하나 이상의 이미지 태그(702)에 매핑한다. 자연어 질의 매퍼(106)는, 예를 들면, 도 6의 방법을 사용하여 자연어 질의어 및/또는 구절을 하나 이상의 이미지 태그에 매핑할 수 있다. 자연어 질의 매퍼(106)는 이후에 이 매핑된 이미지 태그를 이미지 검색 및 탐색 모듈(104)로 제공한다.

일부 예시에 있어서, 매핑된 이미지 태그를 수신하게 되면, 본 발명의 방법은 블록(204)으로 진행하며, 여기에서 이미지 검색 및 탐색 모듈(104)은 최종 사용자 장치(116)에 디스플레이된 그래픽 사용자 인터페이스에 이미지 태그를 출력한다. 그러나, 이미지 태그는 반드시 GUI로 출력되지 않아도 된다. 본 발명의 방법은 이후에 블록(206)으로 진행한다.

블록(206)에서, 이미지 검색 및 탐색 모듈(104)은 매핑된 이미지 태그를 사용하여 자연어 질의어 및/또는 구절과 매칭되는 하나 이상의 이미지를 태그된 이미지 데이터베이스로부터 식별하고 검색한다. 예를 들면, 이미지 검색 및 탐색 모듈(104)은 매핑된 이미지 태그로 태그되어 있는 이미지를 검색할 수 있다. 검색 요청에 근접도 지시자가 포함된 경우에는 매핑된 이미지 태그로 태그되고 또한 가까운 근접도로 매핑된 이미지 태그에 의해서 식별되는 객체를 갖는 이미지만을 검색할 수 있다. 일단 태그된 이미지 데이터베이스로부터 매칭된 이미지가 검색되면, 본 발명의 방법은 블록(208)으로 진행하거나 본 발명의 방법은 바로 블록(210)으로 진행할 수 있다.

블록(208)에서, 이미지 검색 및 탐색 모듈(104)은 검색된 이미지가 검색 기준에 얼마나 잘 매칭되는지에 기초하여 순위를 정한다. 예를 들면, 상술한 바와 같이, 일부 경우에 있어서, 이미지 태깅 서버(102)는 이미지에 할당된 각각의 이미지 태그에 신뢰값을 할당하도록 구성될 수 있다. 신뢰값은 태그의 정확도(즉, 이미지가 태그로 식별되는 아이템을 포함하는지의 가능성)를 나타낸다. 이들 경우에 있어서, 이미지 검색 및 탐색 모듈(104)은 검색된 이미지의 순위를 정하도록 구성될 수 있다. 예를 들면, (매핑된 질의어와 교차하는) 매핑된 이미지 태그에 대한 신뢰값이 더 높으면, 해당 이미지의 순위는 더 높게 정해진다. 다른 경우에 있어서, 다른 기준을 사용하여 검색된 이미지의 순위를 정할 수 있다. 예를 들면, 기계 학습에서의 순위 결정 장치는 인간이 주석을 달면서 수동으로 판단한 질의-이미지 쌍에 기초한 검색 결과의 순위를 정하도록 훈련될 수 있다.

블록(210)에서, 이미지 검색 및 탐색 모듈(104)은 순위가 정해졌거나 정해지지 않은 채로 검색된 이미지를 최종 사용자 장치(116)의 그래픽 사용자 인터페이스로 출력할 수 있다.

이제 이미지 검색 및 탐색 모듈(104)에 의해서 실행될 수 있는 일련의 이미지를 탐색하는 방법을 도시하고 있는 도 8을 참조하기로 한다. 블록(800)에서, 이미지 검색 및 탐색 모듈(104)은 디스플레이된 이미지 중의 하나 또는 디스플레이된 이미지 내의 객체를 사용자가 선택하였다는 (예를 들면, 경계 박스에 의해서 표시되는) 표시를 최종 사용자 장치(116)로부터 수신한다.

이미지 검색 및 탐색 모듈(104)은 선택된 이미지 또는 선택된 객체(802)와 연관된 태그를 검색하고 또한 선택된 이미지 또는 객체에 대한 이미지 태그를 그래픽 사용자 인터페이스(804)에 디스플레이한다. 사용자가 이미지를 선택한 경우, 이미지에 대한 이미지 태그는 도 2에 나타낸 바와 같이 그래픽 사용자 인터페이스에 리스트로 디스플레이될 수 있다. 그러나, 사용자가 이미지 내의 객체를 선택하는 경우 도 2에 나타낸 바와 같이 이 객체와 연관되어 있는 이미지 태그가 경계 상자의, 예를 들면, 상부에, 또는 질의어 입력 상자 내에 디스플레이될 수 있다.

이미지 검색 및 탐색 모듈(104)은 또한 선택된 이미지 또는 선택된 객체에 대한 이미지 태그를 사용하여 이미지를 검색한다. 사용자가 이미지를 선택하는 경우, 검색된 이미지는 선택된 이미지와 유사한 이미지일 수 있다. 유사도는 공통으로 공유하고 있는 이미지 태그에 기초할 수 있다. 더 많은 이미지 태그가 공유되면 두 이미지는 더욱 유사해진다. 따라서, 사용자가 이미지를 선택한 경우, 이미지 검색 및 탐색 모듈(104)은 태그된 이미지 데이터베이스로부터 동일한 이미지 태그로 태그된 이미지를 선택된 이미지로서 검색하도록 구성될 수 있다. 그러나, 사용자가 이미지를 선택하였을 때 검색된 이미지는 (이제는 선택된 객체와 연관된 이미지 태그를 포함하고 있는) 질의어 입력 상자 내의 질의어를 포함하는 이미지일 수 있다. 일단 태그된 이미지 데이터베이스로부터 이미지가 검색되면, 본 발명의 방법은 블록(808)으로 진행하거나 바로 블록(810)으로 진행할 수 있다.

블록(808)에서, 검색에 사용된 이미지 태그가 얼마나 정확한 지에 기초하여 검색한 이미지의 순위가 정해진다. 예를 들면, 상술한 바와 같이, 일부 경우에 있어서, 이미지 태깅 서버(102)는 이미지에 할당된 각각의 이미지 태그에 신뢰값을 할당하도록 구성될 수 있다. 신뢰값은 태그의 정확도(즉, 이미지가 태그로 식별되는 아이템을 포함하는지의 가능성)를 나타낸다. 이들 경우에 있어서, 이미지 검색 및 탐색 모듈(104)은 검색된 이미지의 순위를 신뢰값을 사용하여 정하도록 구성될 수 있다. 예를 들면, 매핑된 이미지 태그에 대해서 신뢰값이 더 높으면 이 이미지의 순위는 더 높게 정해진다. 다른 경우에 있어서, 다른 기준을 사용하여 검색된 이미지의 순위를 정할 수 있다. 수신된 이미지의 순위가 일단 정해지면, 본 발명의 방법은 블록(810)으로 진행한다.

블록(810)에서, 이미지 검색 및 탐색 모듈(104)은 순위가 정해졌거나 정해지지 않은 채로 검색된 이미지 리스트를 최종 사용자 장치(116)의 그래픽 사용자 인터페이스로 출력할 수 있다. 사용자가 이미지를 선택하는 경우, 검색된 이미지(선택된 이미지와 유사한 이미지)는 도 2에 나타낸 바와 같이, GUI의 제 2 창에 디스플레이될 수 있다. 그러나, 사용자가 객체를 선택하는 경우, 검색된 이미지(질의어와 매치된 이미지)는 도 2에 나타낸 바와 같이, GUI의 주결과 창에 디스플레이될 수 있다.

블록(812)에서, 이미지 검색 및 탐색 모듈은 디스플레이된 이미지를 사용자가 다른 당사자와 공유하기 원하는 것을 나타내는 표시를 수신할 수 있다. 이미지 검색 및 탐색 모듈(104)이 이와 같은 표시를 수신하는 경우, 이미지 검색 및 탐색 모듈(104)은 블록(814)으로 진행할 수 있으며, 이 블록에서는, 검색된 이미지를, 예를 들면, 사용자 및/또는 최종 사용자 장치(116)가 액세스할 수 있는 소셜 네트워킹 툴에 의해서 지정된 당사자가 사용할 수 있도록 한다.

도 9는 컴퓨팅 및/또는 전자 장치의 형태로 구현될 수 있고 또한 본 명세서에서 설명한 시스템 및 방법의 실시예를 구현할 수 있는 예시적인 컴퓨팅 기반 장치(900)의 다양한 컴포넌트를 도시하고 있다.

컴퓨팅 기반 장치(900)는 마이크로 프로세서, 컨트롤러 또는 임의의 기타 적절한 유형의 프로세서일 수 있는 하나 이상의 프로세서(902)를 포함하고 있으며, 자연어를 사용하여 일련의 이미지를 검색하기 위해 컴퓨터 실행 가능한 인스트럭션을 처리하여 장치의 동작을 제어한다. 일부 예시에 있어서, 예를 들면, 시스템 온 칩 아키텍처를 사용하는 경우, 프로세서(902)는 자연어를 사용하여 일련의 이미지를 검색하는 방법의 일부를 (소프트웨어나 펌웨어가 아니라) 하드웨어에 구현한 하나 이상의 고정된 블록(또한, 가속기로 통칭함)을 포함할 수 있다. 운영 체제(904)를 포함하는 플랫폼 소프트웨어 또는 임의의 다른 적절한 플랫폼 소프트웨어가 컴퓨팅 기반 장치(900)에 제공되어 질의 매퍼(906) 및 이미지 검색 및 탐색 모듈(912)과 같은 애플리케이션 소프트웨어가 장치 상에서 실행될 수 있도록 할 수 있다.

컴퓨터 실행 가능 인스트럭션은 컴퓨팅 기반 장치(900)에 의해서 액세스 가능한 임의의 컴퓨터 판독 가능 매체를 사용하여 제공될 수 있다. 컴퓨터 판독 가능 매체에는, 예를 들면, 메모리(910) 및 통신 매체와 같은 컴퓨터 저장 매체가 포함될 수 있다. 메모리(910)와 같은 컴퓨터 저장 매체는 컴퓨터 판독 가능 인스트럭션, 자료 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하기에 적합한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 탈착식 및 비탈착식 매체를 포함하고 있다. 컴퓨터 저장 매체에는 컴퓨터 장치가 액세스 가능한 정보를 저장하는데 사용될 수 있는 RAM, ROM, EPROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 기타 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 임의의 기타 비전송 매체가 포함되나, 이에 한정되지는 않는다. 반대로, 통신 매체는 컴퓨터 판독 가능 인스트럭션, 자료 구조, 프로그램 모듈, 또는 반송파, 또는 기타 전송 메커니즘과 같은 변조 데이터 신호 내의 기타 데이터로 구현될 수 있다. 본 명세서에서 한정되는 바와 같이, 컴퓨터 저장 매체는 통신 매체를 포함하지 않는다. 따라서, 컴퓨터 저장 매체는 그 자체로서 전파되는 신호로 해석되어서는 아니된다. 전파되는 신호는 컴퓨터 저장 매체에 존재할 수 있으나, 전파되는 신호는 그 자체로서 컴퓨터 저장 매체의 예시는 아니다. 컴퓨팅 기반 장치(900) 내에 컴퓨터 저장 매체(메모리(910))가 도시되어 있지만, 저장 장치는 분산형 또는 원격지에 위치할 수 있으며 또한 네트워크 또는 기타 통신 링크를 통해서 (예컨대, 통신 인터페이스(916)를 사용하여) 액세스될 수 있다.

컴퓨팅 기반 장치(900)는 또한 컴퓨팅 기반 장치(900)와 별도로 또는 일체화될 수 있는 디스플레이 장치(920)로 디스플레이 정보를 출력하도록 배치된 입출력 컨트롤러(914)를 포함하고 있다. 디스플레이 정보는 그래픽 사용자 인터페이스를 제공할 수 있다. 입출력 컨트롤러(914) 또한 사용자 입력 장치(922)(예컨대, 마우스, 키보드, 카메라, 마이크로 폰 또는 기타 센서)와 같은 하나 이상의 장치로부터 입력을 수신하고 처리하도록 배치되어 있다. 일부 예시에 있어서, 사용자 입력 장치(922)는 음성 입력, 사용자의 제스처, 또는 기타 사용자 행동을 검출할 수 있으며 또한 내추럴 사용자 인터페이스(NUI, natural user interface)를 제공할 수 있다. 이 사용자 입력을 사용하여 컴퓨팅 기반 장치(900)의 동작을 제어할 수 있다. 일 실시예에 있어서, 디스플레이 장치(920)는 또한 터치식 디스플레이 장치인 경우 사용자 입력 장치(922)로 동작할 수 있다. 입출력 컨트롤러(914)는 또한 데이터를 디스플레이 장치 이외의 장치, 예컨대, 로컬에 접속된 프린팅 장치(도 9에서는 미도시)에 데이터를 출력할 수 있다.

임의의 입출력 컨트롤러(914), 디스플레이 장치(920) 및 사용자 입력 장치(922)는 NUI 기술을 포함할 수 있으며, 이 기술은 사용자로 하여금 내추럴한 방식으로 컴퓨팅 기반 장치와 상호 작용할 수 있도록 하고, 마우스, 키보드, 원격 조작 등과 같은 입력 장치로 인한 인위적인 제약으로부터 자유롭다. 제공될 수 있는 NUI 기술의 예시로는 음성 및/또는 언어 인식, 터치 및/또는 스타일러스 인식(터치식 디스플레이), 스크린 상에서 및 스크린에 인접하는 경우를 모두 포함하는 제스처 인식, 에어 제스처(air gesture), 헤드 및 시선 추적, 음성 및 언어, 시각, 터치, 제스처, 및 기계 지능에 의존하는 기술을 포함하지만 이에 한정되지는 않는다. 사용할 수 있는 다른 예시적인 NUI 기술에는 의지 및 목표 이해 시스템, (입체 카메라 시스템, 적외선 카메라 시스템, rgb 카메라 시스템 및 이들의 조합과 같은) 깊이 카메라를 사용하는 모션 제스처 검출 시스템, 가속도계/자이로스코프를 사용하는 모션 제스처 검출, 안면 인식, 3D 디스플레이, 헤드, 안구 및 시선 추적, 몰입형 증강 현실 및 가상 현실 시스템, 및 전계 검출 전극을 사용하는 뇌 활동 감지 기술(EEG 및 관련 방법)이 포함된다.

이에 더하여, 또는 이에 갈음하여, 본 명세서에서 설명한 기능은, 적어도 일부가, 하나 이상의 하드웨어 로직 컴포넌트에 의해서 수행될 수 있다. 제한하지 않는 예를 들면, 사용될 수 있는 예시적인 유형의 하드웨어 로직 컴포넌트는 현장 프로그래머블 게이트 어레이(FPGA, Field-programmable Gate Arrays), 주문형 집적 회로(ASIC, Program-specific Integrated Circuits), 주문형 표준 제품(ASSP, Program-specific Standard Products), 시스템 온 칩 시스템(SOCs, System-on-a-chip systems), 복합 프로그램 가능 논리 소자(CPLD, Complex Programmable Logic Devices)를 포함하고 있다.

본 명세서에서 사용된 어휘 "컴퓨터" 또는 "컴퓨팅 기반 장치"는 인스트럭션을 실행할 수 있는 처리 능력을 갖는 임의의 장치를 지칭하고 있다. 통상의 기술자라면 이와 같은 처리 능력은 다양한 서로 다른 장치에 내장될 수 있으며, 또한 따라서 "컴퓨터" 및 "컴퓨팅 기반 장치"는 각각 PC, 서버, 모바일 전화기(스마트 폰 포함), 태블릿 컴퓨터, 셋톱 박스, 미디어 플레이어, 게임 콘솔, 휴대용 개인 정보 단말기 및 기타 많은 장치를 포함하고 있다.

본 명세서에서 설명한 방법은 유형의 저장 매체 상에 기계 판독 가능한 형태, 예컨대 컴퓨터 상에서 프로그램이 실행될 때 및 컴퓨터 프로그램이 컴퓨터 판독 가능 매체 상에 구현될 수 있는 경우 본 명세서에서 설명한 임의의 방법의 모든 단계를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함하는 컴퓨터 프로그램의 형태의 소프트웨어에 의해서 수행될 수 있다. 예시적인 유형의 저장 매체는 디스크, 휴대용 USB 저장 장치, 메모리 등과 같은 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 저장 장치를 포함하고 있으며, 또한 전파되는 신호는 포함하지 않는다. 전파되는 신호는 유형의 저장 매체 내에 존재할 수는 있지만, 전파되는 신호 자체는 유형의 저장 매체의 예시는 아니다. 소프트웨어는 병렬 프로세서 또는 직렬 프로세서 상에서 실행하기 적합하여 본 발명의 방법의 각 단계가 임의의 적절한 순서로, 또는 동시에 실행될 수 있다.

이는 소프트웨어가 고가이고 독립적으로 판매될 수 있는 상품임을 인정하는 것이다. 이는 "더미"(dumb) 또는 표준 소프트웨어를 실행하거나 제어하여 소정의 기능을 수행하는 소프트웨어를 포함하는 것을 의도한다. 또한, 실리콘 칩을 설계하거나 만능 프로그램 칩을 구성하여 소정의 기능을 수행하는데 사용되는 것과 같은 HDL(하드웨어 기술 언어, hardware description language) 소프트웨어와 같은 하드웨어의 구성을 "기술"하거나 규정하는 소프트웨어도 포함하는 것을 의도하고 있다.

통상의 기술자라면 프로그램 인스트럭션을 저장하는데 이용되는 저장 장치가 네트워크를 통해서 분산될 수 있음을 잘 알 것이다. 예를 들면, 원격 컴퓨터는 소프트웨어로서 설명된 예시적인 프로세스를 저장할 수 있다. 로컬 또는 터미널 컴퓨터는 원격 컴퓨터에 액세스하고 또한 소프트웨어의 일부 또는 전부를 다운로드하여 프로그램을 실행할 수 있다. 다르게는, 로컬 컴퓨터는 필요에 따라서 소프트웨어의 일부분을 다운로드하거나, 또는 소프트웨어 인스트럭션의 일부는 로컬 터미널에서 실행하고 또한 일부는 원격 컴퓨터(컴퓨터 네트워크)에서 실행할 수 있다. 통상의 기술자라면 또한 통상의 기술자에게 공지된 종래의 기술을 이용하여 소프트웨어 인스트럭션의 전부, 또는 그 일부가 전용 회로, 예컨대 DSP, 프로그램 가능 논리 배열 등과 같은 전용 회로에서 수행될 수 있음을 잘 알 것이다.

본 명세서에서 주어진 임의 범위 또는 장치값은, 통상의 기술자에게는 자명한 바와 같이, 추구하는 효과에서 손해를 보지 않고도 확장되거나 변경될 수 있다.

구조적인 특징 및/또는 방법적인 동작에 특유한 표현을 이용하여 본 발명의 청구 대상에 대해 설명하였지만, 첨부 청구 범위에서 한정되는 본 발명의 청구 대상은 상술한 구체적인 특징이나 동작만으로 한정되는 것은 아님을 이해할 것이다. 오히려, 상술한 구체적인 특징과 동작은 청구 범위를 구현하는 예시적인 형태로서 개시된 것이다.

상술한 이점 및 장점은 하나의 실시예와 관련되거나 또는 몇 개의 실시예와 관련될 수 있음을 이해할 것이다. 본 발명의 각 실시예는 상술한 문제의 일부 또는 전부를 해결한 것 또는 상술한 이점 및 장점의 일부 또는 전부를 가진 것으로 제한되지는 않는다. 또한 '하나의' 아이템을 지칭하는 것은 하나 이상의 이들 아이템을 지칭함을 알아야 한다.

본 명세서서 설명한 방법의 각 단계는 임의의 적절한 순서대로, 또는 필요한 경우에 동시에 수행될 수 있다. 이에 더하여, 본 명세서에서 설명한 본 발명의 청구 대상의 정신 및 범위로부터 이탈하지 않고 개별적인 블록이 본 발명의 임의의 방법으로부터 삭제될 수 있다. 상술한 임의의 예시의 특징은 설명한 다른 임의의 예시 중의 특징과 조합되어 본 발명에서 추구하는 효과에서 손해를 보지 않고도 다른 예시를 형성할 수 있다.

본 명세서에는 식별된 방법 블록 또는 구성 요소를 포함하고 있음을 "포함하는"이라는 어휘를 사용하여 의도하고 있지만, 이와 같은 블록 또는 구성 요소는 배타적 리스트를 포함하지 않으며 또한 방법 또는 장치는 추가적인 블록 또는 구성 요소를 포함할 수도 있다.

상술한 설명은 단지 예시로서 제공된 것이며 또한 통상의 기술자에 의해서 다양한 변경이 이루어질 수 있음을 잘 알 것이다. 상술한 발명의 내용, 예시 및 데이터는 예시적인 실시예의 구조 및 사용에 대한 완전한 설명을 제공한다. 특정 수준으로 상세하게 다양한 실시예에 대해서 또는 하나 이상의 개별 실시예를 참조하여 설명하였지만, 통상의 기술자라면 본 발명의 정신 및 범위로부터 이탈하지 않고도 개시된 실시예에 대해 다양한 변형을 가할 수 있음을 잘 알 것이다.

Claims

컴퓨터로 구현된 방법으로서,
자연어 질의(a natural language query)를 수신하는 단계와,
상기 자연어 질의와 복수의 이미지 태그의 개별 이미지 태그 사이의 온톨로지에서의 제 1 거리를 계산하는 단계 - 각각의 이미지 태그는 상기 온톨로지의 컨셉임 - 와,
상기 자연어 질의와 상기 복수의 이미지 태그의 개별 이미지 태그 사이의 단어들의 의미 공간(a semantic space)에서의 적어도 하나의 제 2 거리를 계산하는 단계와,
상기 계산된 제 1 거리 및 상기 제 2 거리에 기초하여 상기 복수의 이미지 태그 중 적어도 하나를 선택하는 단계와,
상기 선택된 적어도 하나의 이미지 태그를 사용하여, 상기 선택된 이미지 태그로 태그된 이미지의 데이터베이스로부터 하나 이상 이상의 이미지를 검색하는(retrieving) 단계를 포함하는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 제 1 거리는 상기 온톨로지 내의 노드 사이를 순회(traverse)하는 것에 의해서 계산되고, 상기 온톨로지는 컨셉을 나타내는 노드의 그래프이며, 상기 노드는 상기 컨셉 사이의 관계에 따라 에지(edge)에 의해서 연결된 것인
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 단어들의 의미 공간은 자연어 문서의 말뭉치(corpus)로부터 학습된 것인
컴퓨터로 구현된 방법.
제 3 항에 있어서,
상기 단어들의 의미 공간은 신경망을 사용하여 학습된 것인
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 하나 이상의 검색된 이미지의 적어도 일부를 디스플레이하는 단계와,
상기 검색된 이미지 중의 하나가 선택되었음을 나타내는 정보를 수신하는 단계와,
상기 선택된 이미지 및 상기 선택된 이미지에 관련된 정보를 디스플레이하는 단계를 더 포함하는
컴퓨터로 구현된 방법.
제 5 항에 있어서,
상기 선택된 이미지에 관련된 상기 정보는 상기 선택된 이미지와 유사한 하나 이상의 이미지를 포함하는
컴퓨터로 구현된 방법.
제 5 항에 있어서,
상기 선택된 이미지에 대한 커서의 위치를 나타내는 정보를 수신하는 단계 - 상기 커서는 사용자에 의해서 제어됨 - 와,
상기 커서가 상기 선택된 이미지 내의 식별된 객체 위에 위치하고 있는지를 판정하는 단계와,
상기 커서가 상기 선택된 이미지 내의 식별된 객체 위에 위치하고 있다는 판정에 응답하여, 상기 식별된 객체 주위에 경계 상자(a bounding box)를 디스플레이하는 단계를 더 포함하는
컴퓨터로 구현된 방법.
제 7 항에 있어서,
상기 경계 상자가 선택되었다는 표시를 수신하는 단계와,
상기 경계 상자에 대응하는 상기 식별된 객체와 연관된 이미지 태그를 포함하도록 상기 자연어 질의를 갱신하는 단계를 더 포함하는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 자연어 질의는 복수의 질의어 및 상기 질의어가 근접하는지의 표시를 포함하고, 상기 질의어가 근접하다는 판정에 응답하여, 상기 선택된 이미지 태그의 각각으로 태그된 상기 이미지의 데이터베이스로부터 하나 이상의 이미지를 검색하며, 상기 선택된 이미지 태그와 연관된 객체는 근접한 것인
컴퓨터로 구현된 방법.
컴퓨팅 기반 장치를 포함하는 시스템으로서,
자연어 질의를 수신하고,
상기 자연어 질의와 복수의 이미지 태그의 개별 이미지 태그 사이의 온톨로지에서의 제 1 거리를 계산 - 이미지 태그는 상기 온톨로지의 컨셉임 - 하고,
상기 자연어 질의와 상기 복수의 이미지 태그의 개별 이미지 태그 사이의 단어들의 의미 공간에서의 적어도 하나의 제 2 거리를 계산하고,
계산된 상기 제 1 거리 및 상기 제 2 거리에 기초하여 상기 복수의 이미지 태그 중 적어도 하나를 선택하며,
상기 선택된 적어도 하나의 이미지 태그를 사용하여, 상기 선택된 이미지 태그로 태그된 이미지의 데이터베이스로부터 하나 이상의 이미지를 검색하도록 구성된
컴퓨팅 기반 장치를 포함하는 시스템.