KR20130142121A

KR20130142121A - 검색 질의 입력에 대한 다중 모드 접근 방법

Info

Publication number: KR20130142121A
Application number: KR1020137011201A
Authority: KR
Inventors: 지양 리우; 지안 선; 흥-양 슘; 시아오송 양; 유-팅 쿠오; 레이 장; 위 리; 키파 케; 체 리우
Original assignee: 마이크로소프트 코포레이션
Priority date: 2010-11-05
Filing date: 2011-10-31
Publication date: 2013-12-27
Also published as: AU2011323602A1; RU2013119973A; TW201220099A; EP2635984A4; WO2012061275A1; CN102402593A; MX2013005056A; EP2635984A1; IN2013CN03029A; JP2013541793A; IL225831A0; US20120117051A1

Abstract

다수의 질의 입력 모드를 포함하는 검색 질의들이 응답 결과들을 식별하는 데 사용된다. 검색 질의들은 키워드 또는 텍스트 입력, 이미지 입력, 비디오 입력, 오디오 입력 또는 다른 모드의 입력의 조합들로 구성될 수 있다. 다수의 질의 입력 모드가 초기 검색 요청 내에 존재할 수 있거나, 단일 타입의 질의 입력을 포함하는 초기 요청이 제2 타입의 입력으로 보완될 수 있다. 응답 결과들을 제공하는 것에 더하여, 일부 실시예들에서는 질의의 내용 또는 최초 응답 결과들에 기초하여 추가적인 질의 정밀화 또는 제안이 이루어질 수 있다.

Description

검색 질의 입력에 대한 다중 모드 접근 방법{MULTI-MODAL APPROACH TO SEARCH QUERY INPUT}

광역 네트워크를 통한 검색 엔진에 의한 것과 같은, 정보의 검색 및 획득을 위한 다양한 방법들이 이 분야에 공지되어 있다. 그러한 방법들은 통상적으로 텍스트 기반 검색을 이용한다. 텍스트 기반 검색은 단어 또는 구와 같은 하나 이상의 텍스트 요소를 포함하는 검색 질의를 이용한다. 텍스트 요소들은 매칭되거나 의미상 유사한 텍스트 내용, 메타데이터, 파일 이름 또는 다른 텍스트 표현을 포함하는 웹페이지들과 같은 문서들을 식별하기 위해 인덱스 또는 다른 데이터 구조와 비교된다.

공지된 텍스트 기반 검색 방법들은 텍스트 기반 문서들에 대해서는 비교적 양호하게 동작하지만, 이미지 파일들 및 데이터에는 적용하기 어렵다. 텍스트 기반 질의를 통해 이미지 파일들을 검색하기 위해서는, 이미지 파일이 제목, 파일 이름 또는 다른 메타데이터 또는 태그들과 같은 하나 이상의 텍스트 요소와 연관되어야 한다. 텍스트 기반 검색에 이용되는 검색 엔진들 및 알고리즘들은 이미지의 내용에 기초하여 이미지 파일들을 검색할 수 없으며, 따라서 이미지들과 관련된 데이터에만 기초하여 검색 결과 이미지들을 식별하는 것에 한정된다.

이미지의 내용을 분석하여 시각적으로 유사한 이미지들을 식별하는 이미지들의 내용 기반 검색을 위한 방법들이 개발되어 왔다. 그러나, 이러한 방법들은 이미지 검색의 입력과 관련된 텍스트 기반 문서들의 식별에 관하여 제한될 수 있다.

다양한 실시예들에서, 검색 질의의 일부로서 다수의 입력 모드를 이용하기 위한 방법들이 제공된다. 이 방법들은 키워드 또는 텍스트 입력, 이미지 입력, 비디오 입력, 오디오 입력 또는 다른 입력 모드들의 조합들로 구성된 검색 질의들을 가능하게 한다. 이어서, 다양한 질의 입력 모드들로부터 추출된 특징들에 기초하여 응답 문서들의 검색이 수행될 수 있다. 다수의 질의 입력 모드가 초기 검색 요청 내에 존재할 수 있거나, 단일 타입의 질의 입력을 포함하는 초기 요청이 제2 타입의 입력으로 보완될 수 있다. 응답 결과들을 제공하는 것에 더하여, 일부 실시예들에서는 질의의 내용 또는 최초 응답 결과들에 기초하여 추가적인 질의 정밀화 또는 제안이 이루어질 수 있다.

이 요약은 상세한 설명에서 더 후술하는 개념들의 발췌를 간단한 형태로 소개하기 위해 제공된다. 이 요약은 청구된 발명 대상의 중요한 특징들 또는 본질적인 특징들을 식별하도록 의도하지 않으며, 청구된 발명 대상의 범위의 결정에 있어 독립해서 보조물로 사용되도록 의도되지 않는다.

본 발명은 첨부 도면들을 참조하여 아래에 상세히 설명된다.
도 1은 본 발명의 실시예들을 구현하는 데 사용하기에 적합한 예시적인 컴퓨팅 환경의 블록도이다.
도 2는 본 발명의 실시예들을 수행하는 데 적합한 네트워크 환경을 개략적으로 나타낸다.
도 3은 본 발명의 일 실시예에 따른 사용자 인터페이스의 컴포넌트들의 일례를 개략적으로 나타낸다.
도 4는 본 발명의 일 실시예의 수행에 수반되는 다양한 컴포넌트들 및 프로세스들 사이의 관계를 나타낸다.
도 5-9는 본 발명의 일 실시예에 따른 이미지로부터의 이미지 특징들의 추출의 일례를 나타낸다.
도 10-12는 본 발명의 다양한 실시예들에 따른 방법들의 예들을 나타낸다.

개요

다양한 실시예들에서, 키워드 또는 텍스트 기반 검색 입력을 다른 검색 입력 모드들과 통합하기 위한 시스템들 및 방법들이 제공된다. 다른 검색 입력 모드들의 예들은 이미지 입력, 비디오 입력 및 오디오 입력을 포함할 수 있다. 더 일반적으로, 이 시스템들 및 방법들은 질의 내의 다수의 입력 모드에 기초하는 검색들의 수행을 가능하게 할 수 있다. 다중 모드 검색 시스템들 및 방법들의 결과적인 실시예들은 검색 엔진에 대한 입력을 제공함에 있어서 사용자에게 더 큰 유연성을 제공할 수 있다. 게다가, 사용자가 이미지 입력과 같은 한 가지 타입의 입력을 이용하여 검색을 개시할 때, 제2 타입의 입력(또는 다수의 다른 타입의 입력)이 응답 검색 결과들을 정밀화하거나 변경하는 데 사용될 수 있다. 예를 들어, 사용자는 이미지 입력과 연관될 하나 이상의 키워드를 입력할 수 있다. 많은 상황에서, 추가적인 키워드들과 이미지 입력의 연관은 이미지 입력 또는 키워드 입력 단독에 의한 것보다 명백한 사용자 의도의 지시를 제공할 수 있다.

일부 실시예들에서, 다중 모드 검색 입력에 기초하는 응답 결과들의 검색은 텍스트 기반 키워드들, 이미지 기반 "키워드들(keywords)", 비디오 기반 "키워드들" 및 오디오 기반 "키워드들"을 포함하는 인덱스와 같이 둘 이상의 데이터 타입과 관련된 용어들을 포함하는 인덱스를 사용하여 수행된다. 텍스트 기반 검색과 다른 입력 모드들에 대한 "키워드들"을 통합하기 위한 한 가지 옵션은 다중 모드 특징들과 인공 키워드들을 상관시키는 것일 수 있다. 이러한 인공 키워드들은 서술자 키워드들로서 지칭될 수 있다. 예를 들어, 이미지 기반 검색에 사용되는 이미지 특징들은 서술자 키워드들과 상관될 수 있으며, 따라서 이미지 기반 검색 특징들은 동일한 반전된 인덱스 내에 전통적인 텍스트 기반 키워드들로서 나타난다. 예를 들어, 시애틀 내의 "Space Needle" 빌딩의 이미지는 복수의 이미지 특징을 포함할 수 있다. 이러한 이미지 특징들은 이미지로부터 추출된 후, 다른 텍스트 기반 키워드 용어들을 갖는 반전된 인덱스 내의 통합을 위해 서술자 "키워드들"과 상관될 수 있다.

서술자 키워드들을 텍스트 기반 키워드 인덱스 내에 통합하는 것에 더하여, 이미지(또는 다른 타입의 비텍스트(non-text) 입력)로부터의 서술자 키워드들도 전통적인 키워드 용어들과 연관될 수 있다. 위의 예에서, 용어 "space needle"은 Space Needle의 이미지로부터의 하나 이상의 서술자 키워드와 상관될 수 있다. 이것은, 서술자 키워드들을 포함하며, 따라서 Space Needle 이미지와 유사한 다른 이미지들에 대한 이미지 기반 검색을 수행하는 데 더 적합한 제안 또는 수정된 질의들을 가능하게 할 수 있다. 이러한 제안된 질의들은 Space Needle 이미지와 관련된 다른 이미지들에 대한 개선된 검색을 가능하게 하기 위해 사용자에게 제공될 수 있거나, 제안된 질의들은 그러한 관련 이미지들을 자동으로 식별하는 데 사용될 수 있다.

아래의 설명에서는 다중 모드 검색 수행의 양태들을 설명하기 위해 다음과 같은 정의들이 사용된다. 특징은 검색 질의에 응답하는 바와 같은 문서의 선택 및/또는 순위화의 일부로서 사용될 수 있는 임의 타입의 정보를 지칭한다. 텍스트 기반 질의로부터의 특징들은 통상적으로 키워드들을 포함한다. 이미지 기반 질의로부터의 특징들은 대조되는 강도를 갖는 이미지의 부분들 또는 얼굴 인식을 위한 사람의 얼굴에 대응하는 이미지의 부분들과 같이 특이한 것으로 식별되는 이미지의 부분들을 포함할 수 있다. 오디오 기반 질의로부터의 특징들은 오디오의 볼륨 레벨 또는 다른 검출 가능한 오디오 패턴들의 변화들을 포함할 수 있다. 키워드는 전통적인 텍스트 기반 검색 용어를 지칭한다. 키워드는 질의에 응답하는 문서를 식별하기 위한 단일 용어로서 사용되는 하나 이상의 단어를 지칭할 수 있다. 서술자 키워드는 비텍스트 기반 특징과 연관된 키워드를 지칭한다. 따라서, 서술자 키워드는 이미지 기반 특징, 비디오 기반 특징, 오디오 기반 특징 또는 다른 비텍스트 특징들을 식별하는 데 사용될 수 있다. 응답 결과는 검색 엔진에 의해 수행되는 선택 및/또는 순위화에 기초하여 검색 질의와 관련된 것으로서 식별되는 임의의 문서를 지칭한다. 응답 결과가 표시될 때, 응답 결과는 문서 자체를 표시함으로써 표시될 수 있거나, 문서의 식별자가 표시될 수 있다. 예를 들어, 텍스트 기반 검색 엔진에 의해 반환되는 "블루 링크들(blue links)"로도 알려진 전통적인 하이퍼링크들은 다른 문서들에 대한 식별자들 또는 링크들을 나타낸다. 링크 위를 클릭함으로써, 표현된 문서에 액세스할 수 있다. 문서에 대한 식별자들은 대응하는 문서에 대한 추가적인 정보를 제공하거나 제공하지 않을 수 있다.

다중 모드 검색 질의의 수신

다수의 검색 모드로부터의 특징들이 질의로부터 추출되며, 질의에 응답하는 결과들을 식별하는 데 사용될 수 있다. 일 실시예에서, 다수의 질의 입력 모드는 임의의 편리한 방법에 의해 제공될 수 있다. 예를 들어, 질의 입력을 수신하기 위한 사용자 인터페이스가 키워드 질의 입력을 수신하기 위한 대화 상자를 포함할 수 있다. 사용자 인터페이스는 사용자로 하여금 원하는 입력 이미지를 사용자 인터페이스 내에 "배치(drop)"할 수 있게 하는 이미지 질의 상자와 같이 사용자에 의해 선택된 이미지를 수신하기 위한 장소도 포함할 수 있다. 대안으로서, 이미지 질의 상자는 파일 위치 또는 네트워크 어드레스를 이미지 입력의 소스로서 수신할 수 있다. 오디오 파일, 비디오 파일, 또는 질의 입력으로서 사용하기 위한 다른 타입의 비텍스트 입력을 식별하기 위한 유사한 상자 또는 장소가 제공될 수 있다.

다수의 질의 입력 모드는 동시에 수신될 필요가 없다. 대신에, 하나의 타입의 질의 입력이 먼저 제공될 수 있으며, 이어서 질의를 정밀화하기 위해 제2 모드의 입력이 제공될 수 있다. 예를 들어, 영화 스타의 이미지가 질의 입력으로서 제출될 수 있다. 이것은 아마도 이미지들을 포함하는 일련의 매칭되는 결과들을 반환할 것이다. 이어서, 영화 스타의 이름을 알기 위한 사용자의 요구에 기초하여 검색 결과들을 정밀화하기 위해 단어 "배우(actor)"가 검색 질의 상자 내에 키워드로서 타이핑될 수 있다.

다중 모드 검색 정보를 수신한 후에, 다중 모드 정보는 응답 결과들을 식별하기 위한 검색 질의로서 사용될 수 있다. 응답 결과들은 검색 질의의 입력 모드에 관계없이 검색 엔진에 의해 관계있는 것으로 결정된 임의 타입의 문서일 수 있다. 따라서, 이미지 아이템들이 텍스트 기반 질의에 대한 응답 문서들로서 식별될 수 있거나, 텍스트 기반 아이템들이 오디오 기반 질의에 대한 응답 문서들일 수 있다. 게다가, 둘 이상의 입력 모드를 포함하는 질의가 임의의 이용 가능한 타입의 응답 결과들을 식별하는 데 사용될 수도 있다. 사용자에게 표시되는 응답 결과들은 문서들 자체의 형태이거나, 응답 문서들에 대한 식별자들의 형태일 수 있다.

응답 결과들의 식별을 용이하게 하기 위해 하나 이상의 인덱스가 사용될 수 있다. 일 실시예에서, 반전 인덱스와 같은 단일 인덱스가 모든 타입의 검색 모드에 기초하여 키워드들 및 서술자 키워드들을 저장하는 데 사용될 수 있다. 대안으로서, 단일 순위화 시스템이 다수의 인덱스를 이용하여 용어들 또는 특징들을 저장할 수 있다. 인덱스들의 수 또는 형태에 관계없이, 하나 이상의 인덱스는 질의에 응답하는 문서들을 식별하기 위한 통합 선택 및/또는 순위화 방법의 일부로서 사용될 수 있다. 선택 방법 및/또는 순위화 방법은 임의의 이용 가능한 질의 입력 모드에 기초하여 특징들을 통합할 수 있다.

다른 입력 타입들과 연관된 텍스트 기반 키워드들도 사용을 위해 추출될 수 있다. 다수의 정보 모드를 통합하기 위한 한 가지 옵션은 다른 질의 입력 모드와 관련된 텍스트 정보를 사용하는 것일 수 있다. 이미지, 비디오 또는 오디오 파일은 종종 파일과 관련된 메타데이터를 가질 것이다. 이것은 파일의 제목, 파일의 주제, 또는 파일과 관련된 다른 텍스트를 포함할 수 있다. 이 다른 텍스트는 웹페이지 또는 미디어 파일을 서술하는 다른 텍스트와 같이 미디어 파일이 링크로서 나타나는 문서의 일부인 텍스트를 포함할 수 있다. 이미지, 비디오 또는 오디오 파일과 관련된 메타데이터는 다양한 방식으로 질의 입력을 보완하는 데 사용될 수 있다. 텍스트 메타데이터는 사용자에게 제공되는 추가적인 질의 제안들을 형성하는 데 사용될 수 있다. 텍스트는 응답 결과들의 순위를 변경하기 위해 기존 검색 질의를 자동으로 보완하는 데에도 사용될 수 있다.

입력 질의와 관련된 메타데이터를 사용하는 것에 더하여, 응답 결과와 관련된 메타데이터는 검색 질의를 변경하는 데 사용될 수 있다. 예를 들어, 이미지에 기초하는 검색 질의가 에펠탑의 공지 이미지를 응답 결과로서 산출할 수 있다. 응답 결과로부터의 메타데이터는 에펠탑이 응답 이미지 결과의 주제라는 것을 지시할 수 있다. 이 메타데이터는 사용자에게 추가적인 질의들을 제안하거나, 검색 질의를 자동으로 보완하는 데 사용될 수 있다.

메타데이터를 추출하기 위한 다수의 방법이 존재한다. 메타데이터 추출 기술은 사전 결정될 수 있거나, 사람 또는 자동화된 프로세스에 의해 동적으로 선택될 수 있다. 메타데이터 추출 기술들은 (1) 내장된 메타데이터에 대한 파일 이름의 파싱(parsing); (2) 유사 복제 디지털 객체로부터의 메타데이터의 추출; (3) 유사 복제 디지털 객체를 호스트(host)하는 웹페이지 내에서의 주변 텍스트의 추출; (4) 유사 복제 디지털 미디어 객체를 저장하는, 주석들 및 코멘트를 지원하는 웹사이트로부터의 유사 복제물과 관련된 주석들 및 코멘트의 추출; 및 (5) 사용자가 텍스트 질의 후에 유사 복제물을 선택했을 때의 유사 복제물과 관련된 질의 키워드들의 추출을 포함할 수 있지만, 이에 한정되지 않는다. 다른 실시예들에서, 메타데이터 추출 기술들은 다른 작업들을 수반할 수 있다.

메타데이터 추출 기술들 중 일부는 텍스트의 본문으로부터 시작하고, 가장 간결한 메타데이터를 추출한다. 따라서, 문법에 대한 파싱 및 다른 토큰 기반 분석과 같은 기술들이 이용될 수 있다. 예를 들어, 이미지에 대한 주변 텍스트는 캡션 또는 긴 단락을 포함할 수 있다. 적어도 후자의 경우, 관련 용어들을 추출하기 위해 긴 단락이 파싱될 수 있다. 다른 예로서, 주석들 및 코멘트 데이터는 텍스트 약어들(예를 들어, "in my humble opinion"에 대한 IMHO) 및 감정 불변화사들(예를 들어, 얼굴 기호들 및 반복 감탄 부호들)을 포함하는 것으로 악명높다. IMHO는 주석들 및 코멘트에서의 그의 외관상의 강조에도 불구하고 메타데이터를 검색하는 경우에 제거될 후보일 가능성이 크다.

다수의 메타데이터 추출 기술이 선택되는 경우, 조정 방법이 잠재적으로 충돌하는 후보 메타데이터 결과들을 조정하기 위한 수단을 제공할 수 있다. 조정은 예를 들어 통계적 분석 및 기계 학습을 이용하여 또는 대안으로서 규칙 엔진들을 통해 수행될 수 있다.

도 3은 본 발명의 일 실시예에 따른, 다중 모드 검색 결과를 수신하고 응답 결과들을 표시하는 데 적합한 사용자 인터페이스의 일례를 제공한다. 도 3에서, 사용자 인터페이스는 세 가지 타입의 질의 입력에 대한 입력 위치들을 제공한다. 입력 상자(311)는 전통적인 검색 엔진에 의해 통상적으로 사용되는 텍스트 기반 입력과 같은 키워드 입력을 수신할 수 있다. 입력 상자(313)는 이미지 및/또는 비디오 파일을 입력으로서 수신할 수 있다. 입력 상자(313) 내에 페이스트(paste) 또는 "배치"되는 이미지 또는 비디오 파일을 이미지 분석 기술들을 이용하여 분석하여, 검색을 위해 추출될 수 있는 특징들을 식별할 수 있다. 유사하게, 입력 상자(315)는 오디오 파일을 입력으로서 수신할 수 있다.

영역(320)은 응답 결과들의 리스트를 포함한다. 도 3에 도시된 실시예에서는, 현재 응답 결과들(332, 342)이 나타나 있다. 응답 결과(332)는 검색에 응답하여 식별된 이미지 문서에 대한 썸네일(thumbnail)과 같은 식별자이다. 이미지 결과(332)에 더하여, 이미지 결과(332)(또는 이미지 결과(332)와 관련된 서술자 키워드들)를 수정된 질의의 일부로서 통합하는 수정된 검색을 가능하게 하기 위한 링크 또는 아이콘(334)도 제공된다. 응답 결과(342)는 텍스트 기반 문서에 대한 식별자에 대응한다.

영역(340)은 최초 질의에 기초하는 제안된 질의들(347)의 리스트를 포함한다. 제안된 질의들(347)은 전통적인 질의 제안 알고리즘들을 이용하여 생성될 수 있다. 제안된 질의들(347)은 이미지/비디오 입력(313) 또는 오디오 입력(315)에서 제출된 입력과 관련된 메타데이터에 기초할 수도 있다. 또 다른 제안된 질의들(347)은 응답 결과(332)와 같은 응답 결과와 관련된 메타데이터에 기초할 수 있다.

도 4는 본 발명의 일 실시예에 따른 다중 모드 검색을 수행하기 위한 다양한 시스템들 및/또는 프로세스들의 상호작용을 개략적으로 나타낸다. 도 4에 도시된 실시예에서, 다중 모드 검색은 키워드 질의 입력 및 이미지 질의 입력 양자에 기초하는 검색에 대응한다. 도 4에서, 검색은 질의의 수신에 기초하여 시작된다. 질의는 질의 키워드들(405) 및 질의 이미지(407)를 포함한다. 질의 이미지(407)를 처리하기 위해, 이미지 이해 컴포넌트(412)를 이용하여 이미지 내의 특징들을 식별할 수 있다. 이미지 이해 컴포넌트(412)에 의해 질의 이미지(407)로부터 추출된 특징들은 이미지 텍스트 특징 및 이미지 시각 특징 컴포넌트(422)에 의해 서술자 키워드들을 할당받을 수 있다. 이미지 이해 컴포넌트(412)에 의해 이용될 수 있는 방법들의 일례가 도 5-9와 관련하여 아래에 설명된다. 이미지 이해 컴포넌트(412)는 얼굴 인식 방법들 또는 이미지 내의 컬러 유사성을 분석하기 위한 방법들과 같은 다른 타입의 이미지 이해 방법들도 포함할 수 있다. 메타데이터 분석 컴포넌트(414)는 질의 이미지(407)와 관련된 메타데이터를 식별할 수 있다. 이것은 파일 내에 저장된 이미지의 제목 또는 주석들과 같이 운영 체제에 의해 이미지 파일 내에 내장되고 그리고/또는 파일과 함께 저장된 정보를 포함할 수 있다. 이것은 검색에 사용할 이미지를 식별하기 위해 입력되는 URL 경로 내의 텍스트, 또는 웹페이지 또는 다른 텍스트 기반 문서 상에 배치되거나 그 안에 내장된 이미지에 대해 이미지 근처에 위치하는 텍스트와 같이, 이미지와 관련된 다른 텍스트도 포함할 수 있다. 이미지 텍스트 특징 및 이미지 시각 특징 컴포넌트(422)는 메타데이터 분석(414)으로부터의 출력에 기초하여 키워드 특징들을 식별할 수 있다.

이미지 텍스트 특징 및 이미지 시각 특징 컴포넌트(422)에서 질의 용어들(405) 및 임의의 추가적인 특징들을 식별한 후, 옵션으로서 결과적인 질의가 컴포넌트(432)에서 변경 또는 확장될 수 있다. 질의 변경 또는 확장은 메타데이터 분석 컴포넌트(414) 및 이미지 텍스트 특징/이미지 시각 특징 컴포넌트(422)에서 메타데이터로부터 추출된 특징들에 기초할 수 있다. 질의 변경 또는 확장에 대한 다른 소스는 UI 상호작용 컴포넌트(462)로부터의 피드백일 수 있다. 이것은 사용자에 의해 제공되는 추가적인 질의 정보는 물론, 현재 또는 이전의 질의들로부터의 응답 결과들에 기초하는 질의 제안들(442)도 포함할 수 있다. 게다가, 옵션으로서 확장 또는 변경된 질의는 응답 결과들(452)을 생성하는 데 사용될 수 있다. 도 4에서, 결과 생성(452)은 질의를 이용하여, 데이터베이스 내의 문서들에 대한 텍스트 및 이미지 특징들 양자를 포함하는 데이터베이스(475)에서 응답 문서들을 식별하는 것을 필요로 한다. 데이터베이스(475)는 질의에 기초하여 응답 결과들을 식별하기 위한 반전 인덱스 또는 임의의 다른 편리한 타입의 저장 포맷을 나타낼 수 있다.

실시예에 따라, 결과 생성(452)은 하나 이상의 타입의 결과들을 제공할 수 있다. 일부 상황들에서는, 하나 또는 소수의 고순위 응답 결과들과 같이 가장 유망한 매칭의 식별이 바람직할 수 있다. 이것은 대답(444)으로서 제공될 수 있다. 대안으로서, 순위화된 응답 결과들의 리스팅이 바람직할 수 있다. 이것은 결합된 순위화된 결과들(446)로서 제공될 수 있다. 대답 또는 순위화된 결과들에 더하여, 하나 이상의 질의 제안(442)도 사용자에게 제공될 수 있다. 결과들의 표시 및 질의들의 수신을 포함하는 사용자와의 상호작용은 UI 상호작용 컴포넌트(462)에 의해 처리될 수 있다.

멀티미디어 기반 검색 방법들

도 5-9는 본 발명의 일 실시예에 따른 예시적인 이미지(500)의 처리를 개략적으로 나타낸다. 도 5에서는, 복수의 관심 포인트(502)를 식별하기 위해 운영자 알고리즘을 이용하여 이미지(500)가 처리된다. 운영자 알고리즘은 이미지(500) 내에서 관심 포인트들(502)을 식별하는 데 사용될 수 있는 임의의 이용 가능한 알고리즘을 포함한다. 일 실시예에서, 운영자 알고리즘은 이 분야에 공지된 바와 같은 가우스 차(difference of Gaussians) 알고리즘 또는 라플라스 알고리즘일 수 있다. 일 실시예에서, 운영자 알고리즘은 두 개의 차원에서 이미지(500)를 분석하도록 구성된다. 옵션으로서, 이미지(500)가 컬러 이미지일 때, 이미지(500)는 그레이스케일로 변환될 수 있다.

관심 포인트(502)는 도 5에 도시된 바와 같은 이미지(500) 내의 임의의 포인트는 물론, 도 6에 도시된 바와 같은 이미지(500) 내의 구역(602), 영역, 픽셀들의 그룹 또는 특징도 포함할 수 있다. 관심 포인트들(502) 및 구역들(602)은 아래에서 간명화를 위해 관심 포인트들(502)로서 참조되지만, 관심 포인트들(502)에 대한 참조는 관심 포인트들(502) 및 구역들(602) 모두를 포함하는 것을 의도한다. 일 실시예에서, 관심 포인트(502)는 안정된 이미지(500) 내의 영역 상에 위치하며, 이미지(500) 내의 특이한 또는 식별 가능한 특징을 포함한다. 예를 들어, 관심 포인트(502)는 502a 및 602a에 도시된 바와 같이 특징들 간에 높은 콘트라스트를 갖는 예리한 특징들을 갖는 이미지 내의 영역 상에 위치한다. 반대로, 관심 포인트는 504로 지시되는 바와 같은 일정한 컬러 또는 그레이스케일의 구역과 같이, 특이한 특징들 또는 콘트라스트를 갖지 않는 영역 내에는 위치하지 않는다.

운영자 알고리즘은 이미지(500) 내에서 예를 들어 수천 개의 관심 포인트와 같은 임의 수의 관심 포인트(502)를 식별한다. 관심 포인트들(502)은 이미지(500) 내의 포인트들(502) 및 구역들(602)의 조합일 수 있으며, 그 수는 이미지(500)의 크기에 기초할 수 있다. 이미지 처리 컴포넌트(412)는 관심 포인트들(502) 각각에 대한 메트릭(metric)을 계산하고, 메트릭에 따라 관심 포인트들(502)을 순위화한다. 메트릭은 관심 포인트(502)에서의 이미지(500)의 신호 강도 또는 신호 대 잡음 비의 척도를 포함할 수 있다. 이미지 처리 컴포넌트(412)는 순위에 기초하여 추가 처리를 위해 관심 포인트들(502)의 서브세트를 선택한다. 일 실시예에서는, 최고의 신호 대 잡음 비를 갖는 일백 개의 가장 현저한 관심 포인트(502)가 선택되지만, 임의의 원하는 수의 관심 포인트들(502)이 선택될 수도 있다. 다른 실시예에서는, 서브세트가 선택되지 않으며, 모든 관심 포인트들이 추가 처리에 포함된다.

도 7에 도시된 바와 같이, 선택된 관심 포인트들(502)에 대응하는 패치들(patches)의 세트(700)가 식별될 수 있다. 각각의 패치(702)는 단일의 선택된 관심 포인트(502)에 대응한다. 패치들(702)은 각각의 관심 포인트(502)를 포함하는 이미지(500)의 영역을 포함한다. 이미지(500)로부터 취해질 각각의 패치(702)의 크기는 선택된 관심 포인트들(502) 각각에 대한 운영자 알고리즘으로부터의 출력에 기초하여 결정된다. 패치들(702) 각각은 상이한 크기를 가질 수 있으며, 패치들(702)에 포함될 이미지(500)의 영역들은 중복될 수 있다. 게다가, 패치들(702)의 형상은 정사각형, 직사각형, 삼각형, 원, 타원 등을 포함하는 임의의 원하는 형상이다. 도시된 실시예에서, 패치들(702)은 정사각형이다.

패치들(702)은 도 7에 도시된 바와 같이 정규화될 수 있다. 일 실시예에서, 패치들(702)은 패치들(702) 각각이 X 픽셀 x X 픽셀 정사각형 패치와 같이 동일한 크기를 갖도록 정규화된다. 패치들(702)을 동일한 크기로 정규화하는 것은, 많은 작업 가운데 특히, 패치(702)의 크기 및/또는 해상도를 증가 또는 감소시키는 것을 포함할 수 있다. 패치들(702)은 특히 콘트라스트 증대의 적용, 반점 제거, 선명화 및 그레이스케일 적용과 같은 하나 이상의 다른 작업을 통해서도 정규화될 수 있다.

각각의 정규화된 패치에 대해 서술자도 결정될 수 있다. 서술자는 이미지 검색에 사용할 특징으로서 포함될 수 있는 패치의 서술일 수 있다. 서술자는 패치(702) 내의 픽셀들의 통계를 계산함으로써 결정될 수 있다. 일 실시예에서, 서술자는 패치(702) 내의 픽셀들의 그레이스케일 기울기들의 통계에 기초하여 결정된다. 서술자는 도 8에 도시된 서술자(802)와 같이 각각의 패치에 대한 히스토그램으로서 시각적으로 표현될 수 있다(도 7의 패치들(702)은 도 8의 유사하게 배치된 서술자들(802)에 대응한다). 서술자는 한정이 아니라 예로서 패치 내의 픽셀들에 대한 픽셀 그레이스케일 통계를 나타내는 다차원 벡터와 같은 다차원 벡터로서도 서술될 수 있다. T2S2 36-차원 벡터가 픽셀 그레이스케일 통계를 나타내는 벡터의 일례이다.

도 9에 도시된 바와 같이, 서술자 키워드(902)와 각각의 서술자(802)를 상관시키기 위해 양자화 테이블(900)이 사용될 수 있다. 양자화 테이블(900)은 서술자들(802)을 서술자 키워드(902)로 맵핑하는 데 사용될 수 있는 임의의 테이블, 인덱스, 차트 또는 기타 데이터 구조를 포함할 수 있다. 다양한 형태의 양자화 테이블(900)이 이 분야에 공지되어 있으며, 본 발명의 실시예들에서 사용될 수 있다. 일 실시예에서, 양자화 테이블(900)은 먼저 많은 양의 이미지들(예로서, 이미지(500)), 예를 들어 백만 개의 이미지를 처리하여 각각의 이미지에 대한 서술자들(802)을 식별함으로써 생성된다. 이어서, 그로부터 식별된 서술자들(802)은 유사한 또는 통계학적으로 유사한 값들을 갖는 서술자들(802)의 클러스터들 또는 그룹들을 식별하기 위해 통계학적으로 분석된다. 예를 들어, T2S2 벡터들 내의 변수들의 값들은 유사하다. 각각의 클러스터의 대표적인 서술자(904)가 선택되고, 양자화 테이블(900) 내의 위치는 물론, 대응하는 서술자 키워드(902)도 할당받는다. 서술자 키워드들(902)은 대응하는 대표 서술자(904)를 식별하는 임의의 원하는 지시자를 포함할 수 있다. 예를 들어, 서술자 키워드들(902)은 도 9에 도시된 바와 같은 정수 값들, 또는 영숫자 값들, 수치 값들, 심벌들, 텍스트 또는 이들의 조합을 포함할 수 있다. 일부 실시예들에서, 서술자 키워드들(902)은 서술자 키워드를 비텍스트 기반 검색 모드와 관련된 것으로 식별하는 문자들의 시퀀스를 포함할 수 있다. 예를 들어, 모든 서술자 키워드들은 키워드 내의 처음 4개의 문자로서 일련의 3개 정수와 그에 이어지는 밑줄 문자를 포함할 수 있다. 또한, 이러한 최초 시퀀스는 서술자 키워드를 이미지와 관련된 것으로 식별하는 데 사용될 수 있다.

각각의 서술자(802)에 대해, 가장 근사하게 매칭되는 대표 서술자(904)가 양자화 테이블(900)에서 식별될 수 있다. 예를 들어, 도 8에 도시된 서술자(802a)는 도 9의 양자화 테이블(900)의 대표 서술자(904a)와 가장 근사하게 대응한다. 따라서, 서술자들(802) 각각에 대한 서술자 키워드들(902)은 이미지(500)와 연관된다(예를 들어, 서술자(802a)는 서술자 식별자(902) "1"에 대응한다). 이미지(500)와 관련된 서술자 키워드들(902)은 각각 서로 상이할 수 있거나, 서술자 키워드들(902) 중 하나 이상은 이미지(500)와 여러 번 연관될 수 있다(예를 들어, 이미지(500)는 "1, 2, 3, 4" 또는 "1, 2, 2, 3"의 서술자 키워드들을 가질 수 있다). 일 실시예에서, 이미지 변화들과 같은 특성들을 고려하기 위해, 서술자(802)는 서술자(802)에 가장 근사하게 매칭되는 둘 이상의 대표 서술자(904) 및 이들에 대한 각각의 서술자 키워드(902)를 식별함으로써 둘 이상의 서술자 식별자(902)로 맵핑될 수 있다. 위에 기초하여, 식별된 관심 포인트들(502)의 세트를 갖는 이미지(500)의 내용이 서술자 키워드들(902)의 세트에 의해 표현될 수 있다.

다른 실시예에서는, 다른 타입의 이미지 기반 검색이 검색 스킴 내에 통합될 수 있다. 예를 들어, 얼굴 인식 방법들은 다른 타입의 이미지 검색을 제공할 수 있다. 전술한 바와 같이 서술자 키워드들을 식별하는 것에 더하여 그리고/또는 그 대신에, 얼굴 인식 방법들을 이용하여 이미지 내의 사람들의 신원을 결정할 수 있다. 이미지 내의 사람의 신원은 검색 질의를 보완하는 데 사용될 수 있다. 다른 옵션은 얼굴 인식 기술에 적합한 사람들의 라이브러리를 구비하는 것일 수 있다. 다양한 사람들에 대한 메타데이터가 라이브러리에 포함될 수 있으며, 이러한 저장된 메타데이터는 검색 질의를 보완하는 데 사용될 수 있다.

위의 설명은 이미지 기반 검색 스킴들을 텍스트 기반 검색 스킴에 적응시키기 위한 설명을 제공한다. 오디오 기반 검색 스킴과 같은 다른 검색 모드들에 대해 유사한 적응이 이루어질 수 있다. 일 실시예에서는, 임의의 편리한 타입의 오디오 기반 검색이 이용될 수 있다. 오디오 기반 검색을 위한 방법은 유사한 특성들을 갖는 오디오 파일들을 식별하는 데 사용되는 하나 이상의 타입의 특징들을 가질 수 있다. 전술한 바와 같이, 오디오 특징들은 서술자 키워드들과 상관될 수 있다. 서술자 키워드들은 키워드의 마지막 4개의 문자를 하이픈(hyphen)에 이어지는 4개의 숫자에 대응시키는 것과 같이 키워드가 오디오 검색과 관련된다는 것을 지시하는 포맷을 가질 수 있다.

다중 모드 질의들에 기초하는 검색의 예들

검색 예 1 - 텍스트 기반 질의에 이미지 정보의 추가. 전통적인 검색 방법들에서의 한 가지 어려움은 공통 질의 용어들에 대한 원하는 결과들을 식별하는 것이다. 공통 질의 용어들을 포함할 수 있는 한 가지 타입의 검색은 "Steve Smith"와 같은 공통 이름을 갖는 사람에 대한 검색이다. "steve smith"라는 키워드 질의가 검색 엔진에 제출되는 경우, 아마도 많은 수의 결과가 응답으로서 식별될 것이며, 이러한 결과들은 아마도 동일 또는 유사한 이름을 공유하는 많은 수의 상이한 사람들에 대응할 것이다.

일 실시예에서, 지명된 엔티티에 대한 검색은 엔티티의 사진을 검색 질의의 일부로서 제출함으로써 개선될 수 있다. 예를 들어, 키워드 텍스트 상자 내에 "steve smith"를 입력하는 것에 더하여, 관심 있는 특정 Mr. Smith의 이미지 또는 비디오가 이미지 기반 질의 정보를 수신하기 위한 장소 내에 배치될 수 있다. 이어서, 얼굴 인식 소프트웨어를 이용하여, 정확한 "Steve Smith"를 검색 질의와 매칭시킬 수 있다. 게다가, 이미지 또는 비디오가 다른 사람들을 포함하는 경우, 추가적인 사람들에 기초하는 결과들은 관심 있는 사람을 지시하는 키워드 질의로 인해 더 낮은 순위를 할당받을 수 있다. 결과적으로, 키워드들과 이미지 또는 비디오의 조합을 이용하여, 공통 이름을 갖는 사람(또는 다른 엔티티)에 대응하는 결과들을 효율적으로 식별할 수 있다.

위에 대한 일 변형으로서, 사용자가 사람의 이미지 또는 비디오를 갖고 있지만, 사람의 이름을 모르는 상황을 고려한다. 사람은 정치가, 남자 배우 또는 여자 배우, 스포츠 인물, 또는 얼굴 인식 또는 이미지 매칭 기술에 의해 인식될 수 있는 임의의 다른 사람 또는 다른 엔티티일 수 있다. 이러한 상황에서, 엔티티를 포함하는 이미지 또는 비디오는 하나 이상의 키워드와 함께 다중 모드 검색 질의로서 제출될 수 있다. 이러한 상황에서, 하나 이상의 키워드는 "정치가" 또는 "여자 배우"와 같이 사용자가 엔티티와 관련하여 소유하는 정보를 나타낼 수 있다. 추가적인 키워드들은 다양한 방식으로 이미지 검색을 지원할 수 있다. 이미지 또는 비디오 및 키워드들 양자를 갖는 것의 한 가지 이익은 사용자가 관심을 갖는 결과들이 더 높은 순위를 부여받을 수 있다는 것이다. 키워드 "여자 배우"를 이미지와 함께 제출하는 것은 이미지 내의 사람의 이름을 알기 위한 사용자 의도를 나타내며, 여자 배우의 이름이 크레디트들 내에 여자 배우를 리스팅하는 영화에 대한 결과보다 높은 순위의 결과가 되게 할 것이다. 게다가, 정확한 매칭이 달성되지 않는 얼굴 인식 또는 다른 이미지 분석 기술에서, 키워드들은 잠재적 응답 검색 결과들의 순위화를 도울 수 있다. 얼굴 인식 방법이 주 상원의원 및 저자 양자를 잠재적 매칭으로서 식별하는 경우, 키워드 "정치가"는 주 상원의원에 대한 정보를 최고 순위의 결과들로서 제공하는 데 사용될 수 있다.

검색 예 2 - 다중 모드 질의들에 대한 질의 정밀화. 이 예에서, 사용자는 음악 CD 또는 영화 DVD와 같은 저장소 내에서 발견되는 작품에 대한 더 많은 정보를 획득하기를 원한다. 검색 프로세스에 대한 전조로서, 사용자는 관심 있는 음악 CD의 커버의 사진을 촬영할 수 있다. 이어서, 이 사진은 검색 질의로서 제출될 수 있다. 이미지 인식 및/또는 매칭을 이용하여, CD 커버는 추가적인 메타데이터를 포함하는 CD 커버의 저장된 이미지에 매칭될 수 있다. 이 메타데이터는 옵션으로서 아티스트의 이름, CD의 제목, CD 상의 개별 노래들의 이름들, 또는 CD에 관한 임의의 다른 데이터를 포함할 수 있다.

CD 커버의 저장된 이미지가 응답 결과로서 그리고 아마도 최고 순위의 결과로서 반환될 수 있다. 실시예에 따라, 사용자는 최초 결과 페이지 상에서 잠재적 질의 변경들을 제공받을 수 있거나, 사용자는 잠재적 질의 변경들에 액세스하기 위해 링크를 클릭할 수 있다. 질의 변경들은 아티스트의 이름, CD의 제목 또는 CD 상의 인기 있는 노래들 중 하나의 이름과 같은 메타데이터에 기초하는 제안들을 포함할 수 있다. 이러한 질의 변경들은 사용자에게 링크들로서 제공될 수 있다. 대안으로서, 사용자는 질의 메타데이터의 일부 또는 전부를 키워드 검색 상자에 추가하기 위한 옵션을 제공받을 수 있다. 사용자는 제안된 변경들을 추가적인 검색 용어들로 보완할 수도 있다. 예를 들어, 사용자는 아티스트의 이름을 선택한 후에, 단어 "콘서트(concert)"를 질의 상자에 추가할 수 있다. 추가 단어 "콘서트"는 검색 질의의 일부로서 사용하기 위해 이미지와 연관될 수 있다. 이것은 예를 들어 아티스트에 대한 미래의 콘서트 날짜들을 지시하는 응답 결과들을 생성할 수 있다. 질의 제안들 또는 변경들에 대한 다른 옵션들은 가격 정보, 아티스트와 관련된 뉴스, CD 상의 노래에 대한 가사 또는 다른 타입의 제안들을 포함할 수 있다. 옵션으로서, 일부 질의 변경들은 사용자로부터의 추가적인 액션 없이 변경된 질의에 대한 응답 결과들을 생성하기 위한 검색을 위해 자동으로 제출될 수 있다. 예를 들어, 키워드 "가격(price)"을 CD 커버에 기초하는 질의에 추가하는 것은 자동 질의 변경일 수 있으며, 따라서 다양한 온라인 소매상들에서의 가격이 최초 검색 결과 페이지와 함께 반환된다.

위의 예에서는 질의 이미지가 먼저 제출된 후에 키워드들이 정밀화를 위해 질의와 연관되었다는 점에 유의한다. 텍스트 키워드 검색으로부터 시작한 후에, 이미지, 비디오 또는 오디오 파일에 기초하여 정밀화함으로써 유사한 정밀화들이 수행될 수 있다.

검색 예 3 - 향상된 모바일 검색. 이 예에서, 사용자는 일반적으로 무엇을 요청할지는 알지만, 검색 질의를 어떻게 표현할지는 모를 수 있다. 이러한 타입의 모바일 검색은 임의 타입의 위치, 사람, 물체 또는 다른 엔티티에 대한 검색을 위해 사용될 수 있다. 하나 이상의 키워드의 추가는 사용자로 하여금 최상의 이미지 매칭에 기초하는 것이 아니라 사용자 의도에 기초하는 응답 결과들을 수신하게 할 수 있다. 키워드들은 이미지를 검색 질의로서 제출하기 전에 예를 들어 검색 텍스트 상자 내에 추가될 수 있다. 키워드들은 옵션으로서 이미지, 비디오 또는 오디오 파일과 관련된 메타데이터로부터 추출될 수 있는 임의의 키워드들을 보완할 수 있다. 예를 들어, 사용자는 식당의 사진을 촬영하고, 사진을 키워드 "메뉴(menu)"와 함께 검색 질의로서 제출할 수 있다. 이것은 그 식당의 메뉴를 포함하는 결과들의 순위를 향상시킬 것이다. 대안으로서, 사용자는 일 타입의 고양이의 비디오를 촬영하고, 단어 "종류(species)"와 함께 검색 질의를 제출할 수 있다. 이것은 유사한 활동들을 행하는 다른 동물들의 이미지 또는 비디오 결과들을 반환하는 것이 아니라 고양이의 타입을 식별하는 결과들의 관련성을 증가시킬 것이다. 또 다른 옵션은 영화 속에서 재생되는 노래들을 식별하기 위해 영화에 대한 포스터의 이미지를 키워드 "사운드트랙(soundtrack)"과 함께 제출하는 것일 수 있다.

또 다른 예로서, 도시를 여행하는 사용자는 그 지역의 대중 교통 시스템에 대한 스케줄에 관한 정보를 원할 수 있다. 불행하게도, 사용자는 시스템의 이름을 알지 못한다. 사용자는 <도시 이름> 및 "대중 교통(mass transit)"이라는 키워드 질의를 타이핑하여 입력함으로써 시작한다. 이것은 많은 수의 결과들을 반환하며, 사용자는 어느 결과가 가장 도움이 될지에 관하여 확신하지 못한다. 이어서, 사용자는 근처의 버스 정류장에서 교통 시스템에 대한 로고를 인지한다. 사용자는 로고의 사진을 촬영하고, 로고를 질의의 일부로서 사용하여 검색을 정밀화한다. 이어서, 로고와 관련된 버스 시스템이 최고 순위의 결과로서 반환되어, 사용자에게 올바른 교통 스케줄이 식별되었다는 확신을 제공한다.

검색 예 4 - 오디오 파일들을 포함하는 다중 모드 검색. 비디오 또는 이미지들에 더하여, 다른 타입의 입력 모드들이 검색을 위해 사용될 수 있다. 오디오 파일들은 적절한 질의 입력의 다른 예를 나타낸다. 이미지들 또는 비디오들에 대해 전술한 바와 같이, 오디오 파일이 키워드들과 함께 검색 질의로서 제출될 수 있다. 대안으로서, 오디오 파일은 다른 타입의 질의 입력의 제출 전에 또는 후에 질의 정밀화의 일부로서 제출될 수 있다. 일부 실시예들에서는 사용자가 어떠한 키워드 입력도 제공하지 않고, 다중 모드 검색 질의가 다수의 타입의 질의 입력을 포함할 수 있다는 점에 유의한다. 따라서, 사용자는 이미지 및 비디오 또는 비디오 및 오디오 파일을 제공할 수 있다. 또 다른 옵션은 다수의 이미지, 비디오 및/또는 오디오 파일을 키워드들과 함께 질의 입력들로서 포함하는 것일 수 있다.

본 발명의 다양한 실시예들의 개요를 간단히 설명하였으며, 이제 본 발명을 수행하는 데 적합한 예시적인 작업 환경이 설명된다. 일반적으로 도면들 그리고 특히 도 1을 먼저 참조하면, 본 발명의 실시예들을 구현하기 위한 예시적인 작업 환경이 도시되며, 일반적으로 컴퓨팅 장치(100)로서 지시된다. 컴퓨팅 장치(100)는 적절한 컴퓨팅 환경의 일례일 뿐이며, 본 발명의 이용 또는 기능의 범위에 관한 임의의 한정을 제안하는 것을 의도하지 않는다. 또한, 컴퓨팅 장치(100)는 설명되는 컴포넌트들 중 어느 하나 또는 조합에 관하여 임의의 의존성 또는 요구를 갖는 것으로 해석되지 않아야 한다.

본 발명의 실시예들은 컴퓨터, 또는 개인용 휴대 단말기 또는 다른 핸드헬드 장치와 같은 다른 기계에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행 가능 명령어들을 포함하는 컴퓨터 코드 또는 기계 사용 가능 명령어들과 일반적으로 관련하여 설명될 수 있다. 일반적으로, 루틴들, 프로그램들, 객체들, 컴포넌트들, 데이터 구조들 등을 포함하는 프로그램 모듈들은 특정 작업들을 수행하거나 특정 추상 데이터 타입들을 구현하는 코드를 지칭한다. 본 발명은 핸드헬드 장치들, 소비자 전자 장치들, 범용 컴퓨터들, 더 특수한 컴퓨팅 장치들 등을 포함하는 다양한 시스템 구성들에서 실시될 수 있다. 본 발명은 통신 네트워크를 통해 링크되는 원격 처리 장치들에 의해 작업들이 수행되는 분산 컴퓨팅 환경들에서도 실시될 수 있다.

도 1을 계속 참조하면, 컴퓨팅 장치(100)는 다음의 장치들, 즉 메모리(112), 하나 이상의 프로세서(114), 하나 이상의 프레젠테이션 컴포넌트(116), 입출력(I/O) 포트들(118), I/O 컴포넌트들(120) 및 예시적인 전원(122)을 직접 또는 간접 결합하는 버스(110)를 포함한다. 버스(110)는 (어드레스 버스, 데이터 버스 또는 이들의 조합과 같은) 하나 이상의 버스일 수 있는 버스를 나타낸다. 도 1의 다양한 블록들은 명료화를 위해 라인들로 도시되지만, 실제로는 다양한 컴포넌트들을 묘사하는 것은 그렇게 명확하지 않으며, 은유적으로 라인들은 더 정확하게는 뚜렷하지 않거나 희미할 것이다. 예를 들어, 디스플레이 장치와 같은 프레젠테이션 컴포넌트가 I/O 컴포넌트인 것으로 간주할 수도 있다. 게다가, 많은 프로세서는 메모리를 갖는다. 본 발명자들은 그러한 것이 기술의 속성이라는 것을 인식하며, 도 1의 도면이 본 발명의 하나 이상의 실시예와 관련하여 사용될 수 있는 예시적인 컴퓨팅 장치를 예시할 뿐이라는 것을 반복하여 말한다. "워크스테이션", "서버", "랩탑", "핸드헬드 장치" 등과 같은 카테고리들 사이에는 구별이 이루어지지 않는데, 그 이유는 이들 모두가 도 1의 범위 내에서 고려되고, "컴퓨팅 장치"를 지칭하기 때문이다.

컴퓨팅 장치(100)는 통상적으로 다양한 컴퓨터 판독 가능 매체들을 포함한다. 컴퓨터 판독 가능 매체들은 컴퓨팅 장치(100)에 의해 액세스될 수 있는 임의의 이용 가능한 매체들일 수 있으며, 휘발성 및 비휘발성 매체들, 이동식 및 비이동식 매체들 모두를 포함한다. 한정이 아니라 예로서, 컴퓨터 판독 가능 매체들은 컴퓨터 저장 매체들 및 통신 매체들을 포함할 수 있다. 컴퓨터 저장 매체들은 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술에서 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체들을 포함한다. 컴퓨터 저장 매체들은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전기적으로 소거 및 프로그래밍 가능한 판독 전용 메모리(EEPROM), 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 홀로그래픽 메모리, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 반송파, 또는 원하는 정보를 인코딩하는 데 사용될 수 있고 컴퓨팅 장치(100)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이에 한정되지 않는다. 일 실시예에서, 컴퓨터 저장 매체들은 유형의 컴퓨터 저장 매체들로부터 선택될 수 있다. 다른 실시예에서, 컴퓨터 저장 매체들은 비일시적 컴퓨터 저장 매체들로부터 선택될 수 있다.

메모리(112)는 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체들을 포함한다. 메모리는 이동식, 비이동식 또는 이들의 조합일 수 있다. 예시적인 하드웨어 장치들은 반도체 메모리, 하드 드라이브, 광-디스크 드라이브 등을 포함한다. 컴퓨팅 장치(100)는 메모리(112) 또는 I/O 컴포넌트들(120)과 같은 다양한 엔티티들로부터 데이터를 판독하는 하나 이상의 프로세서를 포함한다. 프레젠테이션 컴포넌트(들)(116)는 데이터 지시들을 사용자 또는 다른 장치에 제공한다. 예시적인 프레젠테이션 컴포넌트들은 디스플레이 장치, 스피커, 인쇄 컴포넌트, 진동 컴포넌트 등을 포함한다.

I/O 포트들(118)은 컴퓨팅 장치(100)로 하여금 일부가 내장될 수 있는 I/O 컴포넌트들(120)을 포함하는 다른 장치들에 논리적으로 결합되는 것을 가능하게 한다. 예시적인 컴포넌트들은 마이크, 조이스틱, 게임 패드, 위성 안테나, 스캐너, 프린터, 무선 장치 등을 포함한다.

도 2를 추가로 참조하여, 본 발명의 실시예들에서 사용하기에 적합한 예시적인 네트워크 환경(200)을 나타내는 블록도가 설명된다. 환경(200)은 본 발명의 실시예들에서 사용될 수 있는 환경의 일례일 뿐이며, 광범위한 구성들에서 임의 수의 컴포넌트를 포함할 수 있다. 본 명세서에서 제공되는 환경(200)의 설명은 예시적인 목적을 위한 것이며, 본 발명의 실시예들이 구현될 수 있는 환경들의 구성들을 한정하는 것을 의도하지 않는다.

환경(200)은 네트워크(202), 질의 입력 장치(204) 및 검색 엔진 서버(206)를 포함한다. 네트워크(202)는 제한이 아니라 예로서 인터넷, 인트라넷, 비공개 및 공개 근거리 네트워크들, 및 무선 데이터 또는 전화 네트워크들과 같은 임의의 컴퓨터 네트워크를 포함한다. 질의 입력 장치(204)는 검색 질의를 제공할 수 있는 컴퓨팅 장치(100)와 같은 임의의 컴퓨팅 장치이다. 예를 들어, 질의 입력 장치(204)는 특히 개인용 컴퓨터, 랩탑, 서버 컴퓨터, 무선 전화 또는 장치, 개인용 휴대 단말기(PDA) 또는 디지털 카메라일 수 있다. 일 실시예에서는, 수천 또는 수백만 개의 질의 입력 장치(204)와 같은 복수의 질의 입력 장치(204)가 네트워크(202)에 접속된다.

검색 엔진 서버(206)는 컴퓨팅 장치(100)와 같은 임의의 컴퓨팅 장치를 포함하며, 내용 기반 검색 엔진을 제공하기 위한 기능들 중 적어도 일부를 제공한다. 일 실시예에서는, 검색 엔진 서버들(206)의 그룹이 검색 엔진 작업들을 사용자 집단에 제공하는 데 필요한 기능들을 공유하거나 분산시킨다.

이미지 처리 서버(208)도 환경(200) 내에 제공된다. 이미지 처리 서버(208)는 컴퓨팅 장치(100)와 같은 임의의 컴퓨팅 장치를 포함하며, 아래에 더 충분히 설명되는 바와 같이 이미지의 내용을 분석, 표현 및 인덱싱하도록 구성된다. 이미지 처리 서버(208)는 이미지 처리 서버(208)의 메모리에 저장되거나 이미지 처리 서버(208)에 의해 원격 액세스될 수 있는 양자화 테이블(210)을 포함한다. 이미지 처리 서버(208)는 양자화 테이블(210)을 이용하여, 이미지 특징들의 검색 및 인덱싱을 가능하게 하기 위해 이미지들의 내용의 맵핑을 통지한다.

검색 엔진 서버(208) 및 이미지 처리 서버(208)는 이미지 저장소(212) 및 인덱스(214)에 통신 가능하게 결합된다. 이미지 저장소(212) 및 인덱스(214)는 하드 디스크 드라이브, 플래시 메모리, 광학 메모리 장치 등과 같은 임의의 이용 가능한 컴퓨터 저장 장치 또는 복수의 컴퓨터 저장 장치를 포함한다. 이미지 저장소(212)는 본 발명의 일 실시예의 내용 기반 검색에 응답하여 제공될 수 있는 이미지 파일들에 대한 데이터 저장을 제공한다. 인덱스(214)는 이미지 저장소(212)에 저장된 이미지들을 포함하는, 네트워크(202)를 통해 이용 가능한 문서들의 내용 기반 검색을 위한 검색 인덱스를 제공한다. 인덱스(214)는 임의의 인덱싱 데이터 구조 또는 포맷을 이용할 수 있으며, 바람직하게는 반전 인덱스 포맷을 이용한다. 일부 실시예들에서는 이미지 저장소(212)가 옵션일 수 있다는 점에 유의한다.

반전 인덱스는 데이터 구조 내의 콘텐츠의 위치들을 나타내는 맵핑을 제공한다. 예를 들어, (키워드 서술자를 포함하는) 특정 키워드에 대한 문서를 검색할 때, 키워드는 단어 또는 특징의 위치들을 찾기 위해 문서를 검색하는 것이 아니라 문서 내의 단어의 위치 및/또는 이미지 문서 내의 특징의 존재를 식별하는 반전 인덱스에서 발견된다.

일 실시예에서, 검색 엔진 서버(206), 이미지 처리 서버(208), 이미지 저장소(212) 및 인덱스(214) 중 하나 이상은 단일 컴퓨팅 장치 내에 통합되거나, 네트워크(202)를 통하지 않고 장치들 사이의 직접 통신을 가능하게 하기 위해 직접적으로 통신 가능하게 결합된다.

도 10은 본 발명의 일 실시예에 따른 방법, 또는 대안으로서 본 발명의 일 실시예에 따른 컴퓨터 저장 매체들 상에 구현되는 방법을 위한 실행 가능 명령어들을 나타낸다. 도 10에서, 추출될 수 있는 복수의 관련성 특징을 포함하는 이미지, 비디오 또는 오디오 파일이 획득된다(1010). 이미지, 비디오 또는 오디오 파일은 적어도 하나의 키워드와 연관된다(1020). 이미지, 비디오 또는 오디오 파일 및 관련 키워드는 질의로서 검색 엔진에 제출된다(1030). 복수의 관련성 특징들 및 관련 키워드 양자에 응답하는 적어도 하나의 응답 결과가 수신된다(1040). 이어서, 적어도 하나의 응답 결과가 표시된다(1050).

도 11은 본 발명의 일 실시예에 따른 다른 방법, 또는 대안으로서 본 발명의 일 실시예에 따른 컴퓨터 저장 매체들 상에 구현되는 방법을 위한 실행 가능 명령어들을 나타낸다. 도 11에서, 적어도 두 개의 질의 모드를 포함하는 질의가 수신된다(1110). 질의로부터 적어도 두 개의 질의 모드에 대응하는 관련성 특징들이 추출된다(1120). 추출된 관련성 특징들에 기초하여 복수의 응답 결과가 선택된다(1130). 또한, 복수의 응답 결과는 추출된 관련성 특징들에 기초하여 순위화된다(1140). 이어서, 순위화된 응답 결과들 중 하나 이상이 표시된다(1150).

도 12는 본 발명의 일 실시예에 따른 또 다른 방법, 또는 대안으로서 본 발명의 일 실시예에 따른 컴퓨터 저장 매체들 상에 구현되는 방법을 위한 실행 가능 명령어들을 나타낸다. 도 12에서, 적어도 하나의 키워드를 포함하는 질의가 수신된다(1210). 수신된 질의에 기초하여 복수의 응답 결과가 표시된다(1220). 이미지, 비디오 또는 오디오 파일 중 적어도 하나를 포함하는 보완 질의 입력이 수신된다(1230). 보완 질의 입력에 기초하여 복수의 응답 결과의 순위가 변경된다(1240). 변경된 순위에 기초하여 응답 결과들 중 하나 이상이 표시된다(1250).

추가적인 실시예들

제1의 고려되는 실시예는 다중 모드 검색을 수행하기 위한 방법을 포함한다. 이 방법은 적어도 두 개의 질의 모드를 포함하는 질의를 수신하는 단계(1110); 상기 질의로부터 상기 적어도 두 개의 질의 모드에 대응하는 관련성 특징들을 추출하는 단계(1120); 상기 추출된 관련성 특징들에 기초하여 복수의 응답 결과를 선택하는 단계(1130); 상기 추출된 관련성 특징들에 기초하여 상기 복수의 응답 결과를 순위화하는 단계(1140); 및 상기 순위화된 응답 결과들 중 하나 이상을 표시하는 단계(1150)를 포함한다.

제2 실시예는 상기 수신된 질의 내의 상기 질의 모드들이 키워드, 이미지, 비디오 또는 오디오 파일 중 둘 이상을 포함하는 제1 실시예의 방법을 포함한다.

제3 실시예는 상기 복수의 응답 문서가 상기 적어도 두 개의 질의 모드로부터의 관련성 특징들을 포함하는 반전된 인덱스를 이용하여 선택되는 상기 실시예들 중 어느 하나를 포함한다.

제4 실시예는 상기 이미지, 비디오 또는 오디오 파일로부터 추출된 관련성 특징들이 상기 반전된 인덱스 내에 서술자 키워드들로서 포함되는 제3 실시예를 포함한다.

제5 실시예에서, 다중 모드 검색을 수행하기 위한 방법이 제공된다. 이 방법은 추출될 수 있는 복수의 관련성 특징을 포함하는 이미지, 비디오 또는 오디오 파일을 획득하는 단계(1010); 상기 이미지, 비디오 또는 오디오 파일을 적어도 하나의 키워드와 연관시키는 단계(1020); 상기 이미지, 비디오 또는 오디오 파일 및 상기 연관된 키워드를 검색 엔진에 질의로서 제출하는 단계(1030); 상기 복수의 관련성 특징 및 상기 연관된 키워드 모두에 응답하는 적어도 하나의 응답 결과를 수신하는 단계(1040); 및 상기 적어도 하나의 응답 결과를 표시하는 단계(1050)를 포함한다.

제6 실시예는 상기 추출된 관련성 특징들이 키워드 및 이미지에 대응하는 상기 실시예들 중 어느 하나를 포함한다.

제7 실시예는 이미지, 비디오 또는 오디오 파일로부터 메타데이터를 추출하는 단계; 상기 추출된 메타데이터로부터 하나 이상의 키워드를 식별하는 단계; 및 상기 수신된 질의로부터의 상기 추출된 관련성 특징들 및 상기 추출된 메타데이터로부터 식별된 상기 키워드들을 적어도 포함하는 제2 질의를 형성하는 단계를 더 포함하는 상기 실시예들 중 어느 하나를 포함한다.

제8 실시예는 상기 추출된 관련성 특징들에 기초하여 상기 복수의 응답 문서를 순위화하는 단계가 상기 제2 질의에 기초하여 상기 복수의 응답 문서를 순위화하는 단계를 포함하는 제7 실시예를 포함한다.

제9 실시예는 상기 제2 질의가 상기 표시된 응답 결과들과 관련하여 표시되는 제7 또는 제8 실시예를 포함한다.

제10 실시예는 상기 제2 질의에 기초하여 제2 복수의 응답 문서를 자동으로 선택하는 단계; 상기 제2 질의에 기초하여 상기 제2 복수의 응답 문서를 순위화하는 단계; 및 상기 제2 복수의 응답 문서로부터 적어도 하나의 문서를 표시하는 단계를 더 포함하는 제7 내지 제9 실시예들 중 어느 하나를 포함한다.

제11 실시예는 이미지 또는 비디오가 획득 장치와 관련된 카메라로부터 이미지 또는 비디오로서 획득되는 상기 실시예들 중 어느 하나를 포함한다.

제12 실시예는 이미지, 비디오 또는 오디오 파일이 저장된 이미지, 비디오 또는 오디오 파일에 네트워크를 통해 액세스함으로써 획득되는 상기 실시예들 중 어느 하나를 포함한다.

제13 실시예는 상기 적어도 하나의 응답 결과가 텍스트 문서, 이미지, 비디오, 오디오 파일, 텍스트 문서의 식별자, 이미지의 식별자, 비디오의 식별자, 오디오 파일의 식별자 또는 이들의 조합을 포함하는 상기 실시예들 중 어느 하나를 포함한다.

제14 실시예는 상기 방법이 상기 제출된 질의 및 적어도 하나의 응답 결과에 대응하는 메타데이터에 기초하여 하나 이상의 질의 제안을 표시하는 단계를 더 포함하는 상기 실시예들 중 어느 하나를 포함한다.

제15 실시예에서, 다중 모드 검색을 수행하기 위한 방법으로서, 적어도 하나의 키워드를 포함하는 질의를 수신하는 단계(1210); 상기 수신된 질의에 기초하여 복수의 응답 결과를 표시하는 단계(1220); 이미지, 비디오 또는 오디오 파일 중 적어도 하나를 포함하는 보완 질의 입력을 수신하는 단계(1230); 상기 보완 질의 입력에 기초하여 상기 복수의 응답 결과의 순위를 변경하는 단계(1240); 및 상기 변경된 순위에 기초하여 상기 응답 결과들 중 하나 이상을 표시하는 단계(1250)를 포함하는 방법이 제공된다.

본 발명의 실시예들은 모든 면에서 한정이 아니라 예시적인 것을 의도하는 특정 실시예들과 관련하여 설명되었다. 본 발명이 속하는 분야의 통상의 기술자들에게는 본 발명의 범위로부터 벗어나지 않는 대안 실시예들이 명백해질 것이다.

위로부터, 본 발명은 명백하고 구조에 고유한 다른 이점들과 더불어 전술한 모든 목적들 및 목표들을 달성하기에 매우 적합한 것이라는 것을 알 것이다.

소정의 특징들 및 하위 조합들이 유용하며 다른 특징들 및 하위 조합들에 관계없이 이용될 수 있다는 점이 이해될 것이다. 이것은 청구범위에 의해 고려되며 청구범위의 범위 내에 있다.

Claims

다중 모드 검색을 수행하기 위한 방법으로서,
적어도 두 개의 질의 모드를 포함하는 질의를 수신하는 단계,
상기 질의로부터 상기 적어도 두 개의 질의 모드에 대응하는 관련성 특징(relevance features)을 추출하는 단계,
상기 추출된 관련성 특징에 기초하여 복수의 응답 결과를 선택하는 단계,
상기 추출된 관련성 특징에 기초하여 상기 복수의 응답 결과를 순위화하는 단계, 및
상기 순위화된 응답 결과 중 하나 이상을 표시하는 단계를 포함하는
방법.
제1항에 있어서,
상기 수신된 질의 내의 상기 질의 모드는 키워드, 이미지, 비디오 또는 오디오 파일 중 둘 이상을 포함하는
방법.
제1항 또는 제2항에 있어서,
상기 복수의 응답 문서는 상기 적어도 두 개의 질의 모드로부터의 관련성 특징을 포함하는 반전된 인덱스를 이용하여 선택되는
방법.
제3항에 있어서,
상기 이미지, 비디오 또는 오디오 파일로부터 추출된 관련성 특징은 상기 반전된 인덱스 내에 서술자 키워드(descriptor keyword)로서 포함되는
방법.
다중 모드 검색을 수행하기 위한 방법으로서,
추출될 수 있는 복수의 관련성 특징을 포함하는 이미지, 비디오 또는 오디오 파일을 획득하는 단계,
상기 이미지, 비디오 또는 오디오 파일을 적어도 하나의 키워드와 연관시키는 단계,
상기 이미지, 비디오 또는 오디오 파일 및 상기 연관된 키워드를 검색 엔진에 질의로서 제출하는 단계,
상기 복수의 관련성 특징 및 상기 연관된 키워드 모두에 응답하는 적어도 하나의 응답 결과를 수신하는 단계, 및
상기 적어도 하나의 응답 결과를 표시하는 단계를 포함하는
방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 추출된 관련성 특징은 키워드 및 이미지에 대응하는
방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
이미지, 비디오 또는 오디오 파일로부터 메타데이터를 추출하는 단계,
상기 추출된 메타데이터로부터 하나 이상의 키워드를 식별하는 단계, 및
적어도 상기 수신된 질의로부터의 상기 추출된 관련성 특징 및 상기 추출된 메타데이터로부터 식별된 상기 키워드를 포함하는 제2 질의를 형성하는 단계를 더 포함하는
방법.
제7항에 있어서,
상기 추출된 관련성 특징에 기초하여 상기 복수의 응답 문서를 순위화하는 단계는 상기 제2 질의에 기초하여 상기 복수의 응답 문서를 순위화하는 단계를 포함하는
방법.
제7항 또는 제8항에 있어서,
상기 제2 질의는 상기 표시된 응답 결과와 관련하여 표시되는
방법.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 제2 질의에 기초하여 제2 복수의 응답 문서를 자동으로 선택하는 단계,
상기 제2 질의에 기초하여 상기 제2 복수의 응답 문서를 순위화하는 단계, 및
상기 제2 복수의 응답 문서로부터 적어도 하나의 문서를 표시하는 단계를 더 포함하는
방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
이미지 또는 비디오는 획득 장치와 관련된 카메라로부터 이미지 또는 비디오로서 획득되는
방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
이미지, 비디오 또는 오디오 파일은 저장된 이미지, 비디오 또는 오디오 파일에 네트워크를 통해 액세스함으로써 획득되는
방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 적어도 하나의 응답 결과는 텍스트 문서, 이미지, 비디오, 오디오 파일, 텍스트 문서의 식별자, 이미지의 식별자, 비디오의 식별자, 오디오 파일의 식별자 또는 이들의 조합을 포함하는
방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 방법은 상기 제출된 질의 및 적어도 하나의 응답 결과에 대응하는 메타데이터에 기초하여 하나 이상의 질의 제안을 표시하는 단계를 더 포함하는
방법.
다중 모드 검색을 수행하기 위한 방법으로서,
적어도 하나의 키워드를 포함하는 질의를 수신하는 단계,
상기 수신된 질의에 기초하여 복수의 응답 결과를 표시하는 단계,
이미지, 비디오 또는 오디오 파일 중 적어도 하나를 포함하는 보완 질의 입력을 수신하는 단계,
상기 보완 질의 입력에 기초하여 상기 복수의 응답 결과의 순위를 변경하는 단계, 및
상기 변경된 순위에 기초하여 상기 응답 결과 중 하나 이상을 표시하는 단계를 포함하는
방법.