KR20120058539A - 소셜 네트워크 지원을 이용한 얼굴 인식 - Google Patents

소셜 네트워크 지원을 이용한 얼굴 인식 Download PDF

Info

Publication number
KR20120058539A
KR20120058539A KR1020127006118A KR20127006118A KR20120058539A KR 20120058539 A KR20120058539 A KR 20120058539A KR 1020127006118 A KR1020127006118 A KR 1020127006118A KR 20127006118 A KR20127006118 A KR 20127006118A KR 20120058539 A KR20120058539 A KR 20120058539A
Authority
KR
South Korea
Prior art keywords
individual
image
visual
visual query
images
Prior art date
Application number
KR1020127006118A
Other languages
English (en)
Other versions
KR101760853B1 (ko
Inventor
데이비드 페트로우
앤드류 라비노비치
하르트빅 아담
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20120058539A publication Critical patent/KR20120058539A/ko
Application granted granted Critical
Publication of KR101760853B1 publication Critical patent/KR101760853B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Abstract

얼굴 인식 검색 시스템은 아래와 같은 질의에서 얼굴 이미지(들)에 대응하는 하나 이상의 유사한 이름들(또는 다른 개인 식별자들)을 식별한다. 하나 이상의 얼굴 이미지들을 가진 시각 질의를 수신한 후, 시스템은 시각적 유사성 기준에 따라 각각의 얼굴 이미지를 잠재적으로 매칭하는 이미지들을 식별한다. 그 다음에 잠재적 이미지들과 연관된 하나 이상의 개인들이 식별된다. 각각의 식별된 개인에 대하여, 요청자에 대한 소셜 접속성의 메트릭들을 포함하는 개인-특유 데이터는 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들과 같은 복수의 애플리케이션들로부터 검색된다. 그 다음에 적어도 각각의 얼굴 이미지 및 잠재적 이미지 매칭들 사이의 시각적 유사성의 메트릭들에 따라 그리고 소셜 연결 메트릭들에 따라 식별된 개인들을 순위화함으로써 개인의 순서화된 리스트가 생성된다. 마지막으로, 리스트로부터의 적어도 하나의 개인 식별자가 요청자에게 송신된다.

Description

소셜 네트워크 지원을 이용한 얼굴 인식{FACIAL RECOGNITION WITH SOCIAL NETWORK AIDING}
개시된 실시예들은 일반적으로 가장 매칭하는 사람(들)의 식별을 용이하게 하기 위해 식별된 사람(들)의 다른 사진들로부터 획득되는 정보 및 소셜 네트워크 정보를 이용함으로써 이미지 질의에서 얼굴과 잠재적으로 매칭하는 하나 이상의 사람들의 식별에 관한 것이다.
사용자가 검색 엔진에 단어 또는 구문을 입력하고 다양한 결과들을 수신하는, 텍스트 기반 또는 용어-기반 검색은 검색을 위한 유용한 툴이다. 그러나, 용어 기반 질의들은 사용자가 관련 용어를 입력할 수 있을 것을 요구한다. 때때로, 사용자는 이미지에 관한 정보를 알고자 할 수 있다. 예를 들어, 사용자는 사진 속의 사람의 이름을 알기를 원할 수도 있다. 사람은 또한 사진 속의 사람에 대한 연락 정보와 같은 다른 정보를 알기를 원할 수도 있다. 이에 따라, 얼굴 이미지 질의를 수신할 수 있고 얼굴 이미지 질의에서 식별된 사람에 관련된 다양한 검색 결과들을 제공할 수 있는 시스템이 바람직할 것이다.
일부 실시예들에 따르면, 얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법은 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의해 실행하기 위한 하나 이상의 프로그램들을 저장하는 메모리를 포함하는 서버 시스템에서 수행된다. 상기 방법은 아래에 개요가 제시된 프로세스를 포함한다. 각각의 얼굴 이미지를 포함하는 하나 이상의 얼굴 이미지들을 포함하는 시각 질의가 요청자로부터 수신된다. 시각적 유사성 기준에 따라 상기 각각의 얼굴 이미지를 잠재적으로 매칭하는 잠재적 이미지 매칭들이 식별된다. 상기 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들을 포함한다. 상기 잠재적 이미지 매칭들과 연관된 하나 이상의 개인들이 식별된다. 각각의 식별된 개인에 대하여, 복수의 애플리케이션들로부터 획득되는, 상기 요청자에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함하는 개인-특유 데이터가 리트리브된다. 복수의 애플리케이션들은 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력(collaborative) 애플리케이션들로 구성된 그룹으로부터 선택된다. 상기 각각의 얼굴 이미지와 상기 잠재적 이미지 매칭들 사이의 시각적 유사성의 하나 이상의 메트릭들에 따라 그리고 적어도 상기 소셜 연결 메트릭들을 포함하는 순위화(ranking) 정보에 따라 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 순서화된 리스트가 생성된다. 그 다음에 상기 순서화된 리스트로부터의 적어도 하나의 개인 식별자가 상기 요청자에게 송신된다. 이러한 방법은 또한 아래의 섹션들에서 논의되는 부가적인 옵션들을 실행하기 위한 프로그램 명령들을 포함할 수 있다.
일부 실시예들에 따르면, 얼굴 이미지를 포함하는 시각 질의를 프로세싱하기 위한 서버 시스템이 제공된다. 서버 시스템은 프로그램들을 실행하기 위한 하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 포함한다. 상기 하나 이상의 프로그램들은 아래에 개요가 제시된 프로세스를 위한 명령들을 포함한다. 각각의 얼굴 이미지를 포함하는 하나 이상의 얼굴 이미지들을 포함하는 시각 질의가 요청자로부터 수신된다. 시각적 유사성 기준에 따라 상기 각각의 얼굴 이미지를 잠재적으로 매칭하는 잠재적 이미지 매칭들이 식별된다. 상기 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들을 포함한다. 상기 잠재적 이미지 매칭들과 연관된 하나 이상의 개인들이 식별된다. 각각의 식별된 개인에 대하여, 복수의 애플리케이션들로부터 획득되는, 상기 요청자에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함하는 개인-특유 데이터가 리트리브된다. 복수의 애플리케이션들은 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들로 구성된 그룹으로부터 선택된다. 상기 각각의 얼굴 이미지와 상기 잠재적 이미지 매칭들 사이의 시각적 유사성의 하나 이상의 메트릭들에 따라 그리고 적어도 상기 소셜 연결 메트릭들을 포함하는 순위화 정보에 따라 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 순서화된 리스트가 생성된다. 그 다음에 상기 순서화된 리스트로부터의 적어도 하나의 개인 식별자가 상기 요청자에게 송신된다. 이러한 시스템은 또한 아래 섹션들에서 논의된 부가적인 옵션들을 실행하기 위한 프로그램 명령들을 포함할 수 있다.
일부 실시예들에 따르면, 얼굴 이미지를 포함하는 시각 질의를 프로세싱하기 위한 비-일시적인 컴퓨터 판독 가능한 저장 매체가 제공된다. 컴퓨터 판독 가능한 매체는 컴퓨터에 의해 실행하기 위해 구성된 하나 이상의 컴퓨터 프로그램들을 저장하고, 상기 하나 이상의 프로그램들은 다음을 수행하기 위한 명령들을 포함한다. 각각의 얼굴 이미지를 포함하는 하나 이상의 얼굴 이미지들을 포함하는 시각 질의가 요청자로부터 수신된다. 시각적 유사성 기준에 따라 상기 각각의 얼굴 이미지를 잠재적으로 매칭하는 잠재적 이미지 매칭들이 식별된다. 상기 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들을 포함한다. 상기 잠재적 이미지 매칭들과 연관된 하나 이상의 개인들이 식별된다. 각각의 식별된 개인에 대하여, 복수의 애플리케이션들로부터 획득되는, 상기 요청자에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함하는 개인-특유 데이터가 리트리브된다. 복수의 애플리케이션들은 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들로 구성된 그룹으로부터 선택된다. 상기 각각의 얼굴 이미지와 상기 잠재적 이미지 매칭들 사이의 시각적 유사성의 하나 이상의 메트릭들에 따라 그리고 적어도 상기 소셜 연결 메트릭들을 포함하는 순위화 정보에 따라 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 순서화된 리스트가 생성된다. 그 다음에 상기 순서화된 리스트로부터의 적어도 하나의 개인 식별자가 상기 요청자에게 송신된다. 이러한 컴퓨터 판독 가능한 저장 매체는 또한 아래 섹션들에서 논의된 부가적인 옵션들을 실행하기 위한 프로그램 명령들을 포함할 수 있다.
도 1은 시각 질의 서버 시스템을 포함하는 컴퓨터 네트워크를 도시하는 블록도이다.
도 2는 임의의 실시예들에 따라, 시각 질의에 응답하기 위한 프로세스를 도시하는 흐름도이다.
도 3은 임의의 실시예들에 따라, 상호작용 결과 문서를 이용하여 시각 질의에 응답하기 위한 프로세스를 도시하는 흐름도이다.
도 4는 임의의 실시예들에 따라, 클라이언트 및 시각 질의 서버 시스템 사이에서 통신들을 도시하는 흐름도이다.
도 5는 임의의 실시예들에 따라, 클라이언트 시스템을 도시하는 블록도이다.
도 6은 임의의 실시예들에 따라, 프론트 엔드 시각 질의 프로세싱 서버 시스템을 도시하는 블록도이다.
도 7은 임의의 실시예들에 따라, 시각 질의를 프로세싱하기 위해 이용되는 병렬 검색 시스템들 중 포괄적인 시스템을 도시하는 블록도이다.
도 8은 임의의 실시예들에 따라, 시각 질의를 프로세싱하기 위해 이용되는 OCR 검색 시스템을 도시하는 블록도이다.
도 9는 임의의 실시예들에 따라, 시각 질의를 프로세싱하기 위해 이용되는 얼굴 인식 검색 시스템을 도시하는 블록도이다.
도 10은 임의의 실시예들에 따라, 시각 질의를 프로세싱하기 위해 이용되는 이미지 대 용어들 검색 시스템을 도시하는 블록도이다.
도 11은 임의의 실시예들에 따라, 예시적인 시각 질의의 스크린 샷을 가진 클라이언트 시스템을 도시한다.
도 12a 및 도 12b 각각은 임의의 실시예들에 따라, 바운딩 박스들을 가진 상호작용 결과 문서의 스크린 샷을 가진 클라이언트 시스템을 도시한다.
도 13은 임의의 실시예들에 따라, 타입에 의해 코딩된 상호작용 결과 문서의 스크린 샷을 가진 클라이언트 시스템을 도시한다.
도 14는 임의의 실시예들에 따라, 라벨들을 가진 상호작용 결과 문서의 스크린 샷을 가진 클라이언트 시스템을 도시한다.
도 15는 임의의 실시예들에 따라, 결과 리스트와 동시에 디스플레이되는 상호작용 결과 문서 및 시각 질의의 스크린 샷을 도시한다.
도 16a-도 16b는 임의의 실시예들에 따라 얼굴 이미지를 포함하는 시각 질의에 응답하는 프로세스를 도시하는 흐름도들이다.
도 17은 임의의 실시예들에 따라, 시각 질의에서 얼굴 이미지에 잠재적으로 매칭하는 사람들의 순서화된 리스트를 생성하는 데 이용되는 다양한 팩터들 및 특성들을 도시하는 흐름도이다.
도 18a는 임의의 실시예들에 따라, 얼굴 인식 검색 시스템에 의해 이용되는 얼굴 이미지 데이터베이스의 데이터 구조의 부분을 도시하는 블록도이다. 도 18b는 임의의 실시예들에 따라, 소셜 네트워크 및 통신 애플리케이션들과 같은 복수의 애플리케이션들에 걸친 사람들 사이의 관계들을 도시한다. 도 18c는 임의의 실시예들에 따라, 임의의 이미지 유도 특성들을 도시하는 블록도이다.
동일한 참조 번호들은 도면들 전체를 통해 대응하는 부분들을 지칭한다.
이제 첨부된 도면들에서 설명되는 실시예들에 대한 참조가 상세히 이루어질 것이다. 아래의 상세한 설명에서, 많은 특정 세부사항들이 본 발명의 완전한 이해를 제공하기 위해 설명된다. 하지만, 본 발명이 이러한 특정 세부사항들 없이 실시될 수 있음이 당업자에게 명백할 것이다. 다른 예시들에서, 공지된 방법들, 절차들, 컴포넌트들, 회로들 및 네트워크들이 실시예들의 양상들을 필요이상으로 불분명하지 않도록 상세히 설명되지 않았다.
용어들 제 1, 제 2 등이 다양한 엘리먼트들을 설명하기 위해 본 명세서에 존재할 수 있지만, 이러한 엘리먼트들은 이러한 용어들에 의해 제한되지 않아야 함이 또한 이해될 것이다. 이러한 용어들은 하나의 엘리먼트를 다른 엘리먼트와 구별하기 위해서만 사용된다. 본 발명의 범위로부터 벗어남이 없이 예를 들어, 제 1 컨택트는 제 2 컨택트로 지칭될 수 있고, 유사하게, 제 2 컨택트는 제 1 컨택트로 지칭될 수 있다. 제 1 컨택트 및 제 2 컨택트는 둘 다 컨택트들이지만, 동일한 컨택트가 아니다.
본 명세서에서 본 발명의 설명에서 사용되는 용어는 특정 실시예들을 설명하기 위한 목적일 뿐, 본 발명의 제한으로 의도되지 않는다. 본 발명의 설명 및 첨부된 청구항들에서 사용되는 바와 같이, 단수 형태들은 문맥이 명백하게 달리 나타내지 않는 한 또한 복수 형태들을 포함하고자 의도된다. 또한 본 명세서에서 사용되는 용어 "및/또는"은 연관된 리스트된 아이템들 중 하나 이상 중 임의의 그리고 모든 가능한 조합들을 지칭하고 포함한다고 이해될 것이다. 또한, 용어들 "포함하는(comprises 및/또는 comprising)"은 이 상세에서 사용될 때, 언급된 특징들, 정수들, 단계들, 동작들, 엘리먼트들, 및/또는 컴포넌트들을 식별하지만, 하나 이상의 다른 특징들, 정수들, 단계들, 동작들, 엘리먼트들, 컴포넌트들, 및/또는 이들의 그룹들의 존재 또는 부가를 못하게 하는 것이 아니다.
본 명세서에서 사용되는, 용어 "~할 경우(if)"는 문맥에 따라 "때(when)" 또는 "~할 시(upon)" 또는 "결정에 응답하여" 또는 "검출에 응답하여"를 의미하도록 해석될 수 있다. 유사하게, 구문 "결정될 경우" 또는 "(언급된 조건 또는 이벤트) 검출될 경우"는 문맥에 따라 "결정 시", 또는 "결정에 응답하여" 또는 "(언급된 조건 또는 이벤트) 검출 시" 또는 "(언급된 조건 또는 이벤트) 검출에 응답하여"를 의미하도록 해석될 수 있다.
도 1은 임의의 실시예들에 따른 시각 질의 서버 시스템을 포함하는 컴퓨터 네트워크를 도시하는 블록도이다. 컴퓨터 네트워크(100)는 하나 이상의 클라이언트 시스템들(102) 및 시각 질의 서버 시스템(106)을 포함한다. 하나 이상의 통신 네트워크들(104)은 이러한 컴포넌트들을 상호접속한다. 통신 네트워크(104)는 로컬 영역 네트워크들(LAN), 광역 네트워크들(WAN), 무선 네트워크들, 유선 네트워크들, 인터넷 또는 이러한 네트워크들의 조합을 포함하는, 다양한 네트워크들 중 임의의 네트워크일 수 있다.
클라이언트 시스템(102)은 시각 질의(예를 들어, 도 11의 시각 질의(1102))를 수신하기 위해, 클라이언트 시스템에 의해 실행되는 클라이언트 애플리케이션(108)을 포함한다. 시각 질의는 검색 엔진 또는 검색 시스템에 질의로서 제출되는 이미지이다. 제한이 아닌, 시각 질의들의 예시들은 사진들, 스캔된 문서들 및 이미지들 및 그림들을 포함한다. 임의의 실시예들에서, 클라이언트 애플리케이션(108)은 검색 애플리케이션, 브라우저 애플리케이션에 대한 검색 엔진 플러그-인 및 브라우저 애플리케이션에 대한 검색 엔진 확장으로 구성되는 세트로부터 선택된다. 임의의 실시예들에서, 클라이언트 애플리케이션(108)은 "잡식성(omnivorous)" 검색 박스이고, 이는 사용자가 시각 질의로서 사용될 임의의 포맷의 이미지를 검색 박스로 드래그 앤 드롭할 수 있도록 한다.
클라이언트 시스템(102)은 시각 질의 서버 시스템(106)에 질의들을 송신하고 시각 질의 서버 시스템(106)으로부터 데이터를 수신한다. 클라이언트 시스템(102)은 임의의 컴퓨터 또는 시각 질의 서버 시스템(106)과 통신할 수 있는 다른 디바이스일 수 있다. 제한이 아닌, 예시들은 데스크톱 및 노트북 컴퓨터들, 메인프레임 컴퓨터들, 서버 컴퓨터들, 휴대 전화들 및 개인 휴대 정보 단말들과 같은 모바일 디바이스들, 네트워크 단말들 및 셋-톱 박스들을 포함한다.
시각 질의 서버 시스템(106)은 프론트 엔드 시각 질의 프로세싱 서버(110)를 포함한다. 프론트 엔드 서버(110)는 클라이언트(102)로부터 시각 질의를 수신하고 동시 프로세싱을 위해 복수의 병렬 검색 시스템들(112)에 시각 질의를 송신한다. 검색 시스템들(112) 각각은 별개의 시각 질의 검색 프로세스를 구현하고 자신들의 별개의 검색 프로세스에 의해 시각 질의를 프로세스할 필요에 따라 자신들의 대응하는 데이터베이스들(114)에 액세스한다. 예를 들어, 얼굴 인식 검색 시스템(112-A)은 이미지 질의에 대한 얼굴 매칭들을 찾기 위해 얼굴 이미지 데이터베이스(114-A)에 액세스할 것이다. 도 9와 관련하여 더 상세히 설명될 바와 같이, 시각 질의가 얼굴을 포함하는 경우, 얼굴 인식 검색 시스템(112-A)은 얼굴 이미지 데이터베이스(114-A)로부터 하나 이상의 검색 결과들(예를 들어, 명칭들, 매칭 얼굴들 등)을 리턴할 것이다. 다른 예시에서, 광학식 문자 인식(OCR) 검색 시스템(112-B)은 시각 질의에서 임의의 인식가능한 텍스트를 하나 이상의 검색 결과들로서 리턴하기 위한 텍스트로 변환한다. 광학식 문자 인식(OCR) 검색 시스템(112-B)에서, OCR 데이터베이스(114-B)는 도 8에 관하여 더 상세히 설명되는 특정 폰트들 또는 텍스트 패턴들을 인식하기 위해 액세스될 수 있다.
임의의 수의 병렬 검색 시스템들(112)이 사용될 수 있다. 임의의 실시예들은 얼굴 인식 검색 시스템(112-A), OCR 검색 시스템(112-B), 이미지-대-용어들 검색 시스템(112-C)(오브젝트 또는 오브젝트 카테고리를 인식할 수 있음), 물건 인식 검색 시스템(책 커버들 및 CD들과 같은 2-D 이미지들을 인식하도록 구성될 수 있고 또한 가구와 같은 3-D 이미지들을 인식하도록 구성될 수 있음), 바 코드 인식 검색 시스템(1D 및 2D 스타일 바 코드들을 인식함), 명명 엔티티 인식 검색 시스템, 랜드마크 인식(에펠 타워와 같은 특정 유명한 랜드마크들을 인식하도록 구성될 수 있고, 또한 빌보드들과 같은 특유한 이미지들의 코퍼스(corpus)를 인식하도록 구성될 수 있음), 클라이언트 시스템(102) 또는 모바일 전화 네트워크의 GPS 수신기에 의해 제공되는 지리-위치 정보에 의해 도움을 받는 장소 인식, 색 인식 검색 시스템 및 유사 이미지 검색 시스템(시각 질의에 유사한 이미지들을 검색하고 식별함)을 포함한다. 추가의 검색 시스템들은 시스템(112-N)에 의해 도 1에 제시된, 부가적인 병렬 검색 시스템들로서 부가될 수 있다. OCR 검색 시스템을 제외한 모든 검색 시스템들은 이미지-매칭 프로세스를 수행하는 검색 시스템들로서 본 명세서에서 집합적으로 정의된다. OCR 검색 시스템을 포함하는 모든 검색 시스템들은 이미지에 의한 질의 검색 시스템들로서 집합적으로 지칭된다. 임의의 실시예들에서, 시각 질의 서버 시스템(106)은 얼굴 인식 검색 시스템(112-A), OCR 검색 시스템(112-B), 및 적어도 하나의 다른 이미지에 의한 질의 검색 시스템(112)을 포함한다.
병렬 검색 시스템들(112) 각각은 개별적으로 시각 검색 질의를 프로세싱하고 자신들의 결과들을 프론트 엔드 서버 시스템(110)에 리턴한다. 임의의 실시예들에서, 프론트 엔드 서버(100)는, 결과들을 복합 문서로 통합하는 것, 디스플레이할 결과들의 서브세트를 선택하는 것, 및 도 6에 관하여 더 상세히 설명될 바와 같이 결과들을 순위화하는 것 중 하나 이상과 같이 검색 결과들에서 하나 이상의 분석들을 수행할 수 있다. 프론트 엔드 서버(110)는 클라이언트 시스템(102)에 검색 결과들을 통신한다.
클라이언트 시스템(102)은 사용자에 하나 이상의 검색 결과들을 제시한다. 결과들은 디스플레이상에, 오디오 스피커에 의해 또는 사용자에 정보를 통신하기 위해 사용되는 임의의 다른 수단에 의해 제시될 수 있다. 사용자는 다양한 방식들로 검색 결과들과 상호작용할 수 있다. 임의의 실시예들에서, 사용자의 선택들, 주석들, 및 검색 결과들과의 다른 상호작용들은 시각 질의 서버 시스템(106)에 전송되고 질의 및 주석 데이터베이스(116)에 시각 질의와 함께 기록된다. 질의 및 주석 데이터베이스 내의 정보는 시각 질의 결과들을 향상시키기 위해 사용될 수 있다. 임의의 실시예들에서, 질의 및 주석 데이터베이스(116)로부터의 정보는 병렬 검색 시스템들(112)에 주기적으로 푸싱되고, 정보의 임의의 관련 부분들을 병렬 검색 시스템들(112)의 각각의 개별 데이터베이스들(114)로 통합한다.
컴퓨터 네트워크(100)는 선택적으로 용어 질의들에 응답하여 검색들을 수행하기 위한 용어 질의 서버 시스템(118)을 포함한다. 용어 질의는 이미지를 포함하는 시각 질의에 반대되는, 하나 이상의 용어들을 포함하는 질의이다. 용어 질의 서버 시스템(118)은 시각 질의 서버 시스템(106)에서 다양한 검색 엔진들에 의해 산출되는 정보를 보충하는 검색 결과들을 발생시키기 위해 사용될 수 있다. 용어 질의 서버 시스템(118)으로부터 리턴되는 결과들은 임의의 포맷을 포함할 수 있다. 용어 질의 서버 시스템(118)은 텍스트 문서들, 이미지들, 비디오 등을 포함할 수 있다. 용어 질의 서버 시스템(118)이 도 1에 분리된 시스템으로 도시되었지만, 선택적으로 시각 질의 서버 시스템(106)은 용어 질의 서버 시스템(118)을 포함할 수 있다.
시각 질의 서버 시스템(106)의 동작에 관한 부가적인 정보는 도 2-4에서 흐름도들에 관하여 아래 제공된다.
도 2는 본 발명의 특정 실시예들에 따라, 시각 질의에 응답하기 위한 시각 질의 서버 시스템 방법을 도시하는 흐름도이다. 도 2에 도시된 동작들의 각각은 컴퓨터 메모리 또는 컴퓨터 판독가능한 저장 매체에 저장되는 명령들에 대응할 수 있다.
시각 질의 서버 시스템은 클라이언트 시스템으로부터 시각 질의를 수신한다(202). 예를 들어, 클라이언트 시스템은 데스크톱 컴퓨터 디바이스, 모바일 디바이스 또는 도 1을 참조하여 설명되는 다른 유사한 디바이스일 수 있다(204). 예시적인 클라이언트 시스템에서 예시적인 시각 질의는 도 11에 도시된다.
시각 질의는 임의의 적합한 포맷의 이미지 문서이다. 예를 들어, 시각 질의는 사진, 스크린 샷, 스캔된 이미지 또는 프레임 또는 비디오의 다수의 프레임들의 시퀀스일 수 있다(206). 임의의 실시예들에서, 시각 질의는 콘텐츠 저작 프로그램(736, 도 5)에 의해 산출되는 그림이다. 따라서, 임의의 실시예들에서, 사용자는 시각 질의를 "그리는" 반면, 다른 실시예들에서, 사용자는 시각 질의를 스캔하거나 또는 사진 찍는다. 임의의 시각 질의들은 아크로바트(Acrobat), 사진 편집 프로그램, 그림 프로그램 또는 이미지 편집 프로그램과 같은 이미지 발생 애플리케이션을 사용하여 생성된다. 예를 들어, 시각 질의는, 사용자가 자신의 휴대 전화에서 자신의 친구의 사진을 찍고 그 다음에 서버 시스템에 시각 질의로서 사진을 제출하는 것으로부터 올 수 있다. 시각 질의는 또한, 사용자가 잡지의 페이지를 스캔하거나 또는 데스크톱 컴퓨터에서 웹페이지의 스크린 샷을 취하고 그 다음에 서버 시스템에 시각 질의로서 스캔 또는 스크린 샷을 제출하는 것으로부터 올 수 있다. 임의의 실시예들에서, 시각 질의는 브라우저 애플리케이션의 검색 엔진 확장을 통해, 브라우저 애플리케이션에 대한 플러그-인을 통해 또는 클라이언트 시스템(102)에 의해 실행되는 검색 애플리케이션에 의해 서버 시스템(106)에 제출된다. 시각 질의들은 또한 클라이언트 시스템에 의해 원격으로 위치된 서버에 전송될 수 있는 이미지들을 지원 또는 발생시키는 다른 애플리케이션 프로그램들(클라이언트 시스템에 의해 실행됨)에 의해 제출될 수 있다.
시각 질의는 텍스트 및 비-텍스트 엘리먼트들의 조합일 수 있다(208). 예를 들어, 질의는 도로 표지판 옆에 서있는 사람과 같은, 이미지들 및 텍스트를 포함하는 잡지 페이지의 스캔일 수 있다. 시각 질의는 클라이언트 시스템에 임베딩된 카메라에 의해 촬영되는, 사람의 얼굴의 이미지 또는 클라이언트 시스템에 의해 스캔되거나 그렇지 않으면 수신되는 문서를 포함할 수 있다. 시각 질의는 또한 텍스트만을 포함하는 문서의 스캔일 수 있다. 시각 질의는 또한 숲 속의 여러 새들, 사람 및 오브젝트(예를 들어, 차, 공원 벤치 등), 사람 및 동물(예를 들어, 애완동물, 농장 동물, 나비 등)과 같은 많은 별개의 서브젝트들의 이미지일 수 있다. 시각 질의들은 둘 이상의 별개의 엘리먼트들을 가질 수 있다. 예를 들어, 시각 질의는 물건의 바코드 및 이미지 또는 물건 포장의 물건 명칭을 포함할 수 있다. 예를 들어, 시각 질의는 책의 타이틀, 커버 아트 및 바코드를 포함하는 책 커버의 사진일 수 있다. 임의의 예시들에서, 하나의 시각 질의는 아래에 더 상세히 논의되는 바와 같이, 시각 질의의 상이한 부분들에 대응하는 둘 이상의 별개의 검색 결과들을 산출할 것이다.
서버 시스템은 아래와 같은 시각 질의를 프로세싱한다. 프론트 엔드 서버 시스템은 동시 프로세싱을 위해 복수의 병렬 검색 시스템들에 시각 질의를 송신한다(210). 각 검색 시스템은 별개의 시각 질의 검색 프로세스를 구현하고, 즉, 개별 검색 시스템은 자신의 고유의 프로세싱 방식에 의해 시각 질의를 프로세싱한다.
임의의 실시예들에서, 프로세싱을 위해 시각 질의가 송신되는 검색 시스템들 중 하나는 광학식 문자 인식(OCR) 검색 시스템이다. 임의의 실시예들에서, 프로세싱을 위해 시각 질의가 송신되는 검색 시스템들 중 하나는 얼굴 인식 검색 시스템이다. 임의의 실시예들에서, 별개의 시각 질의 검색 프로세스들을 실행하는 복수의 검색 시스템들은 적어도, 광학식 문자 인식(OCR), 얼굴 인식, 및 OCR 및 얼굴 인식 외에 다른 이미지에 의한 질의 프로세스를 포함한다(212). 다른 이미지에 의한 질의 프로세스는 물건 인식, 바 코드 인식, 오브젝트-또는-오브젝트-카테고리 인식, 명명 엔티티 인식 및 색 인식을 포함하는(이에 제한되지 않음) 프로세스들의 세트로부터 선택된다(212).
임의의 실시예들에서, 명명 엔티티 인식은 OCR 검색 시스템의 포스트 프로세스로서 발생하고, OCR의 텍스트 결과는 유명한 사람들, 위치들, 오브젝트들 등에 대하여 분석되고, 그 다음에 명명 엔티티들로서 식별되는 용어들은 용어 질의 서버 시스템(118, 도 1)에서 검색된다. 다른 실시예들에서, 유명한 랜드마크들, 로고들, 사람들, 앨범 커버들, 상표들 등의 이미지들은 이미지-대-용어들 검색 시스템에 의해 인식된다. 다른 실시예들에서, 이미지-대-용어들 검색 시스템으로부터 분리된 별개의 명명 엔티티 이미지에 의한 질의 프로세스가 이용된다. 오브젝트-또는-오브젝트 카테고리 인식 시스템은 "차"와 같은 포괄적인 결과 타입들을 인식한다. 임의의 실시예들에서, 이 시스템은 물건 브랜드들, 특정 물건 모델들 등을 인식하고, "포르쉐"와 같은 더 상세한 설명들을 제공한다. 검색 시스템들 중 일부는 특별 사용자 특유 검색 시스템들일 수 있다. 예를 들어, 색 인식 및 얼굴 인식의 특정 버전들은 블라인드에 의해 사용되는 특별 검색 시스템들일 수 있다.
프론트 엔드 서버 시스템은 병렬 검색 시스템들로부터 결과들을 수신한다(214). 임의의 실시예들에서, 결과들은 검색 스코어를 동반한다. 임의의 시각 질의들에 대하여, 검색 시스템들 중 일부는 관련 결과들을 발견하지 않을 것이다. 예를 들어, 시각 질의가 꽃의 사진인 경우, 얼굴 인식 검색 시스템 및 바 코드 검색 시스템은 임의의 관련 결과들을 발견하지 않을 것이다. 임의의 실시예들에서, 관련 결과들이 발견되지 않은 경우, 널 또는 제로 검색 스코어가 상기 검색 시스템으로부터 수신된다(216). 임의의 실시예들에서, 프론트 엔드 서버가 미리-정의된 시간의 기간(예를 들어, 0.2, 0.5, 1, 2 또는 5 초들) 후에 검색 시스템으로부터 결과를 수신하지 않는 경우, 타임 아웃된 서버가 널 검색 스코어를 산출한 것처럼 수신된 결과들을 프로세싱할 것이고 다른 검색 시스템들로부터 수신된 결과들을 프로세싱할 것이다.
선택적으로, 수신된 검색 결과들 중 적어도 둘이 미리-정의된 기준을 만족시킬 때, 이들은 순위화된다(218). 임의의 실시예들에서, 미리 정의된 기준 중 하나는 무효 결과들을 배제한다. 미리-정의된 기준은 결과들이 무효이지 않다는 것이다. 임의의 실시예들에서, 미리 정의된 기준 중 하나는 미리-정의된 최소 스코어 미만에 있는 숫자 스코어를 가지는 결과들(예를 들어, 관련 팩터들에 대하여)을 배제한다. 선택적으로 복수의 검색 결과들이 필터링된다(220). 임의의 실시예들에서, 결과들은 결과들의 총 수가 미리-정의된 임계치를 초과하는 경우에만 필터링된다. 임의의 실시예들에서, 모든 결과들이 순위화되지만 미리-정의된 최소 스코어 미만에 있는 결과들은 배제된다. 임의의 시각 질의들에 대하여, 결과들의 콘텐츠가 필터링된다. 예를 들어, 결과들의 일부가 사설 정보 또는 개인 보호 정보를 포함하는 경우, 이러한 결과들은 필터링되어 제외된다.
선택적으로, 시각 질의 서버 시스템은 복합 검색 결과를 생성한다(222). 이의 일 실시예는 도 3에 관하여 설명된 바와 같이, 상호작용 결과 문서에 둘 이상의 검색 시스템 결과가 임베딩될 때이다. 용어 질의 서버 시스템(118, 도 1)은 용어 검색으로부터의 결과들로 병렬 검색 시스템들 중 하나로부터의 결과들을 보강할 수 있고, 부가적인 결과들은 문서들 또는 정보 소스들에 대한 링크들 또는 텍스트 및/또는 시각 질의에 관련될 수 있는 부가적인 정보를 포함하는 이미지들이다. 그러므로, 예를 들어, 복합 검색 결과는 OCR 결과 및 OCR 문서에서 명명 엔티티에 대한 링크를 포함할 수 있다(224).
임의의 실시예들에서, OCR 검색 시스템(112-B, 도 1) 또는 프론트 엔드 시각 질의 프로세싱 서버(110, 도 1)는 텍스트에서 비슷한 관련 단어들을 인식한다. 예를 들어, 유명한 사람들 또는 장소들과 같은 명명 엔티티들을 인식할 수 있다. 명명 엔티티들은 용어 질의 서버 시스템(118, 도 1)에 질의 용어들로서 제출된다. 임의의 실시예들에서, 용어 질의 서버 시스템에 의해 산출되는 용어 질의 결과들은 "링크"로서 시각 질의 결과에 임베딩된다. 임의의 실시예들에서, 용어 질의 결과들은 분리된 링크들로서 리턴된다. 예를 들어, 책 커버의 사진이 시각 질의인 경우, 오브젝트 인식 검색 시스템이 책에 대한 고 스코어 히트를 산출할 가능성이 높다. 따라서, 책의 타이틀에 대한 용어 질의는 용어 질의 서버 시스템(118)에서 실행될 수 있고 용어 질의 결과들은 시각 질의 결과들과 함께 리턴된다. 임의의 실시예들에서, 용어 질의 결과들은 시각 질의 결과들로부터 자신들을 구별하기 위해 라벨링된 그룹으로 제시된다. 결과들은 개별적으로 검색될 수 있거나, 검색은 특히 관련된 부가적인 검색 결과들을 산출하기 위해 검색 질의에서 모든 인식된 명명 엔티티들을 사용하여 수행될 수 있다. 예를 들어, 시각 질의가 파리(Paris)에 관한 스캐닝된 여행 브로슈어인 경우, 리턴된 결과는 용어 질의 "노틀 담"에서 검색을 개시하기 위해 용어 질의 서버 시스템(118)에 대한 링크들을 포함할 수 있다. 유사하게, 복합 검색 결과들은 인식된 유명한 이미지들에 대한 텍스트 검색들로부터의 결과들을 포함한다. 예를 들어, 동일한 여행 브로슈어에서, "에펠 탑" 및 "루브르"와 같은 브로슈어에서 사진들로 도시된 유명한 목적지들에 대한 용어 질의 결과들에 대한 라이브 링크들이 또한 도시될 수 있다(용어들 "에펠 탑" 및 "루브르"는 브로슈어 자신에서 나타나지 않을 수 있는 경우에도).
시각 질의 서버 시스템은 그 다음에 클라이언트 시스템에 적어도 하나의 결과를 송신한다(226). 전형적으로, 시각 질의 프로세싱 서버가 복수의 검색 시스템들 중 적어도 일부로부터 복수의 검색 결과들을 수신하는 경우, 시각 질의 프로세싱 서버는 클라이언트 시스템에 복수의 검색 결과들 중 적어도 하나를 송신할 것이다. 임의의 시각 질의들에 대하여, 오직 하나의 검색 시스템이 관련 결과들을 리턴할 것이다. 예를 들어, 텍스트의 이미지만을 포함하는 시각 질의에서, 오직 OCR 서버의 결과들이 관련될 수 있다. 임의의 시각 질의들에 대하여, 하나의 검색 시스템으로부터의 오직 하나의 결과가 관련될 수 있다. 예를 들어, 스캐닝된 바 코드에 관련된 물건만이 관련될 수 있다. 이러한 예시들에서, 프론트 엔드 시각 프로세싱 서버는 관련 검색 결과(들)만을 리턴할 것이다. 임의의 시각 질의들에 대하여, 복수의 검색 결과들은 클라이언트 시스템에 송신되고, 복수의 검색 결과들은 병렬 검색 시스템들 중 둘 이상으로부터의 검색 결과들을 포함한다(228). 이는 둘 이상의 별개 이미지가 시각 질의에 있을 때 발생할 수 있다. 예를 들어, 시각 질의가 말을 타는 사람의 사진인 경우, 사람의 얼굴 인식의 결과들은 말에 대한 오브젝트 인식 결과들과 함께 디스플레이될 수 있다. 임의의 실시예들에서, 이미지 검색 시스템에 의한 특정 질의에 대한 모든 결과들은 함께 그룹화되고 제시된다. 예를 들어, 상위 N개의 얼굴 인식 결과들은 제목 "얼굴 인식 결과들" 하에서 디스플레이되고 상위 N개의 오브젝트 인식 결과들은 제목 "오브젝트 인식 결과들" 하에서 함께 디스플레이된다. 대안적으로, 아래에 논의되는 바와 같이, 특정 이미지 검색 시스템으로부터의 검색 결과들은 이미지 영역에 의해 그룹화될 수 있다. 예를 들어, 시각 질의가 두 개의 얼굴들을 포함하는 경우, 두 얼굴 모두는 얼굴 인식 결과들을 산출하고, 각 얼굴에 대한 결과들은 별개의 그룹으로 제시될 수 있다. 임의의 시각 질의들(예를 들어, 텍스트 및 하나 이상의 오브젝트들 둘 다의 이미지를 포함하는 시각 질의)에 대하여, 검색 결과들은 OCR 결과들 및 하나 이상의 이미지-매칭 결과들 둘 다를 포함할 수 있다(230).
임의의 실시예들에서, 사용자는 특정 검색 결과에 관해 더 알게 되기를 원할 수 있다. 예를 들어, 시각 질의가 돌고래의 사진이고 "이미지 대 용어들" 검색 시스템이 아래의 용어들 "물", "돌고래", "파란색" 및 "물갈퀴"를 리턴하는 경우, 사용자는 "물갈퀴"에서 텍스트 기반 질의 용어 검색을 실행하기를 원할 수 있다. 사용자가 용어 질의(예를 들어, 검색 결과들에서 대응하는 링크를 클릭하거나 그렇지 않으면 선택하는 사용자에 의해 나타내는)에서 검색을 실행하기를 원할 때, 질의 용어 서버 시스템(118, 도 1)이 액세스되고, 선택된 용어(들)상에서 검색이 실행된다. 대응하는 검색 용어 결과들이 시각 질의 결과들과 함께 또는 분리하여 클라이언트 시스템상에 디스플레이된다(232). 임의의 실시예들에서, 프론트 엔드 시각 질의 프로세싱 서버(110, 도 1)는 자동으로(즉, 초기 시각 질의 외에 어떤 사용자 커맨드도 수신하지 않고) 시각 질의에 대한 하나 이상의 상위 잠재 결과들을 선택하고, 용어 질의 서버 시스템(118)상에 이 텍스트 결과들을 실행하고 그 다음에 클라이언트 시스템에 적어도 하나의 검색 결과를 송신하는 일부로서 클라이언트 시스템에 시각 질의 결과와 함께 이 용어 질의 결과들을 리턴한다(232). 상기 예시에서, "물갈퀴"가 돌고래의 시각 질의 사진에 대한 제 1 용어 결과인 경우, 프론트 엔드 서버는 "물갈퀴"에서 용어 질의를 실행하고 클라이언트 시스템에 시각 질의 결과들과 함께 이러한 용어 질의 결과들을 리턴한다. 사용자에 의해 선택될 것으로 고려되는 용어 결과가 시각 질의로부터 사용자에게 검색 결과들을 송신하기 전에 자동으로 실행되는 이 실시예는 사용자 시간을 절약한다. 임의의 실시예들에서, 이러한 결과들은 상기 설명된 바와 같이 복합 검색 결과로서 디스플레이된다(222). 다른 실시예들에서, 결과들은 복합 검색 결과 대신에 또는 복합 검색 결과 외에 검색 결과 리스트의 부분이다.
도 3은 상호작용 결과 문서를 이용하여 시각 질의에 응답하기 위한 프로세스를 도시하는 흐름도이다. 처음 세 개의 동작들(202, 210, 214)이 도 2를 참조하여 상기 설명된다. 병렬 검색 시스템들(214)로부터 수신되는 검색 결과들로부터, 상호작용 결과 문서가 생성된다(302).
상호작용 결과 문서의 생성(302)은 이제 상세히 설명될 것이다. 임의의 시각 질의들에 대하여, 상호작용 결과 문서는 시각 질의의 각각의 서브-부분들의 하나 이상의 시각 식별자들을 포함한다. 각 시각 식별자는 검색 결과들 중 적어도 하나에 대한 적어도 하나의 사용자 선택가능한 링크를 가진다. 시각 식별자는 시각 질의의 각각의 서브-부분을 식별한다. 임의의 시각 질의들에 대하여, 상호작용 결과 문서는 하나 이상의 결과들에 대한 하나의 사용자 선택가능한 링크를 가진 오직 하나의 시각 식별자를 가진다. 임의의 실시예들에서, 검색 결과들 중 하나 이상에 대한 각각의 사용자 선택가능한 링크는 활성 영역을 가지고, 활성 영역은 대응하는 시각 식별자와 연관된 시각 질의의 서브-부분에 대응한다.
임의의 실시예들에서, 시각 식별자는 바운딩 박스(304)이다. 임의의 실시예들에서, 바운딩 박스는 도 12a에 도시된 바와 같이 시각 질의의 서브-부분을 둘러싼다. 바운딩 박스는 정사각형 또는 직사각형 박스 형상일 필요가 없고, (예를 들어, 시각 질의의 오브젝트, 시각 질의의 엔티티 또는 시각 질의의 영역에 대해), 원형, 타원형, 등각, 불규칙 또는 도 12에 도시된 바와 같이 임의의 다른 형상일 수 있다. 임의의 시각 질의들에 대하여, 바운딩 박스는 시각 질의의 서브-부분에서 식별가능한 엔티티의 경계의 윤곽을 나타낸다(306). 임의의 실시예들에서, 각 바운딩 박스는 하나 이상의 검색 결과들에 대한 사용자 선택가능한 링크를 포함하고, 사용자 선택가능한 링크는 바운딩 박스에 의해 서라운딩되는 시각 질의의 서브-부분에 대응하는 활성 영역을 가진다. 바운딩 박스 내의 공간이(사용자 선택가능한 링크의 활성 영역) 사용자에 의해 선택될 때, 윤곽이 나타내어진 서브-부분에서 이미지에 대응하는 검색 결과들이 리턴된다.
임의의 실시예들에서, 시각 식별자는 도 14에 도시된 바와 같은 라벨이다(307). 임의의 실시예들에서, 라벨은 시각 질의의 각각의 서브-부분에서 이미지와 연관되는 적어도 하나의 용어를 포함한다. 각 라벨은 각각의 서브-부분에 또는 그 주위에 상호작용 결과 문서로 표시하기 위해 포맷된다. 임의의 실시예들에서 라벨들은 색 코딩된다.
임의의 실시예들에서, 각 개별적인 시각 식별자들은 시각 질의의 각각의 서브-부분에서 인식된 엔티티의 타입에 따라 시각적으로 구별되는 방식으로 표시하기 위해 포맷된다. 예를 들어, 도 13에 도시된 바와 같이, 물건, 사람, 상표 및 두 개의 텍스트 영역들 주위의 바운딩 박스들은 각각 상이하게 색칠된 투명 바운딩 박스들을 표시하는, 별개의 크로스-해칭 패턴들로 표시된다. 임의의 실시예들에서, 시각 식별자들은 오버레이 색, 오버레이 패턴, 라벨 배경 색, 라벨 배경 패턴, 라벨 폰트 색 및 경계 색과 같은 시각적으로 구별되는 방식들로 표시하기 위해 포맷된다.
임의의 실시예들에서, 상호작용 결과 문서의 사용자 선택가능한 링크는 시각 질의의 대응하는 서브-부분에 관련된 하나 이상의 결과들을 포함하는 문서 또는 오브젝트에 대한 링크이다(308). 임의의 실시예들에서, 적어도 하나의 검색 결과는 시각 질의의 대응하는 서브-부분에 관련된 데이터를 포함한다. 따라서, 사용자가 각각의 서브-부분과 연관된 선택가능한 링크를 선택할 때, 사용자는 시각 질의의 각각의 서브-부분에서 인식된 엔티티에 대응하는 검색 결과들로 안내된다.
예를 들어, 시각 질의가 바 코드의 사진이었던 경우, 바 코드가 부착된 포장의 관련된 부분들인 사진의 부분들이 존재할 수 있다. 상호작용 결과 문서는 오직 바 코드 주위만의 바운딩 박스를 포함할 수 있다. 윤곽이 나타내어진 바 코드 바운딩 박스 내에서 사용자가 선택할 때, 바 코드 검색 결과가 디스플레이된다. 바 코드 검색 결과는 하나의 결과, 상기 바 코드에 대응하는 물건의 명칭을 포함할 수 있거나, 또는 바 코드 결과들은 물건이 구입, 리뷰 등이 될 수 있는 다양한 장소들과 같은 여러 결과들을 포함할 수 있다.
임의의 실시예들에서, 개별적인 시각 식별자에 대응하는 시각 질의의 서브-부분이 하나 이상의 용어들을 포함하는 텍스트를 포함할 때, 개별적인 시각 식별자에 대응하는 검색 결과들은 텍스트의 용어들 중 적어도 하나에 대한 용어 질의 검색으로부터의 결과들을 포함한다. 임의의 실시예들에서, 개별적인 시각 식별자에 대응하는 시각 질의의 서브-부분이 미리 정의된 신뢰성(또는 다른) 기준을 만족시키는, 적어도 하나의 매칭(즉, 검색 결과)이 발견되는 사람의 얼굴을 포함할 때, 개별적인 시각 식별자에 대응하는 검색 결과들은 명칭, 핸들, 컨택트 정보, 어카운트 정보, 주소 정보, 선택가능한 서브-부분에 포함된 얼굴을 갖는 사람과 연관된 관련 모바일 디바이스의 현재 위치, 선택가능한 서브-부분에 포함된 얼굴을 갖는 사람의 다른 이미지들 및 그 사람의 얼굴에 대한 잠재 이미지 매칭들 중 하나 이상을 포함한다. 임의의 실시예들에서, 개별적인 시각 식별자에 대응하는 시각 질의의 서브-부분이 미리 정의된 신뢰성(또는 다른) 기준을 만족하는, 적어도 하나의 매칭(즉, 검색 결과)이 발견되는 물건을 포함할 때, 개별적인 시각 식별자에 대응하는 검색 결과들은 물건 정보, 물건 리뷰, 물건의 구입을 개시하기 위한 옵션, 물건에 입찰을 개시하기 위한 옵션, 유사한 물건들의 리스트 및 관련된 물건들의 리스트 중 하나 이상을 포함한다.
선택적으로, 상호 작용 결과 문서에서 개별적인 사용자 선택가능한 링크는 앵커(anchor) 텍스트를 포함하고, 이는 링크를 활성함이 없이 문서에 디스플레이된다. 앵커 텍스트는 링크가 활성화될 때 획득되는 정보에 관련된 키 워드 또는 용어와 같은 정보를 제공한다. 앵커 텍스트는 라벨의 일부로서 디스플레이되거나(307) 또는 바운딩 박스의 부분에 디스플레이되거나(304) 또는 사용자가 1초와 같은 미리-결정된 시간의 기간에 대한 사용자 선택가능한 링크 위에 커서를 맴돌게 할 때 디스플레이되는 부가적인 정보로서 디스플레이될 수 있다.
선택적으로, 상호작용 결과 문서에서 개별적인 사용자 선택가능한 링크는 텍스트-기반 질의(때때로 용어 질의로 본 명세서에서 지칭됨)에 대응하는 문서들 또는 정보를 검색하기 위한 검색 엔진에 대한 링크이다. 링크의 활성화는 검색 엔진에 의한 검색의 실행을 야기하고, 질의 및 검색 엔진은 클라이언트 시스템에 리턴되는 결과들을 가진, 링크에 의해 특정된다(예를 들어, 검색 엔진은 링크에서 URL에 의해 특정되고 텍스트-기반 검색 질의는 링크의 URL 파라미터에 의해 특정됨). 선택적으로, 이 실시예에서 링크는 검색 질의에서 용어들 또는 텍스트를 명시하는 앵커 텍스트를 포함할 수 있다.
임의의 실시예들에서, 시각 질의에 응답하여 산출되는 상호작용 결과 문서는 동일한 검색 시스템으로부터의 결과들에 대응하는 복수의 링크들을 포함할 수 있다. 예를 들어, 시각 질의는 사람들의 그룹의 사진 또는 이미지일 수 있다. 상호작용 결과 문서는 각 사람 주위에 바운딩 박스들을 포함할 수 있고, 활성화될 때 그룹에서 각 얼굴에 대하여 얼굴 인식 검색 시스템으로부터 결과들을 리턴한다. 임의의 시각 질의들에 대하여, 상호작용 결과 문서에서 복수의 링크들은 둘 이상의 검색 시스템으로부터의 검색 결과들에 대응한다(310). 예를 들어, 사람 및 개의 사진이 시각 질의로서 제출되었던 경우, 상호작용 결과 문서에서 바운딩 박스들은 사람 및 개를 분리하여 윤곽을 나타낼 수 있다. (상호작용 결과 문서에서) 개인이 선택될 때, 얼굴 인식 검색 시스템으로부터 검색 결과들이 리턴되고, (상호작용 결과 문서에서) 개가 선택될 때, 이미지-대-용어들 검색 시스템으로부터 결과들이 리턴된다. 임의의 시각 질의들에 대하여, 상호작용 결과 문서는 OCR 결과 및 이미지 매칭 결과를 포함한다(312). 예를 들어, 표지판 옆에 서있는 사람의 사진이 시각 질의로서 제출되는 경우, 상호작용 결과 문서는 표지판의 텍스트에 대하여 그리고 사람에 대하여 시각 식별자들을 포함할 수 있다. 유사하게, 잡지의 스캔이 시각 질의로서 사용되는 경우, 상호작용 결과 문서는 또한 상기 페이지에서 기사의 텍스트에 대한 시각 식별자뿐만 아니라 페이지 상에서 광고들에서 사진들 또는 상표들에 대한 시각 식별자들을 포함할 수 있다.
상호작용 결과 문서가 생성된 후, 클라이언트 시스템에 송신된다(314). 임의의 실시예들에서, 상호작용 결과 문서(예를 들어, 문서(1200), 도 15)는 도 2를 참조하여 상기 설명된 바와 같이, 하나 이상의 병렬 검색 시스템들로부터 검색 결과들의 리스트와 함께 송신된다. 임의의 실시예들에서, 상호작용 결과 문서는 도 15에 도시된 바와 같이 하나 이상의 병렬 검색 시스템들로부터 검색 결과들의 리스트 위에 또는 그렇지 않으면 상기 리스트에 인접하여 클라이언트 시스템에서 디스플레이된다(315).
선택적으로, 사용자는 결과 문서에서 시각 식별자를 선택함으로써 결과 문서와 상호작용할 것이다. 서버 시스템은 상호 결과 문서에서 시각 식별자의 사용자 선택에 관한 정보를 클라이언트 시스템으로부터 수신한다(316). 상기 논의된 바와 같이, 임의의 실시예들에서, 링크는 바운딩 박스 내에 활성 영역을 선택함으로써 활성화된다. 다른 실시예들에서, 링크는 바운딩 박스가 아닌, 시각 질의의 서브-부분의 시각 식별자의 사용자 선택에 의해 활성화된다. 임의의 실시예들에서, 링크된 시각 식별자가 핫 버튼, 서브-부분 근처에 위치된 라벨, 텍스트에서 밑줄쳐진 단어 또는 시각 질의에서 오브젝트 또는 서브젝트의 다른 표시이다.
검색 결과 리스트가 상호작용 결과 문서로 표시되는(315) 실시예들에서, 사용자가 사용자 선택가능한 링크를 선택할 때(316), 선택된 링크에 대응하는 검색 결과 리스트에서 검색 결과가 식별된다. 임의의 실시예들에서, 커서는 선택된 링크에 대응하는 제 1 결과를 점프하거나 또는 자동으로 제 1 결과로 이동할 것이다. 클라이언트(102)의 디스플레이가 상호작용 결과 문서 및 전체 검색 결과 리스트 둘 다를 디스플레이하기에는 너무 작은 임의의 실시예들에서, 상호작용 결과 문서에서 링크를 선택하는 것은 선택된 링크에 대응하는 적어도 하나의 제 1 결과를 디스플레이하도록 검색 결과 리스트를 스크롤 또는 점프하게 한다. 임의의 다른 실시예들에서, 상호작용 결과 문서에서 링크의 사용자 선택에 응답하여 결과 리스트는 결과 리스트의 상부에서 링크에 대응하는 제 1 결과가 디스플레이되도록 다시 순서화된다.
임의의 실시예들에서, 사용자가 사용자 선택가능한 링크를 선택할 때(316), 시각 질의 서버 시스템은 사용자에 디스플레이하기 위해 클라이언트에 시각 질의의 대응하는 서브-부분에 관련된 결과들의 적어도 서브세트를 송신한다(318). 임의의 실시예들에서, 사용자는 동시에 다수의 시각 식별자들을 선택할 수 있고 선택된 시각 식별자들 모두에 대한 결과들의 서브세트를 동시에 수신할 것이다. 다른 실시예들에서, 사용자 선택가능한 링크들에 대응하는 검색 결과들은, 상호작용 결과 문서의 하나 이상의 링크들의 사용자 선택에 응답하여 순간적으로 가상으로 사용자에게 검색 결과들을 제공하도록 사용자 선택가능한 링크들 중 일부의 사용자 선택 전에 클라이언트에 선로딩된다.
도 4는 클라이언트 및 시각 질의 서버 시스템 사이에서의 통신들을 도시하는 흐름도이다. 클라이언트(102)는 사용자/질의자로부터 시각 질의를 수신한다(402). 임의의 실시예들에서, 시각 질의들은 시각 질의 시스템에 사인 업 또는 "사전 동의(opt in)"되는 사용자들로부터만 수용될 수 있다. 임의의 실시예들에서, 얼굴 인식 매칭들에 대한 검색들은 얼굴 인식 시각 질의 시스템에 대하여 사인 업한 사용자들에 대해서만 수행되는 반면, 시각 질의들의 다른 타입들은 사용자들이 얼굴 인식 부분에 "사전 동의"했는지에 관계없이 누구에 대해서도 수행된다.
상기 설명된 바와 같이 시각 질의의 포맷은 많은 형태들을 취할 수 있다. 시각 질의는 시각 질의 문서의 서브-부분들에 위치된 하나 이상의 서브젝트들을 포함할 가능성이 있을 것이다. 임의의 시각 질의들에 대하여, 클라이언트 시스템(102)은 시각 질의에 타입 인식 선-프로세싱을 수행한다(404). 임의의 실시예들에서, 클라이언트 시스템(102)은 이 선-프로세싱 시스템에서 특정 인식가능한 패턴들을 검색한다. 예를 들어, 임의의 시각 질의들에 대하여 클라이언트는 색들을 인식할 수 있다. 임의의 시각 질의들에 대하여, 클라이언트는 특정 서브-부분이 텍스트를 포함할 가능성이 있음을 인식할 수 있다(상기 영역이 빛 공간 등에 의해 서라운딩된 작은 어두운 문자들로 이루어지기 때문에). 클라이언트는 임의의 수의 선-프로세싱 타입 인식기들 또는 타입 인식 모듈들을 포함할 수 있다. 임의의 실시예들에서, 클라이언트는 바 코드들을 인식하기 위해 타입 인식 모듈을 가질 것이다(바코드 인식(406)). 직사각형 영역에서 독특한 줄무늬 패턴을 인식함으로써 그렇게 할 수 있다. 임의의 실시예들에서, 클라이언트는 시각 질의의 서브-부분 또는 특정 서브젝트가 얼굴을 포함할 가능성이 있음을 인식하기 위해 타입 인식 모듈을 가질 것이다(얼굴 검출(408)).
임의의 실시예들에서, 인식된 "타입"은 확인을 위해 사용자에 리턴된다. 예를 들어, 클라이언트 시스템(102)은 "바 코드가 당신의 시각 질의에서 발견되었다, 당신은 바 코드 질의 결과들을 수신하는데 관심이 있는가?"라고 말하는 메시지를 리턴할 수 있다. 임의의 실시예들에서, 메시지는 타입이 발견되는 시각 질의의 서브-부분도 나타낼 수 있다. 임의의 실시예들에서, 이 표시는 도 3을 참조하여 설명된 상호작용 결과 문서와 유사하다. 예를 들어, 시각 질의의 서브-부분의 윤곽을 나타낼 수 있고, 서브-부분이 얼굴을 포함할 가능성이 있음을 나타내고 사용자에게 자신들이 얼굴 인식 결과들을 수신하는데 관심이 있는지를 물을 수 있다.
클라이언트(102)가 시각 질의의 선택적 선-프로세싱을 수행한 후, 클라이언트는 시각 질의 서버 시스템(106)에, 특히 프론트 엔드 시각 질의 프로세싱 서버(110)에 시각 질의를 송신한다. 임의의 실시예들에서, 선-프로세싱이 관련 결과들을 산출한 경우, 즉, 타입 인식 모듈들 중 하나가 질의 또는 질의의 서브-부분이 특정 타입(얼굴, 텍스트, 바코드 등)일 가능성이 있음을 나타내는, 특정 임계치 초과의 결과들을 산출하는 경우, 클라이언트는 선-프로세싱의 결과들에 관한 정보를 패스할 것이다. 예를 들어, 클라이언트는 얼굴 인식 모듈이 시각 질의의 특정 서브-부분이 얼굴을 포함한다고 75% 확신한다고 나타낼 수 있다. 더 일반적으로, 선-프로세싱 결과들은, 존재한다면, 하나 이상의 서브젝트 타입 값들(예를 들어, 바 코드, 얼굴, 텍스트 등)을 포함한다. 선택적으로, 시각 질의 서버 시스템에 송신된 선-프로세싱 결과들은, 선-프로세싱 결과들에서 각 서브젝트 타입에 대하여 서브젝트 타입 값에 대응하는 시각 질의의 서브-부분을 식별하는 정보 및 선-프로세싱 결과들에서 각 서브젝트 타입에 대하여, 시각 질의의 대응하는 서브-부분의 식별 및/또는 서브젝트 타입 값에서 확신의 레벨을 나타내는 확신 값 중 하나 이상을 포함한다.
프론트 엔드 서버(110)는 클라이언트 시스템으로부터 시각 질의를 수신한다(202). 수신되는 시각 질의는 상기 논의된 선-프로세싱 정보를 포함할 수 있다. 상기 설명된 바와 같이, 프론트 엔드 서버는 복수의 병렬 검색 시스템들에 시각 질의를 송신한다(210). 프론트 엔드 서버(110)가 서브-부분이 특정 타입의 서브젝트를 포함하는 가능성에 관한 선-프로세싱 정보를 수신한 경우, 프론트 엔드 서버는 병렬 검색 시스템들 중 하나 이상에 따라 이 정보를 패스할 수 있다. 예를 들어, 얼굴 인식 검색 시스템(112-A)이 먼저 시각 질의의 그 서브섹션을 프로세싱할 수 있도록 특정 서브-부분이 얼굴일 가능성이 있다는 정보를 패스할 수 있다. 유사하게, (특정 서브-부분이 얼굴일 가능성이 있다는) 동일 정보의 송신은 그 서브-부분을 무시 또는 다른 서브-부분들을 먼저 분석하기 위해 다른 병렬 검색 시스템들에 의해 사용될 수 있다. 임의의 실시예들에서, 프론트 엔드 서버는 병렬 검색 시스템들에 선-프로세싱 정보를 패스하지 않을 것이지만, 병렬 검색 시스템들로부터 수신되는 결과들을 프로세싱할 방법을 보강하기 위해 이 정보를 대신 사용할 것이다.
도 2를 참조하여 설명된 바와 같이, 얼마 정도의 시각 질의들에 대하여, 프론트 엔드 서버(110)는 병렬 검색 시스템들로부터 복수의 검색 결과들을 수신한다(214). 프론트 엔드 서버는 그 다음에 다양한 순위화 및 필터링을 수행할 수 있고, 도 2 및 3을 참조하여 설명되는 상호작용 검색 결과 문서를 생성할 수 있다. 프론트 엔드 서버(110)가 서브-부분이 특정 타입의 서브젝트를 포함하는 가능성에 관한 선-프로세싱 정보를 수신한 경우, 선-프로세싱된 인식된 서브젝트 타입에 매칭하는 이러한 결과들에 선호도를 부여함으로써 필터링 및 순서화할 수 있다. 상용자가 특정 타입의 결과가 요청되었다고 나타내는 경우, 프론트 엔드 서버는 결과들을 프로세싱할 때 사용자의 요청들을 고려할 것이다. 예를 들어, 프론트 엔드 서버는 사용자가 바 코드 정보를 요청한 경우에만 모든 다른 결과들을 필터링할 수 있거나 또는 프론트 엔드 서버가 다른 결과들을 리스팅하기 전에 요청된 타입에 포함되는 모든 결과들을 리스팅할 것이다. 상호작용 시각 질의 문서가 리턴된 경우, 오직 상호작용 결과 문서에 나타난 다른 서브젝트들에 대한 관련 검색들을 수행하기 위해 링크들을 제공하면서 서버는 사용자가 관심있다고 나타낸 타입의 결과와 연관된 링크들을 선-검색할 수 있다. 그 다음에 프론트 엔드 서버(110)는 클라이언트 시스템에 검색 결과들을 송신한다(226).
클라이언트(102)는 서버 시스템으로부터 결과들을 수신한다(412). 적용가능할 때, 이러한 결과들은 선-프로세싱 스테이지에서 발견된 결과의 타입에 매칭하는 결과들을 포함할 것이다. 예를 들어, 임의의 실시예들에서, 상기 결과들은 하나 이상의 바 코드 결과들을 포함하거나(414) 또는 하나 이상의 얼굴 인식 결과들을 포함할 것이다(416). 클라이언트의 선-프로세싱 모듈들이 특정 타입의 결과가 선호됐음을 나타냈고 그 결과가 발견된 경우, 상기 타입의 발견된 결과들은 두드러지게 리스팅될 것이다.
선택적으로 사용자는 결과들 중 하나 이상을 선택하거나 또는 주석을 달 것이다(418). 사용자는 하나의 검색 결과를 선택할 수 있고, 특정 타입의 검색 결과를 선택할 수 있고 그리고/또는 상호작용 결과 문서의 부분을 선택할 수 있다(420). 결과의 선택은 리턴된 결과가 질의에 관련되었다는 묵시된 피드백이다. 이러한 피드백 정보는 미래의 질의 프로세싱 동작들에 이용될 수 있다. 주석은 또한 미래의 질의 프로세싱 동작들에서 이용될 수 있는 리턴된 결과에 관한 명시적 피드백을 제공한다. 주석들은 분리된 주석(자유 형태 또는 구조된 형태) 또는 리턴된 결과의 부분들의 (오(mis)-OCR된 단어에 대한 정정과 같은) 정정들의 형태를 취한다.
동일 타입 중 여럿으로부터 "올바른" 결과를 일반적으로 선택하는(예를 들어, 얼굴 인식 서버로부터 정확한 결과를 선택하는), 하나의 검색 결과의 사용자의 선택은 해석들 사이에서의 선택으로 지칭되는 프로세스이다. 여러 상이한 타입들의 리턴된 결과들로부터 관심의 결과 "타입"을 일반적으로 선택하는, 특정 타입의 검색 결과의 사용자의 선택(예를 들어, 또한 동일 페이지 상에서 광고들에 대한 시각 결과들보다 오히려 잡지에서 기사의 OCR된 텍스트를 선택)은 의도의 명확화로 지칭되는 프로세스이다. 사용자는 도 8을 참조하여 상세히 설명된 OCR된 문서에서 특정 링크된 단어들(인식된 명명 엔티티들과 같은)을 유사하게 선택할 수 있다.
사용자는 대안적으로 또는 부가적으로 특정 검색 결과들에 주석을 달고자할 수 있다. 이 주석은 자유형 스타일 또는 구조된 포맷으로 이루어질 수 있다(422). 주석들은 결과의 설명들일 수 있거나 또는 결과의 리뷰들일 수 있다. 예를 들어, 주석들은 결과에서 서브젝트(들)의 명칭을 나타낼 수 있거나 또는 주석들은 "이는 좋은 책" 또는 "이 물건은 구입한 해 내에 망가졌다"를 나타낼 수 있다. 주석의 다른 예는 바운딩 박스 내에 서브젝트 또는 오브젝트를 식별하는 사용자-제공된 텍스트 및 시각 질의의 서브-부분 주위에 사용자에 의해 그려진 바운딩 박스이다. 사용자 주석들은 도 5를 참조하여 더 상세히 설명된다.
다른 주석들 및 검색 결과들의 사용자 선택들은 서버 시스템에 송신된다(424). 프론트 엔드 서버(110)는 선택들 및 주석들을 수신하고 추가로 이들을 프로세싱한다(426). 정보가 상호작용 결과 문서에서 오브젝트, 서브-영역 또는 용어의 선택인 경우, 상기 선택에 관한 추가의 정보는 적절히 요청될 수 있다. 예를 들어, 선택이 하나의 시각 결과인 경우, 시각 결과에 관한 더 많은 정보가 요청될 수 있다. 선택이 단어인 경우(OCR 서버 또는 이미지-대-용어들 서버로부터), 상기 용어의 텍스트 검색은 용어 질의 서버 시스템(118)에 송신될 수 있다. 선택이 얼굴 이미지 인식 검색 시스템으로부터의 사람인 경우, 상기 사람의 프로파일이 요청될 수 있다. 선택이 상호작용 검색 결과 문서의 특정 부분에 대한 것인 경우, 밑줄친 시각 질의 결과들이 요청될 수 있다.
서버 시스템이 주석을 수신하는 경우, 주석은 도 5를 참조하여 설명된, 질의 및 주석 데이터베이스(116)에 저장된다. 그 다음에 주석 데이터베이스(116)로부터의 정보는 도 7 내지 도 10을 참조하여 아래에 논의되는 바와 같이, 병렬 서버 시스템들 중 하나 이상에 대하여 개별적인 주석 데이터베이스들에 주기적으로 카피된다.
도 5는 본 발명의 일 실시예에 따라 클라이언트 시스템(102)을 도시하는 블록도이다. 클라이언트 시스템(102)은 전형적으로 하나 이상의 프로세싱 유닛(CPU)들(702), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(704), 메모리(712) 및 이러한 컴포넌트들을 상호접속시키기 위한 하나 이상의 통신 버스들(714)을 포함한다. 클라이언트 시스템(102)은 사용자 인터페이스(705)를 포함한다. 사용자 인터페이스(705)는 디스플레이 디바이스(706)를 포함하고 선택적으로 키보드, 마우스 또는 다른 입력 버튼들(708)과 같은 입력 수단을 포함한다. 대안적으로 또는 부가적으로 디스플레이 디바이스(706)는 터치 감응 표면(709)을 포함하고, 이 경우 디스플레이(706/709)가 터치 감응 디스플레이이다. 터치 감응 디스플레이(706/709)를 가지는 클라이언트 시스템들에서, 물리 키보드는 선택적이다(예를 들어, 키보드 입력이 필요할 때 소프트 키보드가 디스플레이될 수 있다). 또한, 임의의 클라이언트 시스템들은 키보드를 보충하거나 대체하기 위해 마이크로폰 및 음성 인식을 사용한다. 선택적으로, 클라이언트(102)는 GPS(global positioning satellite) 수신기 또는 클라이언트 시스템의 위치를 결정하기 위한 다른 위치 검출 장치(707)를 포함한다. 임의의 실시예들에서, 클라이언트 시스템(102)의 위치를 나타내는 위치 정보를 수신하기 위해 클라이언트 시스템(102)이 시각 질의 서버 시스템을 제공하도록 요구하는 시각 질의 검색 디바이스들이 제공된다.
클라이언트 시스템(102)은 또한 카메라 또는 스캐너와 같은 이미지 캡처 디바이스(710)를 포함한다. 메모리(712)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들과 같은, 고속 랜덤 액세스 메모리를 포함하고, 하나 이상의 자기 디스크 저장 디바이스들, 광 디스크 저장 디바이스들, 플래시 메모리 디바이스들 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들과 같은 비-휘발성 메모리를 포함할 수 있다. 메모리(712)는 선택적으로 CPU(들)(702)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 포함할 수 있다. 메모리(712) 또는 대안적으로 메모리(712) 내의 비-휘발성 메모리 디바이스(들)는 비-일시적인 컴퓨터 판독가능한 저장 매체를 포함한다. 임의의 실시예들에서, 메모리(712) 또는 메모리(712)의 컴퓨터 판독가능한 저장 매체는 아래의 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브셋을 저장한다:
? 하드웨어 의존 태스크들을 수행하기 위한 그리고 다양한 기본 시스템 서비스들을 핸들링하기 위한 절차들을 포함하는 운영 시스템(716);
? 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시 영역 네트워크들 등과 같은, 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들(704)(유선 또는 무선)을 통해 다른 컴퓨터들에 클라이언트 시스템(102)을 접속시키기 위해 사용되는 네트워크 통신 모듈(718);
? 이미지 캡처 디바이스/카메라(710)에 의해 캡처된 개별적인 이미지를 프로세싱하기 위한 이미지 캡처 모듈(720), 여기서, 개별적인 이미지는 시각 질의 서버 시스템에 시각 질의로서 (예를 들어, 클라이언트 애플리케이션 모듈에 의해) 송신될 수 있다;
? 시각 질의 서버 시스템에 시각 질의들을 제출하기 위한 이미지에 의한 질의 제출 모듈(724); 선택적으로 이미지에서 관심 영역의 (터치 감응 디스플레이(706/709) 상에서 동작과 같은) 선택을 검출하고 상기 관심 영역을 시각 질의로서 준비하는 관심 영역 선택 모듈(725); 시각 질의의 결과들을 디스플레이하기 위한 결과 브라우저(726); 및 선택적으로, 다양한 포맷들로부터 주석들을 수용할 수 있는, 자유형 주석 텍스트 입력(732) 또는 일 형태로 파일링하는 것과 같은 구조된 주석 텍스트 입력(730)에 대한 선택적 모듈들을 가진 주석 모듈(728) 및 주석을 위한 이미지의 특정 서브-부분을 사용자가 선택하도록 하는 이미지 영역 선택 모듈(734)(때때로 결과 선택 모듈로 본 명세서에서 지칭됨)을 포함하는(이에 제한되지 않음) 이미지에 의한 질의의 다양한 양상들을 핸들링하기 위한 하나 이상의 클라이언트 애플리케이션 모듈들(722);
? 사용자가 이미지 캡처 디바이스(710)를 통해 바로 캡처한 것보다 이미지를 생성하거나 편집함으로써 시각 질의를 저작하도록 하는 선택적 콘텐츠 저작 애플리케이션(들)(736); 선택적으로 하나 또는 이러한 애플리케이션들(736)은 사용자가 시각 질의로서 사용하기 위한 이미지의 서브-부분을 선택할 수 있도록 하는 명령들을 포함할 수 있다;
? 시각 질의 서버 시스템에 시각 질의를 송신하기 전에 시각 질의를 선-프로세싱하는 선택적 로컬 이미지 분석 모듈(738). 로컬 이미지 분석은 이미지들의 특정 타입들 또는 이미지 내의 서브-영역들을 인식할 수 있다. 이러한 모듈들(738)에 의해 인식될 수 있는 이미지 타입들의 예시들은 얼굴 타입(시각 질의 내에 인식된 얼굴 이미지), 바 코드 타입(시각 질의 내에 인식된 바 코드), 및 텍스트 타입(시각 질의 내에 인식된 텍스트) 중 하나 이상을 포함한다; 그리고
? 이메일 애플리케이션, 전화 애플리케이션, 브라우저 애플리케이션, 맵핑 애플리케이션, 인스턴트 메시징 애플리케이션, 소셜 네트워킹 애플리케이션 등과 같은 부가적인 선택적 클라이언트 애플리케이션들(740). 임의의 실시예들에서, 적절한 실행가능한 검색 결과에 대응하는 애플리케이션은 실행가능한 검색 결과가 선택될 때 런칭(launch) 또는 액세스될 수 있다.
선택적으로, 사용자가 주석에 대한 이미지의 특정 서브-부분을 선택하도록 하는 이미지 영역 선택 모듈(734)은 또한 사용자가 추가로 주석을 달 필요 없이 검색 결과를 "정확한" 히트로서 선택하도록 한다. 예를 들어, 사용자는 상위 N개의 얼굴 인식 매칭들을 제시받을 수 있고 상기 결과 리스트로부터 정확한 사람들 선택할 수 있다. 임의의 검색 질의들에 대하여 둘 이상의 타입의 결과가 표시될 것이고, 사용자는 결과의 타입을 선택할 것이다. 예를 들어, 이미지 질의는 나무 옆에 서있는 사람을 포함할 수 있지만 사람에 관한 결과들만 사용자에 관심이 있다. 그러므로, 이미지 선택 모듈(734)은 사용자가 어떤 타입의 이미지가 "정확한" 타입인지 - 즉, 사용자가 수신하기를 원하는 타입인지를 나타내도록 한다. 사용자는 또한 자유형 주석 텍스트 입력 모듈(732) 또는 (일 형태로 파일링하기 위한) 주석 텍스트 입력 모듈(730)을 사용하여 개인적 코멘트들 또는 설명 단어들을 부가함으로써 검색 결과에 주석을 달고자 할 수 있다.
임의의 실시예들에서, 선택적 로컬 이미지 분석 모듈(738)은 클라이언트 애플리케이션(108, 도 1)의 부분이다. 또한, 임의의 실시예들에서, 선택적 로컬 이미지 분석 모듈(738)은 시각 질의 또는 이들의 부분을 선-프로세싱 또는 카테고리화하기 위해 로컬 이미지 분석을 수행하기 위한 하나 이상의 프로그램들을 포함한다. 예를 들어, 클라이언트 애플리케이션(722)은 검색 엔진에 시각 질의를 제출하기 전에 이미지가 바 코드, 얼굴, 또는 텍스트를 포함함을 인식할 수 있다. 임의의 실시예들에서, 로컬 이미지 분석 모듈(738)이 시각 질의가 특정 타입의 이미지를 포함함을 검출할 때, 모듈은 사용자에게 자신들이 대응하는 타입의 검색 결과에 관심이 있는지 묻는다. 예를 들어, 로컬 이미지 분석 모듈(738)은 자신의 일반적 특성들에 기반하여 얼굴을 검출하고(즉, 어떤 사람의 얼굴인지 결정하지 않고), 시각 질의 서버 시스템에 질의를 송신하기 전에 사용자에 즉시 피드백을 제공할 수 있다. "얼굴이 검출되었다, 당신은 이 얼굴에 대한 얼굴 인식 매칭들을 얻는데 관심이 있는가"와 같은 결과를 리턴할 수 있다. 이는 시각 질의 서버 시스템(106, 도 1)에 대하여 시간들을 절약할 수 있다. 임의의 시각 질의들에 대하여, 프론트 엔드 시각 질의 프로세싱 서버(110, 도 1)는 오직 로컬 이미지 분석 모듈(738)에 의해 인식되는 이미지의 타입에 대응하는 검색 시스템(112)에 시각 질의를 송신한다. 다른 실시예들에서, 검색 시스템(112)에 대한 시각 질의는 검색 시스템들(112A-N) 모두에 시각 질의를 송신할 수 있지만, 로컬 이미지 분석 모듈(738)에 의해 인식되는 이미지의 타입에 대응하는 검색 시스템(112)으로부터의 결과들을 순위화할 것이다. 임의의 실시예들에서, 로컬 이미지 분석이 시각 질의 서버 시스템의 동작에 영향을 주는 방식은 클라이언트 시스템의 구성 또는 사용자 또는 클라이언트 시스템과 연관된 파라미터들의 구성 또는 프로세싱에 의존한다. 또한, 임의의 특정 시각 질의 및 로컬 이미지 분석에 의해 산출되는 결과들의 실제 콘텐츠는 상이한 시각 질의들이 클라이언트 시스템 및 시각 질의 서버 시스템 둘 다 또는 둘 중 하나에서 상이하게 핸들링되도록 할 수 있다.
임의의 실시예들에서, 바 코드 인식은 시각 질의가 로컬 이미지 분석 모듈(738)에서 클라이언트 시스템상에서 수행되는 바 코드를 포함하는지의 분석을 이용하여, 두 단계들로 수행된다. 그 다음에 시각 질의는 시각 질의가 바 코드를 포함할 가능성이 있다고 클라이언트가 결정하는 경우에만 바 코드 검색 시스템에 패스된다. 다른 실시예들에서, 바 코드 검색 시스템은 모든 시각 질의를 프로세싱한다.
선택적으로, 클라이언트 시스템(102)은 부가적인 클라이언트 애플리케이션들(740)을 포함한다.
도 6은 본 발명의 일 실시예에 따라 프론트 엔드 시각 질의 프로세싱 서버 시스템(110)을 도시하는 블록도이다. 프론트 엔드 서버(110)는 전형적으로 하나 이상의 프로세싱 유닛(CPU)들(802), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(804), 메모리(812), 및 이러한 컴포넌트들을 상호접속시키기 위한 하나 이상의 통신 버스들(814)을 포함한다. 메모리(812)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들과 같은, 고속 랜덤 액세스 메모리를 포함하고, 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들과 같은, 비-휘발성 메모리를 포함할 수 있다. 메모리(812)는 CPU(들)(802)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 선택적으로 포함할 수 있다. 메모리(812) 또는 대안적으로 메모리(812) 내의 비-휘발성 메모리 디바이스(들)는 비-일시적인 컴퓨터 판독가능한 저장 매체를 포함한다. 임의의 실시예들에서, 메모리(812) 또는 메모리(812)의 컴퓨터 판독가능한 저장 매체는 아래의 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브셋을 저장한다;
? 하드웨어 의존 태스크들을 수행하기 위한 그리고 다양한 기본 시스템 서비스들을 핸들링하기 위한 절차들을 포함하는 운영 시스템(816);
? 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시 영역 네트워크들 등과 같은 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들(804)(유선 또는 무선)을 통해 다른 컴퓨터들에 프론트 엔드 서버 시스템(110)을 접속시키기 위해 사용되는 네트워크 통신 모듈(818);
? 클라이언트 시스템(102)으로부터 인입하는 시각 질의들을 핸들링하고 이들을 둘 이상의 병렬 검색 시스템들에 송신하기 위한 질의 관리자(820); 본 출원의 다른 곳에서 설명된 바와 같이, 임의의 특별 상황들에서, 시각 질의는 예를 들어, 시각 질의가 클라이언트-발생된 명령을 포함할 때(예를 들어, "얼굴 인식 검색만"), 오직 하나의 검색 시스템들에 안내될 수 있다;
? 하나 이상의 병렬 검색 시스템들로부터의 결과들을 선택적으로 필터링하고 표시를 위해 클라이언트 시스템(102)에 상위 또는 "관련" 결과들을 송신하기 위한 결과 필터링 모듈(822);
? 하나 이상의 병렬 검색 시스템들로부터의 결과들을 선택적으로 순위화하고 표시를 위해 결과들을 포맷화하기 위한 결과 순위화 및 포맷화 모듈(824);
? 상호작용 검색 결과 문서를 생성하기 위해 결과 문서 생성 모듈(826)이 적절할 때 사용된다; 모듈(826)은 바운딩 박스 생성 모듈(828) 및 링크 생성 모듈(830)을 포함하는(이에 제한되지 않음) 서브-모듈들을 포함할 수 있다;
? 시각 질의의 개별적인 서브-부분들의 시각 식별자들인 라벨들을 생성하기 위한 라벨 생성 모듈(831);
? 사용자로부터 주석들을 수신하고 이들을 주석 데이터베이스(116)에 송신하기 위한 주석 모듈(832);
? 시각 질의에 응답하여 하나 이상의 실행가능한 검색 결과 엘리먼트들을 발생시키기 위한 실행가능한 검색 결과 모듈(838), 각각은 클라이언트-측 실행을 런칭하도록 구성된다; 실행가능한 검색 결과 엘리먼트들의 예시들은 전화 통화를 개시하고, 이메일 메시지를 개시하고, 주소를 맵핑하고, 레스토랑 예약을 하고, 물건을 구입하기 위한 옵션을 제공하기 위한 버튼들이다; 그리고
? 데이터 베이스 자체(834) 및 데이터베이스에 대한 인덱스(836)를 포함하는 질의 및 주석 데이터베이스(116)
결과 순위화 및 포맷화 모듈(824)은 하나 이상의 병렬 검색 시스템들(112-A ? 112-N, 도 1)로부터 리턴되는 결과들을 순위화한다. 이미 상기 언급된 바와 같이, 임의의 시각 질의들에 대하여, 하나의 검색 시스템으로부터의 결과들만이 관련될 수 있다. 이러한 예시에서, 하나의 검색 시스템으로부터의 관련 검색 결과들만이 순위화된다. 이러한 예시들에서, 임의의 실시예들에서, 여러 타입들의 검색 결과들이 관련될 수 있다. 이러한 예시들에서, 임의의 실시예들에서, 결과 순위화 및 포맷화 모듈(824)은 덜 관련된 검색 시스템들에 대한 결과들 위에 가장 관련된 결과(예를 들어, 가장 높은 관련 스코어를 가진 결과)를 가지는 검색 시스템으로부터의 모든 결과들을 순위화한다. 다른 실시예들에서, 결과 순위화 및 포맷화 모듈(824)은 남아있는 결과들 위에 각 관련 검색 시스템으로부터의 상위 결과를 순위화한다. 임의의 실시예들에서, 결과 순위화 및 포맷화 모듈(824)은 검색 결과들의 각각에 대하여 계산된 관련성 스코어에 따라 결과들을 순위화한다. 임의의 시각 질의들에 대하여, 보강된 텍스트 질의들은 병렬 시각 검색 시스템들에서 검색에 부가하여 수행된다. 임의의 실시예들에서, 또한 텍스트 질의들이 수행될 때, 자신들의 결과들이 시각 검색 시스템 결과들로부터 시각적으로 별개인 방식으로 표시된다.
결과 순위화 및 포맷화 모듈(824)은 결과들을 또한 포맷한다. 임의의 실시예들에서, 결과들은 리스트 포맷으로 표시된다. 임의의 실시예들에서, 결과들은 상호작용 결과 문서에 의해 표시된다. 임의의 실시예들에서, 상호작용 결과 문서 및 결과들의 리스트 둘 다가 표시된다. 임의의 실시예들에서, 질의의 타입은 어떻게 결과들이 표시될지를 좌우한다. 예를 들어, 둘 이상의 검색가능한 서브젝트가 시각 질의에서 검출되는 경우, 그 다음에 상호작용 결과 문서가 산출되는 반면, 오직 하나의 검색가능한 서브젝트가 검출되는 경우, 결과들은 리스트 포맷으로만 디스플레이될 것이다.
결과 문서 생성 모듈(826)은 상호작용 검색 결과 문서를 생성하기 위해 사용된다. 상호작용 검색 결과 문서는 하나 이상의 검출되고 검색된 서브젝트들을 가질 수 있다. 바운딩 박스 생성 모듈(828)은 검색된 서브젝트들 중 하나 이상 주위에 바운딩 박스를 생성한다. 바운딩 박스들은 직사각형 박스들일 수 있거나 또는 서브젝트(들)의 형상(들)의 윤곽을 표시할 수 있다. 링크 생성 모듈(830)은 상호작용 검색 결과 문서에서 자신들의 개별적인 서브젝트와 연관된 검색 결과들에 대한 링크들을 생성한다. 임의의 실시예들에서, 바운딩 박스 영역 내의 클릭은 링크 생성 모듈에 의해 삽입되는 대응하는 링크를 활성화한다.
질의 및 주석 데이터베이스(116)는 시각 질의 결과들을 개선하기 위해 사용될 수 있는 정보를 포함한다. 임의의 실시예들에서, 사용자는 시각 질의 결과들이 표시된 후에 이미지에 주석을 달 수 있다. 또한, 임의의 실시예들에서, 사용자는 시각 질의 검색 시스템에 이미지를 송신하기 전에 이미지에 주석을 달 수 있다. 선-주석은 결과들을 포커싱 또는 시각 질의 검색과 병렬로 주석된 단어들에 텍스트 기반 검색들을 실행함으로써 시각 질의 프로세싱을 도울 수 있다. 임의의 실시예들에서, 사진의 주석된 버전들은 잠재 이미지 매칭 히트로서 리턴되도록 공지될 수 있다(예를 들어, 사용자가 예를 들어, 사적이지 않도록 이미지 및 주석(들)을 지정함으로써 공개를 위한 허가를 줄 때). 예를 들어, 사용자가 꽃의 사진을 찍고, 상기 꽃에 대해 세부 속(genus) 및 종(species) 정보를 부여함으로써 이미지에 주석을 다는 경우, 사용자는 상기 꽃을 찾는 시각 질의 리서치를 수행하는 누군가에게 상기 이미지가 표시되기를 원할 수 있다. 임의의 실시예들에서, 질의 및 주석 데이터베이스(116)로부터의 정보는 자신들의 각각의 개별 데이터베이스들(114)로 정보의 관련 부분(존재한다면)을 통합하는, 병렬 검색 시스템들(112)에 주기적으로 푸시된다.
도 7은 시각 질의를 프로세싱하도록 이용되는 병렬 검색 시스템들 중 하나를 도시하는 블록도이다. 도 7은 본 발명의 일 실시예에 따라 "포괄적인" 서버 시스템(112-N)을 도시한다. 이 서버 시스템은 시각 질의 검색 서버들(112-N) 중 임의의 하나를 표시하는 경우에만 포괄적이다. 포괄적인 서버 시스템(112-N)은 전형적으로 하나 이상의 프로세싱 유닛(CPU)들(502), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(504), 메모리(512), 및 이러한 컴포넌트들을 상호접속시키기 위한 하나 이상의 통신 버스들(514)을 포함한다. 메모리(512)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들과 같은, 고속 랜덤 액세스 메모리를 포함하고; 그리고 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들과 같은, 비-휘발성 메모리를 포함할 수 있다. 메모리(512)는 CPU(들)(502)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 선택적으로 포함할 수 있다. 메모리(512) 또는 대안적으로 메모리(512) 내의 비-휘발성 메모리 디바이스(들)는 비-일시적인 컴퓨터 판독가능한 저장 매체를 포함한다. 임의의 실시예들에서, 메모리(512) 또는 메모리(512)의 컴퓨터 판독가능한 저장 매체는 아래의 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브세트를 저장한다;
? 하드웨어 의존 태스크들을 수행하기 위한 그리고 다양한 기본 시스템 서비스들을 핸들링하기 위한 절차들을 포함하는 운영 시스템(516);
? 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시 영역 네트워크들 등과 같은, 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들(504)(유선 또는 무선)을 통해 다른 컴퓨터들에 포괄적 서버 시스템(112-N)을 접속시키기 위해 사용되는 네트워크 통신 모듈(518);
? 특정 서버 시스템에 특유한 검색 애플리케이션(520), 예를 들어, 바 코드 검색 애플리케이션, 색 인식 검색 애플리케이션, 물건 인식 검색 애플리케이션, 오브젝트-또는-오브젝트 카테고리 검색 애플리케이션 등일 수 있다;
? 특정 검색 애플리케이션이 인덱스를 이용하는 경우 선택적 인덱스(522);
? 특정 검색 애플리케이션에 관련된 이미지들을 저장하기 위한 선택적 이미지 데이터베이스(524), 존재한다면, 저장된 이미지 데이터는 검색 프로세스 타입에 의존한다;
? 검색 애플리케이션으로부터의 결과들을 순위화하기 위한 선택적 결과 순위화 모듈(526)(때때로 관련 스코어링 모듈로 지칭됨), 순위화 모듈은 검색 애플리케이션으로부터 각 결과에 대한 관련성 스코어를 할당할 수 있고, 결과들이 미리-정의된 최소 스코어에 도달하지 않는 경우, 이 서버 시스템으로부터의 결과들이 관련되지 않음을 나타내는 널 및 제로 값 스코어를 프론트 엔드 시각 질의 프로세싱 서버에 리턴할 수 있다; 그리고
? 주석 정보 중 일부가 특정 검색 애플리케이션에 관련되는지 여부를 결정하는 주석 정보를 주석 데이터베이스(116, 도 1)로부터 수신하고 주석 정보의 임의의 결정된 관련 부분들을 각각의 주석 데이터베이스(530)에 통합하기 위한 주석 모듈(528).
도 8은 본 발명의 일 실시예에 따라 시각 질의를 프로세싱하기 위해 이용되는 OCR 검색 시스템(112-B)을 도시하는 블록도이다. OCR 검색 시스템(112-B)은 전형적으로, 하나 이상의 프로세싱 유닛(CPU)들(602), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(604), 메모리(612) 및 이러한 컴포넌트들을 상호접속시키기 위한 하나 이상의 통신 버스들(614)을 포함한다. 메모리(612)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들과 같은 고속 랜덤 액세스 메모리를 포함하고; 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들과 같은 비-휘발성 메모리를 포함할 수 있다. 메모리(612)는 CPU(들)(602)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 선택적으로 포함할 수 있다. 메모리(612) 또는 대안적으로 메모리(612) 내의 비-휘발성 메모리 디바이스(들)는 비-일시적인 컴퓨터 판독가능한 저장 매체를 포함한다. 임의의 실시예들에서, 메모리(612) 또는 메모리(612)의 컴퓨터 판독가능한 저장 매체는 아래의 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브셋을 저장한다;
? 다양한 기본 시스템 서비스들을 핸들링하고 하드웨어 의존 태스크들을 수행하기 위한 절차들을 포함하는 운영 시스템(616);
? 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시 영역 네트워크들 등과 같은, 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들(604)(무선 또는 유선)을 통해 다른 컴퓨터들에 OCR 검색 시스템(112-B)을 접속시키기 위해 사용되는 네트워크 통신 모듈(618);
? 시각 질의에서 텍스트를 인식하기 위해 시도하고 글자들의 이미지들을 문자들로 변환하는 광학식 문자 인식(OCR) 모듈(620);
? 특정 폰트들, 텍스트 패턴들 및 글자 인식에 고유한 다른 특성들을 인식하기 위해 OCR 모듈(620)에 의해 이용되는 선택적 OCR 데이터베이스(114-B);
? 사전에 대하여 변환된 단어들을 확인하고, 잠재적으로 오-변환된 글자들을 이와 다른 사전 단어에 매칭하는 단어들로 대체함으로써 글자들의 이미지들의 문자들로의 변환을 개선하는 선택적 철자 확인 모듈(622);
? 변환된 텍스트 내에서 명명 엔티티들을 검색하고, 용어 질의 서버 시스템(118, 도 1)에 용어 질의의 용어들로서 인식된 명명 엔티티들을 송신하고, 인식된 명명 엔티티들과 연관된 OCR된 텍스트에 임베딩된 링크들로서 용어 질의 서버 시스템으로부터의 결과들을 제공하는 선택적 명명 엔티티 인식 모듈(624);
? 텍스트 세그먼트들의 데이터베이스에 대하여 변환된 세그먼트들(변환된 문장들 및 문구들과 같은)을 확인하고, 잠재적으로 오-변환된 글자들을 이와 다른 텍스트 매칭 애플리케이션 텍스트 세그먼트에 매칭하는 OCR된 텍스트 세그먼트들로 대체함으로써 글자들의 이미지들의 문자들로의 변환을 개선하는 선택적 텍스트 매칭 애플리케이션(632), 임의의 실시예들에서, 텍스트 매칭 애플리케이션에 의해 발견된 텍스트 세그먼트는 사용자에게 링크로서 제공된다(예를 들어, 사용자가 뉴욕 타임즈의 한 페이지를 스캔한 경우, 텍스트 매칭 애플리케이션은 뉴욕 타임즈 웹사이트에서 전체 포스팅된 기사에 대한 링크를 제공할 수 있다);
? 표시를 위해 OCR된 결과들을 포맷하고 명명 엔티티들에 대한 선택적 링크들을 포맷하고 또한 선택적으로 텍스트 매칭 애플리케이션으로부터 임의의 관련된 결과들을 순위화하기 위한 결과 순위화 및 포맷화 모듈(626); 및
? 임의의 주석 정보가 OCR 검색 시스템에 관련되는지 여부를 결정하는 주석 정보를 주석 데이터베이스(116, 도 1)로부터 수신하고, 주석 정보의 임의의 결정된 관련 부분들을 각각의 주석 데이터베이스(630)에 통합하기 위한 선택적 주석 모듈(628).
도 9는 본 발명의 일 실시예에 따라 적어도 하나의 얼굴 이미지를 가진 시각 질의를 프로세싱하도록 이용되는 얼굴 인식 검색 시스템(112-A)을 도시하는 블록도이다. 얼굴 인식 검색 시스템(112-A)은 전형적으로 하나 이상의 프로세싱 유닛(CPU)들(902), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(904), 메모리(912) 및 이러한 컴포넌트들을 상호접속시키기 위한 하나 이상의 통신 버스들(914)을 포함한다. 메모리(912)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들과 같은 고속 랜덤 액세스 메모리를 포함하고; 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들과 같은 비-휘발성 메모리를 포함할 수 있다. 메모리(912)는 선택적으로 CPU(들)(902)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 포함할 수 있다. 메모리(912) 또는 대안적으로 메모리(912) 내의 비-휘발성 메모리 디바이스(들)는 비-일시적인 컴퓨터 판독가능한 저장 매체를 포함한다. 임의의 실시예들에서, 메모리(912) 또는 메모리(912)의 컴퓨터 판독가능한 저장 매체는 아래의 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브셋을 저장한다:
? 다양한 기본 시스템 서비스들을 핸들링하고 하드웨어 의존 태스크들을 수행하기 위한 절차들을 포함하는 운영 시스템(916);
? 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시 영역 네트워크들 등과 같은 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들(904)(유선 또는 무선)을 통해 다른 컴퓨터들에 얼굴 인식 검색 시스템(112-A)을 연결하기 위해 사용되는 네트워크 통신 모듈(918);
? 질의에서 얼굴 이미지를 잠재적으로 매칭하는 잠재적 이미지 매칭들을 식별하기 위한 시각 식별자 모듈(924), 잠재적 이미지 매칭들과 연관된 개인들을 식별하기 위한 개인 식별자 모듈(926) 및 요청자에 소셜 연결성의 메트릭들을 포함하는 개인-특유 데이터를 검색하기 위한 소셜 연결 메트릭 모듈(928)(및/또는 이미지에서 다른 개인) 및 소셜 연결 메트릭들에 따라서뿐만 아니라 얼굴 이미지 및 잠재 매칭들 사이에서 시각적 유사성의 메트릭들에 따라 식별된 개인들의 순위화된 리스트를 생성하기 위한 순위화 모듈(930)을 포함하는 얼굴 인식 검색 애플리케이션(920)
? 질의에서 얼굴 이미지를 잠재적으로 매칭하는 이미지들을 발견하기 위해 검색되는, 얼굴 이미지 데이터베이스(114-A)는 소셜 네트워크 이미지들(932), 웹 앨범 이미지들(934), 사진 공유 이미지들(936) 및 이전 질의 이미지들(938)을 포함한다. 특정 질의에 응답하여 사용되는 이미지 소스들은 요청자에 관한 데이터에 따라 식별된다. 임의의 실시예들에서, 이들은 요청자의 소셜 네트워킹 어카운트들, 요청자의 웹 앨범들 등과 같은 요청자와 연관되거나 또는 요청자에 속하는 어카운트들에서 이미지들만을 포함한다. 다른 실시예들에서, 소스들은 요청자가 사회적으로 연결되는 다른 사람들, 예를 들어, 소셜 그래프에서 요청자에 직접 연결을 가진 사람들과 연관되거나 또는 이에 속하는 이미지들을 포함한다. 선택적으로, 얼굴 이미지 데이터베이스(114-A)는 유명한 사람들의 이미지들(940)을 포함한다. 임의의 실시예들에서, 얼굴 이미지 데이터베이스는 법률적으로 공공 도메인에 있는 얼굴 이미지들의 벤더들과 같은, 외부 소스들로부터 획득되는 얼굴 이미지들을 포함한다.
? 이미지 특징 추출자(942)는 얼굴 이미지 데이터베이스(114-A)에서 이미지들로부터 유도되는 특성들을 추출하고 개인-특유 데이터의 데이터베이스(964)에 정보를 저장한다. 임의의 실시예들에서, 실내 서식지 팩터, 실외 서식지 팩터, 성별 팩터, 인종 팩터, 안경 팩터, 얼굴 털 팩터, 머리 털 팩터, 모자 팩터, 눈 색상 팩터, 출현 정보, 및 동시 출현 정보와 같은 시각 특성들은 시각 특징 추출기(944)를 이용하여 추출된다. 임의의 실시예들에서, 데이터 정보, 시간 정보 및 위치 정보와 같은 메타데이터 특성들은 메타데이터 특징 추출기(946)를 이용하여 추출된다.
? 공공 데이터베이스들(948)은 잠재적 이미지 매칭과 연관된 개인 및 요청자 사이에서 소셜 연결성의 연결 메트릭들을 포함하는 개인-특유 데이터의 소스들이다. 데이터는 소셜 네트워크 데이터베이스들(922), 소셜 마이크로블로그 데이터베이스들(950), 블로그 데이터베이스들(952), 이메일 데이터베이스들(954), IM 데이터베이스들(956), 달력 데이터베이스들(958), 연락 리스트들(960) 및/또는 공공 URL들(962)을 포함하는(이에 제한되지 않음) 복수의 애플리케이션들로부터 획득된다.
? 특정 개인들에 특유한 정보를 저장하는 개인-특유 데이터(964)의 데이터베이스. 개인-특유 데이터의 일부 또는 모두는 공공 데이터베이스들로부터 획득된다. 개인-특유 데이터는 도 18a-c에 관하여 더 상세히 설명된다.
? 표시를 위해 결과들을 포맷하기 위한 결과 포맷화 모듈(966); 임의의 실시예들에서, 포맷된 결과들은 잠재적 이미지 매칭들 및 개인-특유 데이터의 데이터베이스(964)로부터 정보의 서브셋을 포함한다.
? 주석 데이터베이스(116, 도 1)로부터 주석 정보를 수신하고 임의의 주석 정보가 얼굴 인식 검색 시스템에 관련되는지 결정하고 각각의 주석 데이터베이스(970)로 주석 정보의 임의의 결정된 관련 부분들을 저장하기 위한 주석 모듈(968).
? 개인 위치 모듈(972)은 시각 질의에서 얼굴 이미지에 잠재 매칭들로서 식별된 하나 이상의 개인들 및 요청자의 현재 위치에 관한 위치 정보를 포착한다. 개인 위치 모듈(972)에 의한 위치 정보의 포착 및 검색 애플리케이션(920)에 의한 얼굴 이미지에 개인의 매칭을 개선하기 위한 위치 정보의 사용은 도 16a, 17, 18a 및 18c에 관하여 아래 설명된다.
도 10은 본 발명의 일 실시예에 따라 시각 질의를 프로세싱하도록 이용된 이미지-대-용어들 검색 시스템(112-C)을 도시하는 블록도이다. 임의의 실시예들에서, 이미지-대-용어들 검색 시스템은 시각 질의에서 오브젝트들을 인식한다(인스턴스 인식). 다른 실시예들에서, 이미지-대-용어들 검색 시스템은 시각 질의에서 오브젝트 카테고리들을 인식한다(타입 인식). 임의의 실시예들에서, 이미지 대 용어들 시스템은 오브젝트들 및 오브젝트-카테고리들 둘 다를 인식한다. 이미지-대-용어들 검색 시스템은 시각 질의에서 이미지들에 대한 잠재 용어 매칭들을 리턴한다. 이미지-대-용어들 검색 시스템(112-C)은 전형적으로 하나 이상의 프로세싱 유닛(CPU)들(1002), 하나 이상의 네트워크 또는 다른 통신 인터페이스들(1004), 메모리(1012), 및 이러한 컴포넌트들을 상호접속시키기 위한 하나 이상의 통신 버스들(1014)을 포함한다. 메모리(1012)는 DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들과 같은 고속 랜덤 액세스 메모리를 포함하고, 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들 또는 다른 비-휘발성 솔리드 스테이트 저장 디바이스들과 같은 비-휘발성 메모리를 포함할 수 있다. 메모리(1012)는 선택적으로 CPU(들)(1002)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 포함한다. 메모리(1012) 또는 대안적으로 메모리(1012) 내의 비-휘발성 메모리 디바이스(들)는 비-일시적인 컴퓨터 판독가능한 저장 매체를 포함한다. 임의의 실시예들에서, 메모리(1012) 또는 메모리(1012)의 컴퓨터 판독가능한 저장 매체는 아래의 프로그램들, 모듈들 및 데이터 구조들을 저장하거나 또는 이들의 서브세트를 저장한다:
? 다양한 기본 시스템 서비스들을 핸들링하고 하드웨어 의존 태스크들을 수행하기 위한 절차들을 포함하는 운영 시스템(1016);
? 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 도시 영역 네트워크들 등과 같은, 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들(1004)(유선 또는 무선)을 통해 다른 컴퓨터들에 이미지-대-용어들 검색 시스템(112-C)을 접속시키기 위해 사용되는 네트워크 통신 모듈(1018);
? 이미지 검색 데이터베이스(114-C)에서 시각 질의의 서브젝트 또는 서브젝트들에 매칭하는 이미지들을 검색하는 이미지-대-용어들 검색 애플리케이션(1020);
? 시각 질의의 서브젝트(들)에 유사한 이미지들을 발견하기 위해 검색 애플리케이션(1020)에 의해 검색될 수 있는 이미지 검색 데이터베이스(114-C);
? 텍스트 기반 질의 검색 엔진(1006)을 이용하는 이미지들을 검색할 때 사용자들에 의해 사용되는 텍스트 용어들을 저장하는 용어들-대-이미지 역 인덱스(1022);
? 잠재 이미지 매칭들을 순위화하고 그리고/또는 용어들-대-이미지 역 인덱스(1022)에 식별되는 잠재 이미지 매칭들과 연관된 용어들을 순위화하기 위한 결과 순위화 및 포맷 모듈(1024); 및
? 임의의 주석 정보가 이미지-대 용어 검색 시스템(112-C)에 관련되는지 여부를 결정하는 주석 정보를 주석 데이터베이스(116, 도 1)로부터 수신하고 각각의 주석 데이터베이스(1028)로 주석 정보의 임의의 결정된 관련 부분들을 저장하기 위한 주석 모듈(1026).
도 5-10은 본 명세서에 설명된 실시예들의 구조적 도식보다 컴퓨터 시스템들의 세트로 표현될 수 있는 다양한 특징들의 기능적 설명들로 의도된다. 실제, 그리고 당업자에 의해 인식되는 바와 같이, 분리하여 도시된 아이템들은 결합될 수 있고 임의의 아이템들은 분리될 수 있다. 예를 들어, 이러한 도면들로 분리하여 도시된 임의의 아이템들은 단일 서버들에서 구현될 수 있고 단일 아이템들은 하나 이상의 서버들에 의해 구현될 수 있다. 시각 질의 프로세싱을 구현하기 위해 사용되는 시스템들의 실제 수 및 어떤 특징들이 이들 사이에 할당되는지는 구현에 따라 변할 것이다.
본 명세서에 설명된 방법들의 각각은 비-일시적인 컴퓨터 판독가능한 저장 매체에 저장되고 하나 이상의 서버들 또는 클라이언트들의 하나 이상의 프로세서들에 의해 실행되는 명령들에 의해 감독될 수 있다. 상기 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트들)은 분리된 소프트웨어 프로그램들, 절차들 또는 모듈들로서 구현될 필요가 없고, 그러므로, 이러한 모듈들의 다양한 서브세트들은 다양한 실시예들에서 결합될 수 있거나 또는 달리 말하면 재배열될 수 있다. 도 5-10에 도시된 동작들의 각각은 컴퓨터 메모리 또는 비-일시적인 컴퓨터 판독가능한 저장 매체에 저장된 명령들에 대응할 수 있다.
도 11은 예시적인 시각 질의(1102)의 스크린 샷을 가진 클라이언트 시스템(102)을 도시한다. 도 11에 도시된 클라이언트 시스템(102)은 휴대 전화, 휴대용 음악 플레이어 또는 휴대용 이메일 디바이스와 같은 모바일 디바이스이다. 클라이언트 시스템(102)은 디스플레이(706) 및 이 도면에 도시된 버튼들과 같은 하나 이상의 입력 수단(708)을 포함한다. 임의의 실시예들에서, 디스플레이(706)는 터치 감응 디스플레이(709)이다. 터치 감응 디스플레이(709)를 가지는 실시예들에서, 디스플레이(709)에 디스플레이된 소프트 버튼들은 전자기계식 버튼들(708) 중 일부 또는 전부를 선택적으로 대체할 수 있다. 터치 감응 디스플레이들은 또한 아래에 더 상세히 설명된 바와 같이, 시각 질의 결과들과 상호작용하는 것을 도울 수 있다. 클라이언트 시스템(102)은 또한 카메라(710)와 같은 이미지 캡처 메커니즘을 포함한다.
도 11은 스토어의 선반에서 포장의 비디오 프레임 또는 사진인 비디오 질의(1102)를 도시한다. 본 명세서에 설명된 실시예들에서, 시각 질의는 두 차원들의 각각의 픽셀들에서 시각 질의의 크기에 대응하는 해상도를 가지는 2차원 이미지이다. 이 실시예에서 시각 질의(1102)는 3차원 오브젝트들의 2차원 이미지이다. 시각 질의(1102)는 배경 엘리먼트, 물건 포장(1104) 및 사람의 이미지(1106), 상표의 이미지(1108), 물건의 이미지(1110) 및 다양한 텍스트 엘리먼트들(1112)을 포함하는 포장의 다양한 타입들의 엔티티들을 포함한다.
도 3을 참조하여 설명된 바와 같이, 시각 질의(1102)는 복수의 병렬 검색 시스템들(112A-N)에 시각 질의(1102)를 송신하고, 결과들을 수신하고 상호작용 결과 문서를 생성하는 프론트 엔드 서버(110)에 송신된다.
도면들(12a 및 12b)은 각각 상호작용 결과 문서(1200)의 실시예의 스크린 샷을 가진 클라이언트 시스템(102)을 도시한다. 상호작용 결과 문서(1200)는 검색 결과들의 서브세트에 대한 사용자 선택가능한 링크를 각각 포함하는, 시각 질의(1102)의 각각의 서브-부분들의 하나 이상의 시각 식별자들(1202)을 포함한다. 도면들(12a 및 12b)은 바운딩 박스들(1202)(예를 들어, 바운딩 박스들(1202-1, 1202-2, 1202-3))인 시각 식별자들을 가진 상호작용 결과 문서(1200)를 도시한다. 도면들(12a 및 12b)에 도시된 실시예들에서, 사용자는 자신의 바운딩 박스(1202)에 의해 윤곽이 나타내어진 공간 내에 활성 영역을 탭핑함으로써 특정 서브-부분에 대응하는 검색 결과들의 디스플레이를 활성화한다. 예를 들어, 사용자는 사람의 이미지를 서라운딩하는 바운딩 박스(1306)(도 13)를 탭핑함으로써, 사람의 이미지에 대응하는 검색 결과들을 활성화할 수 있다. 다른 실시예들에서, 선택가능한 링크는 터치 감응 디스플레이보다 마우스 또는 키보드를 사용하여 선택된다. 임의의 실시예들에서, 제 1 대응하는 검색 결과는 사용자가 바운딩 박스(1202)를 프리뷰할 때(즉, 사용자가 한 번 틀릭하거나, 한 번 탭핑하거나, 바운딩 박스 위에 포인터를 맴돌 때) 디스플레이된다. 사용자는 사용자가 바운딩 박스를 선택할 때(즉, 사용자가 더블 클릭하거나, 두 번 탭핑하거나 또는 선택을 나타내기 위한 다른 메커니즘을 사용할 때) 복수의 대응하는 검색 결과들의 디스플레이를 활성화한다.
도면들(12a 및 12b)에서 시각 식별자들은 시각 질의의 서브-부분들을 서라운딩하는 바운딩 박스들(1202)이다. 도면 12a는 정사각 또는 직사각형인 바운딩 박스들(1202)을 도시한다. 도면 12b는 음료수 병에 대한 바운딩 박스(1202-3)와 같은 시각 질의의 서브-부분에서 식별가능한 엔티티의 경계의 윤곽을 나타내는 바운딩 박스(1202)를 도시한다. 임의의 실시예들에서, 각각의 바운딩 박스(1202)는 그 내에 더 작은 바운딩 박스들(1202)을 포함한다. 예를 들어, 도면들(12a 및 12b)에서, 포장(1202-1)을 식별하는 바운딩 박스는 상표(1202-2)를 식별하는 바운딩 박스 및 다른 바운딩 박스들(1202) 모두를 서라운딩한다. 텍스트를 포함하는 임의의 실시예들에서, 또한 텍스트 용어들 중 일부에 대하여 활성 핫 링크들(1204)을 포함한다. 도면 12b는 "Active Drink" 및 "United States"가 핫 링크들(1204)로서 디스플레이되는 실시예를 도시한다. 이러한 용어들에 대응하는 검색 결과들은 용어 질의 서버 시스템(118)으로부터 수신되는 결과들인 반면, 바운딩 박스들에 대응하는 결과들은 이미지 검색 시스템들에 의한 질의로부터의 결과들이다.
도 13은 시각 질의에서 인식된 엔티티의 타입에 의해 코딩되는 상호작용 결과 문서(1200)의 스크린 샷을 가진 클라이언트 시스템(102)을 도시한다. 도 11의 시각 질의는 사람의 이미지(1106), 상표의 이미지(1108), 물건의 이미지(1110), 및 다양한 텍스트 엘리먼트들(1112)을 포함한다. 따라서, 도 13에 디스플레이되는 상호작용 결과 문서(1200)는 사람(1306), 상표(1308), 물건(1310) 및 두 텍스트 영역들(1312) 주위의 바운딩 박스들(1202)을 포함한다. 도 13의 바운딩 박스들은 상이하게 색칠된 투명 바운딩 박스들(1202)을 나타내는 분리된 크로스-해칭을 이용하여 각각 표시된다. 임의의 실시예들에서, 바운딩 박스들의 시각 식별자들(및/또는 상호작용 결과 문서(1200)에서 라벨들 또는 다른 시각 식별자들)은 오버레이 컬러, 오버레이 패턴, 라벨 배경 색, 라벨 배경 패턴, 라벨 폰트 색, 및 바운딩 박스 경계 색과 같은 시각적으로 구별되는 방식들로 표시하기 위해 포맷된다. 특정 인식된 엔티티들에 대한 타입 코딩은 도 13에서 바운딩 박스들에 관하여 도시되지만, 타입에 의한 코딩은 또한 라벨들인 시각 식별자들에 적용될 수 있다.
도 14는 도 11의 시각 질의(1102)의 각각의 서브-부분들의 시각 식별자들인 라벨들(1402)을 가진 상호작용 결과 문서(1200)의 스크린 샷을 가진 클라이언트 디바이스(102)를 도시한다. 라벨 시각 식별자들(1402) 각각은 대응하는 검색 결과들의 서브세트에 대한 사용자 선택가능한 링크를 포함한다. 임의의 실시예들에서, 선택가능한 링크는 라벨(1402)의 영역 내에 디스플레이되는 설명 텍스트에 의해 식별된다. 임의의 실시예들은 하나의 라벨(1402) 내에 복수의 링크들을 포함한다. 예를 들어, 도 14에서, 음료를 마시는 여성의 이미지 위에 맴도는 라벨은 여성에 대한 얼굴 인식 결과들에 대한 링크 및 상기 특정 사진(예를 들어, 동일한 사진을 사용하는 다른 물건들 또는 광고들의 이미지들)에 대한 이미지 인식 결과들에 대한 링크를 포함한다.
도 14에서, 라벨들(1402)은 상호작용 결과 문서의 자신들의 각각의 서브-부분들 위에 위치되는 텍스트를 가진 부분적으로 투명한 영역들로서 디스플레이된다. 다른 실시예들에서, 각각의 라벨은 근처에 포지셔닝되지만 상호작용 결과 문서의 자신의 각각의 서브-부분 위에 위치되지 않는다. 임의의 실시예들에서, 라벨들은 도 13을 참조하여 논의되는 동일한 방식으로 타입에 의해 코딩된다. 임의의 실시예들에서, 사용자는 라벨(1302)의 주변 또는 에지들에 의해 윤곽이 나타내어진 공간 내에 활성 영역을 탭핑함으로써 라벨(1302)에 대응하는 특정 서브-부분에 대응하는 검색 결과들의 디스플레이를 활성화한다. 도면들(12a 및 12b)의 바운딩 박스들을 참조하여 상기 논의된 동일한 프리뷰 및 선택 기능들은 또한 라벨들(1402)인 시각 식별자들에 적용한다.
도 15는 결과 리스트(1500)와 동시에 디스플레이되는 오리지널 시각 질의(1102) 및 상호작용 결과 문서(1200)의 스크린 샷을 도시한다. 임의의 실시예들에서, 상호작용 결과 문서(1200)는 도 12-14에 도시된 바와 같이 자기 자신에 의해 디스플레이된다. 다른 실시예들에서, 상호작용 결과 문서(1200)는 도 15에 도시된 바와 같이 오리지널 시각 질의와 동시에 디스플레이된다. 임의의 실시예들에서, 시각 질의 결과들의 리스트(1500)는 오리지널 시각 질의(1102) 및/또는 상호작용 결과 문서(1200)와 함께 동시에 디스플레이된다. 클라이언트 시스템의 타입 및 디스플레이(706) 상의 빈 공간의 양은 결과들의 리스트(1500)가 상호작용 결과 문서(1200)와 동시에 디스플레이되는지를 결정할 수 있다. 임의의 실시예들에서, 클라이언트 시스템(102)은 (시각 질의 서버 시스템에 제출된 시각 질의에 응답하여) 결과들의 리스트(1500) 및 상호작용 결과 문서(1200) 둘 다를 수신할 뿐만 아니라, 사용자가 상호작용 결과 문서(1200) 아래로 스크롤할 때 결과의 리스트(1500)를 디스플레이한다. 이러한 실시예들의 일부에서, 클라이언트 시스템(102)은, 결과들의 리스트(1500)가 시각 질의에 응답하여 클라이언트 시스템(102)에 의해 수신되고 그 다음에 클라이언트 시스템(102)에서 로컬하게 저장되기 때문에 다시 서버에 질의할 필요가 없이 사용자 선택된 시각 식별자(1202/1402)에 대응하는 결과들을 디스플레이한다.
임의의 실시예들에서, 결과들의 리스트(1500)는 카테고리들(1502)로 정리된다. 각 카테고리는 적어도 하나의 결과(1503)를 포함한다. 임의의 실시예들에서, 카테고리 타이틀들은 결과들(1503)로부터 자신들을 구별하도록 강조된다. 카테고리들(1502)은 자신들의 계산된 카테고리 가중치에 따라 순서화된다. 임의의 실시예들에서, 카테고리 가중치는 그 카테고리에서 최상위 N개의 결과들의 가중치들의 조합이다. 따라서, 더 관련된 결과들을 산출할 것 같은 카테고리가 먼저 디스플레이된다. 둘 이상의 카테고리(1502)가 동일한 인식된 엔티티에 대하여 리턴되는 (도 15에 도시된 얼굴 이미지 인식 매칭 및 이미지 매칭과 같은) 실시예들에서, 먼저 디스플레이되는 카테고리는 더 높은 카테고리 가중치를 가진다.
도 3에 관하여 설명되는 바와 같이, 임의의 실시예들에서, 상호작용 결과 문서(1200)에서 선택가능한 링크가 클라이언트 시스템(102)의 사용자에 의해 선택될 때, 커서는 적절한 카테고리(1502)로 또는 상기 카테고리에서의 제 1 결과(1503)로 자동으로 이동할 것이다. 대안적으로, 상호작용 결과문서에서 선택가능한 링크가 클라이언트 시스템(102)의 사용자에 의해 선택될 때, 결과들의 리스트(1500)는 선택된 링크에 관련된 카테고리 또는 카테고리들이 먼저 디스플레이되도록 재순서화된다. 이는 예를 들어, 선택가능한 링크들을 대응하는 검색 결과들을 식별하는 정보로 코딩하거나, 대응하는 선택가능한 링크들을 나타내거나 또는 대응하는 결과 카테고리들을 나타내도록 검색 결과들을 코딩함으로써 달성된다.
임의의 실시예들에서, 검색 결과들의 카테고리들은 이러한 검색 결과들을 산출하는 이미지에 의한 질의 검색 시스템에 대응한다. 예를 들어, 도 15에서, 카테고리들의 일부는 물건 매칭(1506), 로고 매칭(1508), 얼굴 인식 매칭(1510), 이미지 매칭(1512)이다. 오리지널 시각 질의(1102) 및/또는 상호작용 결과 문서(1200)는 질의(1504)와 같은 카테고리 타이틀과 유사하게 디스플레이될 수 있다. 유사하게, 용어 질의 서버에 의해 수행되는 임의의 용어 검색으로부터의 결과들은 또한 웹 결과들(1514)과 같은, 분리된 카테고리로서 디스플레이될 수 있다. 다른 실시예들에서, 시각 질의에서 둘 이상의 엔티티는 동일한 이미지에 의한 질의 검색 시스템으로부터의 결과들을 산출할 것이다. 예를 들어, 시각 질의는 얼굴 인식 검색 시스템(112-A)으로부터 분리된 결과들을 리턴할 수 있는 두 상이한 얼굴들을 포함할 수 있다. 따라서, 임의의 실시예들에서, 카테고리들(1502)은 검색 시스템에 의해서보다 오히려 인식된 엔티티에 의해 분할된다. 임의의 실시예들에서, 인식된 엔티티의 이미지는, 이미지 검색 시스템에 의한 동일한 질의에 의해 두 개의 결과들이 산출되더라도 상기 인식된 엔티티에 대한 결과들이 다른 인식된 엔티티에 대한 결과들과 구별가능하도록, 인식되는 엔티티 카테고리 헤더(1502)에서 디스플레이된다. 예를 들어, 도 15에서, 물건 매칭 카테고리(1506)는 두 개의 엔티티 물건 엔티티들 및 또한 두 개의 엔티티 카테고리들(1502)을 포함한다 - 박스 포장된 물건(1516) 및 병에 담긴 물건(1518), 각각은 복수의 대응하는 검색 결과들(1503)을 가진다. 임의의 실시예들에서, 카테고리들은 인식된 엔티티들 및 이미지에 의한 질의 시스템의 타입에 의해 분할될 수 있다. 예를 들어, 도 15에서, 물건 매칭 카테고리 물건 하에서 관련 결과들을 리턴한 두 개의 분리된 엔티티들이 존재한다.
임의의 실시예들에서, 결과들(1503)은 섬네일 이미지들을 포함한다. 예를 들어, 도 15에서 얼굴 인식 매칭 결과들에 대하여 도시된 바와 같이, "여배우 X" 및 "소셜 네트워크 친구 Y"에 대한 얼굴 매칭들의 사진들의 작은 버전들(또한 섬네일 이미지들로 지칭됨)은 이미지에서 사람의 명칭과 같은 임의의 텍스트 설명과 함께 디스플레이된다.
도 16a-도 16b는 임의의 실시예들에 따라 얼굴 이미지를 포함하는 시각 질의에 응답하는 프로세스를 도시하는 흐름도들이다. 이러한 도면들에 도시된 동작들의 각각은 컴퓨터 메모리 또는 비-일시적인 컴퓨터 판독 가능한 저장 매체에 저장되는 명령들에 대응할 수 있다. 얼굴 인식 검색 시스템(112-A)은 그 안에 하나 이상의 얼굴 이미지들을 가진 시각 질의를 요청자로부터 수신한다(1602). 임의의 실시예들에서, 시각 질의가 적어도 하나의 얼굴을 포함한다는 사실은 프론트 엔드 시각 질의 프로세싱 서버(110)에 의해 결정된다. 달리 말하면, 시각 질의가 얼굴 인식 검색 시스템(112-A)에 의해 프로세싱될 때, 시각 질의 이미지의 적어도 일부분은 잠재 얼굴을 포함하도록 결정된다. 임의의 환경들에서, 시각 질의는 둘 이상의 친구들의 사진 또는 여러 사람들의 그룹 사진과 같이, 복수의 얼굴들을 포함한다. 시각 질의가 복수의 얼굴 이미지들을 포함하는 임의의 경우들에서, 요청자는 얼굴들 중 하나에만 관심이 있을 수 있다. 이와 같이, 시각 질의가 적어도 각각의 얼굴 이미지 및 제 2 얼굴 이미지를 포함하는 임의의 실시예들에서, 잠재적 이미지 매칭들을 식별하기 전에, 시스템은 요청자로부터 각각의 얼굴 이미지의 선택을 수신한다. 예를 들어, 임의의 실시예들에서, 시스템은 각 잠재 얼굴을 식별하고 질의에서 어떤 얼굴(들)이 요청자가 식별하고자 하는 것인지에 관한 확인을 요청한다.
각각의 얼굴 이미지에 잠재적으로 매칭하는 이미지들이 식별된다(1604). 이러한 이미지들은 잠재적 이미지 매칭들로 지칭된다. 잠재적 이미지 매칭들은 시각적 유사성 기준에 따라 식별된다. 또한, 잠재적 이미지 매칭들은 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터 식별된다(1606). 임의의 실시예들에서, 요청자에 관한 데이터는 요청자의 프로파일 정보로부터 획득된다. 임의의 실시예들에서, 요청자의 프로파일 정보는 요청자로부터 직접 획득된다. 대안적으로, 또한 부가적으로, 요청자의 프로파일 정보는 소셜 네트워크로부터 수신된다. 잠재적 이미지 매칭들은 태그되는 이미지들, 즉, 이미지들에서 개인 또는 개인들에 대한 개인 식별자들을 포함하는 이미지들을 포함한다. 임의의 실시예들에서, 하나 이상의 이미지 소스들은 요청자의 소셜 네트워킹 데이터베이스(들), 웹 앨범(들), 사진 공유 데이터베이스(들) 및 요청자와 연관된 이미지들의 다른 소스들로부터 이미지들을 포함한다. 또한, 임의의 실시예들에서, 유명한 사람들의 이미지들의 데이터베이스(940, 도 9)는 또한 잠재적 이미지 매칭들에 대하여 검색되는 이미지 소스들에 포함된다. 임의의 실시예들에서, 잠재적 이미지 매칭들에 대하여 검색되는 이미지 소스들은 요청자의, 친구들의 또는 컨택트들의 소셜 네트워킹 데이터베이스(들), 웹 앨범(들), 사진 공유 데이터베이스(들), 및 요청자와 연관된 이미지들의 다른 소스들로부터 이미지들을 또한 포함한다. 요청자의, 친구들의 또는 컨택트들의 데이터베이스들로부터 이미지들을 포함하는 실시예들에서, 어떤 데이터베이스들을 포함할 지의 결정이 이루어진다. 예를 들어, 임의의 실시예들에서, 미리-결정된 최대 수의 친구들 또는 컨택트들의 데이터베이스들이 포함된다. 다른 실시예들에서, 오직 직접 소셜 네트워킹 친구들의 데이터베이스들이 포함된다.
그 다음에 잠재적 이미지 매칭들과 연관된 하나 이상의 개인들이 식별된다(1608). 임의의 실시예들에서, 하나 이상의 개인들은 식별된 이미지 매칭들과 연관된 개인 식별자 태그들로부터 식별된다. 예를 들어, 시스템은 밥 스미스, 조 존스, 및 피터 존슨이 남자 친구의 이미지를 포함하는 질의에 대한 잠재적 이미지 매칭들과 연관된 개인들임을 식별할 수 있는데, 이는 이 세 사람들이 요청자와 연관된 다른 이미지들에 태그되었고 이 세 사람들이 질의에서 얼굴 이미지에 시각적으로 유사하기 때문이다.
각각의 식별된 개인에 대하여, 복수의 애플리케이션들로부터 획득된 소셜 연결 메트릭들을 포함하는, 개인-특유 데이터가 리트리브된다(1610). 복수의 애플리케이션들은 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들을 포함한다(1612). 예를 들어, 애플리케이션들은 페이스북, 트위터, 버즈, 지-메일(이메일 및 IM), 웹 달력들, "라이브저널"과 같은 블로그들, 개인 공공 URL들 및 이들과 연관된 임의의 컨택트 리스트들과 같은 애플리케이션들을 포함할 수 있다. 임의의 실시예들에서, 데이터는 이러한 애플리케이션들에서 "공공에" 공개된 정보로부터만 획득된다. 다른 실시예들에서, 데이터는 요청자에 속하거나 또는 요청자와 명백히 공유되는 경우 획득된다. 임의의 실시예들에서, 개인-특유 데이터는 이름, 주소, 직업, 그룹 멤버십들, 관심사들, 나이, 고향, 개인 통계들, 및 각각의 식별된 개인에 대한 업무 정보를 포함한다(도 18a에 관하여 더 상세히 설명되는 바와 같음). 임의의 실시예들에서, 이 정보는 상기 언급된 애플리케이션들 중 하나 이상으로부터 모여진다.
개인-특유 데이터는 각각의 식별된 개인 및 요청자(1614) 사이의 소셜 연결성의 메트릭들인, 소셜 연결 메트릭들을 포함한다. 임의의 실시예들에서, 소셜 연결성 메트릭들은 상기 언급된 애플리케이션들 중 하나 이상에 대해 소셜 연결성의 메트릭들을 포함한다. 예를 들어, 소셜 연결성 메트릭들은 각각의 식별된 개인 및 요청자가 소셜 네트워킹 웹사이트 상에서 친구들인지, 요청자 및 각각의 식별된 개인에 의해 교환되는 이메일의 양(존재한다면) 및/또는 IM 메시지들 및 요청자 및 각각의 식별된 개인이 서로의 소셜 마이크로-블로그 포스트들을 팔로우하는지 등 중 하나 이상을 고려할 수 있다.
임의의 실시예들에서, 각각의 식별된 개인에 대하여 개인-특유의 데이터는 또한 각각의 개인의 다른 이미지들로부터 유도되는 특성들을 포함한다(1616). 임의의 실시예들에서, 이러한 특성들은 날짜 정보, 시간 정보 및 위치 정보와 같은 이미지들로부터의 메타데이터 정보를 포함한다. 다른 실시예들에서, 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 실내 거주지 팩터, 실외 거주지 팩터, 성별 팩터, 인종 팩터, 안경 팩터, 얼굴 털 팩터, 머리 털 팩터, 모자 팩터, 및 눈 색상 팩터와 같은 시각적 팩터들을 포함한다. 또 다른 실시예들에서, 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 하나 이상의 이미지 소스들에서 각각의 개인의 출현들의 양에 관한 출현 정보 및/또는 하나 이상의 이미지 소스들로부터 이미지들에서 제 2 개인과 각각의 개인의 동시-출현들의 양에 관한 정보를 포함한다.
선택적으로, 임의의 실시예들에서, 요청자에 대한 현재 위치 정보 및 각각의 식별된 개인에 대한 현재 위치 정보는 개인 위치 모듈(972)(도 9)에 의해 획득된다(1618). 예를 들어, 요청자 또는 각각의 식별된 개인의 현재 위치는 모바일 디바이스에 위치된 GPS 수신기로부터, 개인에 의해 사용되는 데스크톱 디바이스의 IP 주소로부터, 개인 또는 직장 주소 또는 집 주소로부터 또는 개인의 공개된 위치(예를 들어, "나는 현재 보스턴에서 회의 중임")로부터 획득될 수 있다.
그 다음에 각각의 얼굴 이미지 및 잠재적 이미지 매칭들 사이에서 시각적 유사성의 하나 이상의 메트릭들에 따라, 그리고 또한 적어도 소셜 연결 메트릭들을 포함하는 순위화 정보에 따라 하나 이상의 식별된 개인들을 순위화함으로써 개인의 순서화된 리스트가 생성된다(1620). 순위화에 영향을 미치는 이러한 그리고 다른 팩터들은 도 17에 관하여 아래에 더 상세히 논의된다.
프로세스는 도 16b에 계속하여 도시된다. 선택적으로, 하나 이상의 개인 식별자들이 요청자에게 배포 가능한지에 관하여 사전 동의(opt-in) 리스트가 확인되고 결정이 이루어진다(1622). 임의의 실시예들에서, 이 확인은 잠재적으로 매칭 이미지(들)가 요청자의 고유의 어카운트(들) 외에 소스로부터일 때 또는 요청자의 고유의 어카운트들이 각각의 식별된 개인의 태그된 이미지들을 포함하지 않을 때 이루어진다.
그 다음에 요청자에게 순서화된 리스트로부터 적어도 하나의 개인 식별자가 송신되어(1624), 하나 이상의 개인들을 식별한다. 임의의 실시예들에서, 개인 식별자는 이름이다. 다른 실시예들에서, 개인 식별자는 핸들, 이메일 어드레스, 닉네임 등이다. 임의의 실시예들에서, 프로파일 사진과 같은 대표 사진, 시각 쿼리에 가장 잘 매칭하는 식별된 개인의 이미지가 개인 식별자와 함께 송신된다. 이러한 실시예들에서, 둘 이상의 개인이 잠재 매칭으로서 식별될 때, 각각의 식별된 개인의 대표 사진은 이미지 질의에 대한 응답과 함께 송신된다. 임의의 실시예들에서, 컨택트 정보 또는 최근 공공 포스트의 스니펫(snippet)과 같은 부가적인 정보는 또한 개인 식별자와 함께 송신된다. 다른 실시예들에서, 개인 식별자 외에, 이미지에서 개인 및 요청자 사이에서 발견된 연결은 또한 리턴된다. 예를 들어, 조 스미스의 순위화된 결과는 서술 "조 스미스가 당신의 둘 이상의 어카운트들에서 컨택트로서 리스트된다" 또는 "당신과 조 스미스는 둘 다 팔로 알토 테니스 클럽의 멤버들이다" 또는 " 당신과 조 스미스는 둘 다 카렌 존스와 친구들이다"를 포함할 수 있다. 개인의 컨택트 정보, 그룹 가입들, 소셜 그래프에 따라 매칭된 이미지에서 요청자 및 개인 사이에 게재되는 사람들의 이름들과 같은 추가의 정보는 요청자에 리턴되는 결과들에 포함될 수 있다. 임의의 실시예들에서, 요청자에 제시되는 보강된 정보는 요청자에 의해 명백하거나 또는 암시적으로 규정된다(예를 들어, 자신의 프로파일에서 구성 값들에 의해 또는 시각 질의에서 파라미터들에 의해 또는 시각 질의의 타입에 의해). 임의의 실시예들에서, 둘 이상의 개인 식별자가 요청자에게 송신될 때, 더 많은 정보가 더 낮은 순위로 식별된 개인들보다 상위 순위로 식별된 개인들에 대하여 제공된다.
임의의 실시예들에서, 시각 질의의 카피(또는 각각의 얼굴 이미지를 가진 질의의 부분)는 또한 하나 이상의 개인 식별자들과 함께 송신된다(1626). 둘 이상의 얼굴 이미지가 오리지널 시각 질의에 존재하고 하나 이상의 얼굴 이미지들이 긍정적으로 식별될 때, 임의의 실시예들에서, 시각 질의의 카피는 또한 시각 질의에서 식별된 사람들 중 하나 이상에 송신된다. 그러므로, 그룹 사진이 찍히고 다수의 사람들은 그 카피들을 원하는 경우 요청자는 그들에 대한 콘택트 정보를 찾지 않고 수동으로 사진의 카피를 그들에게 송신한다. 임의의 실시예들에서, 요청자는 먼저 카피들이 사진들이 송신되기 전에 식별된 사람들 중 하나 이상에게 송신되어야만 함을 확인한다.
임의의 실시예들에서, 개인 식별자의 선택은 요청자로부터 수신된다(1628). 그 다음에, 선택에 응답하여, 선택된 개인 식별자에 대응하는 데이터는 요청자에게 송신된다(1630). 임의의 실시예들에서, 이 데이터는 개인 식별자와 연관되는 하나 이상의 이미지들, 개인 식별자와 연관되는 콘택트 정보, 개인 식별자와 연관되는 공공 프로파일 정보 등을 포함한다. 임의의 실시예들에서, 요청자에게 요청자의 콘택트 리스트에서 이 정보의 일부 또는 전부를 저장하거나 또는 식별된 개인에 대한 요청자의 콘택트 정보를 업데이트할 옵션이 주어진다. 임의의 실시예들에서, 정보는 요청자의 시각 질의와 연관되거나 또는 개인 식별자에 대응하는 얼굴 이미지를 가진 질의의 부분은 콘택트 리스트 정보와 함께 저장된다.
또한, 임의의 실시예들에서, 시각 질의의 얼굴 이미지는 선택된 개인 식별자에 대응하는 각각의 개인의 부가 이미지로서 저장된다(1632). 임의의 실시예들에서, 이미지는 이미지 소스들의 이전 질의 부분에 저장된다(938, 도 9). 임의의 실시예들에서, 요청자에게 부가적인 데이터를 포함하기 위해 이미지에 주석을 달 기회가 주어진다. 주석 데이터가 요청자에 의해 입력되는 예시들에서, 얼굴 인식 검색 시스템(112-A)에 의해 수신되고 저장된다(1634). 주석 모듈(968, 도 9)은 미래의 얼굴 인식 검색들을 개선하기 위해 주석들을 수용한다. 예를 들어, 사용자가 상기 개인의 이름으로 개인의 사진에 주석을 단 경우, 상기 사진은 개인을 인식하기 위해 미래의 얼굴 인식 질의들에서 사용될 수 있다. 임의의 실시예들에서, 사적 이유들에 대하여, 개인의 부가적인 주석이 달린 사진들은 얼굴 인식 프로세스를 보강하기 위해 얼굴 인식 검색 시스템(112-A)에 의해 사용될 수 있지만, 오리지널 요청자가 아닌 누군가에게는 이미지 결과로서 리턴되지 않는다. 임의의 실시예들에서, 오직 시+++각 질의에서 식별된 실제 개인은 이미지를 공개하도록 허용된다(또는 요청자 외 사람들에게 이용가능). 임의의 실시예들에서, 일단 개인이 긍정적으로 식별되면, 이미지를 자신들의 소셜 네트워크 내에 사람들에 대한 미래 질의들에 대한 결과를 리턴하도록 허용할 것인지 묻는 요청이 상기 개인에게 송신된다.
임의의 실시예들에서, 단계(1604)에서 동일한 개인의 둘 이상의 이미지가 검색될 수 있다. 일단 잠재적 매칭 이미지들이 검색되고 이미지들이 동일한 개인의 것이라고 결정되면(두 이미지들이 동일한 개인 ID, 동일한 또는 유사한 개인-특유 데이터(이름, 주소 등)를 가지고 동일 또는 유사한 소셜 연결들을 가진다고 언급함으로써 행해질 있음), 이미지들은 동일한 데이터와 연관될 것이고 프로세싱 단계들의 나머지에 대하여 단일 유닛과 같이 취급될 것이다. 선택적으로, 둘 이상의 이미지들이 단계(1624)에서 동일한 개인 식별자로 리턴되는 경우, 동일한 개인 식별자에 대한 둘 이상의 검색된 이미지는 이미지 질의에 응답하여 리턴된다.
도 17은 시각 질의에서 얼굴 이미지를 잠재적으로 매칭하는 개인들의 순서화된 리스트를 생성하는 데 사용되는 팩터들 및 특성들을 도시하는 흐름도이다. 이 흐름도는 상기 언급된 단계(1620)에 관하여 더 많은 정보를 제공한다.
임의의 실시예들에서, 다양한 팩터들이 소셜 네트워크 연결 메트릭들에 따라 개인들의 순서화된 리스트에서 각각의 개인에 대한 순위화 스코어를 결정하는 데 사용된다(1702). 임의의 실시예들에서, 하나 이상의 통신 애플리케이션들에서 요청자 및 각각의 개인 사이의 통신량이 결정되고, 그 다음에 각각의 개인에 대한 순위화 스코어가 결정되고, 각각의 개인에 대한 순위화 스코어의 결정에서의 팩터는 하나 이상의 통신 애플리케이션들에서 요청자 및 각각의 개인 사이의 통신의 결정된 양이다(1704). 통신 애플리케이션들은 소셜 네트워킹 애플리케이션들, 소셜 마이크로-블로그들, 이메일 애플리케이션들 및/또는 인스턴트 메시징 애플리케이션들을 포함할 수 있다. 예를 들어, 각각의 개인이 하나 이상의 통신 애플리케이션들에 의해 널리 요청자와 통신되는 경우(예를 들어, 이메일 및 소셜 네트워크 포스트들에 의한 확장 통신들), 그 다음에 요청자는 각각의 개인을 잘 알 가능성이 있고, 그러므로 시각 질의에서 얼굴 이미지는 각각의 개인일 가능성이 더 많다. 임의의 실시예들에서, 이 팩터는 오직 통신량이 미리-결정된 임계치 초과일 때만 사용된다(예를 들어, 통신들의 세트 수, 특정 시간 기간 내에 통신들의 수, 또는 총 통신들의 백분율). 임의의 실시예들에서, 얼굴 인식 검색 시스템(112-A)은 하나 이상의 통신 애플리케이션들에서 요청자 및 각각의 개인 사이의 통신량이 임계치를 초과하는지를 결정하고, 각각의 개인에 대한 순위화 스코어의 결정에서의 팩터는 하나 이상의 통신 애플리케이션들에서 요청자 및 각각의 개인 사이의 통신량이 임계치를 초과하는지의 결정이다.
임의의 실시예들에서, 요청자 및 각각의 개인이 직접 각각의 소셜 네트워킹 애플리케이션에 직접 연결되는지의 결정이 이루어지고, 그 다음에 각각의 개인에 대한 순위화 스코어가 결정되고, 각각의 개인에 대한 순위화 스코어의 결정에서의 팩터는 요청자 및 각각의 개인이 각각의 소셜 네트워킹 애플리케이션에 직접 연결되는지의 결정이다(1706). 예를 들어, 요청자 및 각각의 개인이 직접 친구들로서 연결되는 경우, 그 다음에 요청자는 각각의 개인을 잘 알 가능성이 있고, 그러므로 시각 질의에서 얼굴 이미지는 각각의 사람일 가능성이 더 높다.
각각의 개인에 대한 개인-특유의 데이터가 이름, 주소, 직업, 그룹 멤버십들, 관심사들, 나이, 고향, 개인 통계들 및/또는 각각의 개인에 대한 업무 정보 중 적어도 둘과 같은, 복수의 특성들을 포함하는 경우들에서, 동일한 정보는 또한 이러한 정보가 얼굴 인식 검색 시스템(112-A)에 이용가능한 정도까지 요청자에 대하여 검색된다. 그 다음에 하나 이상의 개인 유사성 메트릭들은 요청자의 개인-특유의 데이터가 각각의 식별된 개인의 개인-특유의 데이터에 유사한 정도에 따라 결정된다. 각각의 식별된 개인에 대한 순위화 스코어가 결정되고, 각각의 식별된 개인에 대한 순위화 스코어의 결정에서의 하나 이상의 팩터들은 하나 이상의 개인 유사성 메트릭들이다(1708). 예를 들어, 요청자 및 각각의 개인이 유사한 나이, 유사한 직업이고 유사한 그룹들의 멤버들인 경우, 이들은 친구들일 가능성이 있고, 그러므로 시각 질의에서 얼굴 이미지는 각각의 개인일 가능성이 더 높다.
요청자 및 식별된 개인 둘 다에 대한 현재 위치 정보가 성공적으로 획득된 환경들에서, 각각의 식별된 개인에 대한 순위화 스코어가 결정되고, 각각의 식별된 개인에 대한 순위화 스코어의 결정에서의 팩터는 요청자에 대한 현재 위치 정보가 각각의 식별된 개인에 대한 현재 위치 정보를 배합하는지 여부이다(1710). 예를 들어, 요청자 및 각각의 개인 둘 다가 동일 위치에 있다고 결정될 때, 상기 근접성은 시각 질의에서 얼굴 이미지가 각각의 개인이라는 가능성을 증가시킨다. 그리고 이보다 더, 요청자 및 각각의 개인이 동일한 위치에 있지 않다고 결정될 때, 근접성의 부존재는 시각 쿼리에서 얼굴 이미지가 각각의 개인이라는 가능성을 매우 감소시킨다. 또한, 임의의 실시예들에서, 요청자 및 식별된 개인 둘 다에 대한 위치들의 이력 또는 로그는 매칭을 위해 서로 검색되고 비교된다. 임의의 실시예들에서, 요청자 및 식별된 개인의 위치 로그들이 질의 이미지 자신으로부터 유도되는 위치(및/또는 날짜 및 시간) 특성과 추가로 비교된다. 예를 들어, 질의 위치 정보가 캘리포니아, 산타 크루즈에서 7월 2일에 찍혔다고 지시하고 요청자 및 식별된 개인 둘 다에 대한 위치들의 로그들이 또한, 이들이 7월 2일에 캘리포니아, 산타 크루즈에 있었다고 지시하는 경우, 그 다음에 이 위치 매칭은 시각 질의에서 얼굴 이미지가 각각의 개인의 것이라는 가능성을 증가시킨다.
각각의 개인에 대한 개인-특유 데이터가 또한 각각의 개인의 다른 이미지들로부터 유도되는 특성들을 포함하는 실시예들에서(단계(1616)에 관하여 논의됨), 순위화는 추가로 각각의 개인의 다른 이미지들로부터 유도되는 특성들 및 수신된 질의 사이에서 유사성에 따른다(1712). 다양한 팩터들이 각각의 개인의 다른 이미지들로부터 유도되는 이러한 특성들에 따르는 각각의 개인에 대한 순위화 스코어를 결정하는 데 사용된다(1714).
임의의 실시예들에서, 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 이미지 캡처 날짜(예를 들어, 요일, 날 또는 월, 및/또는 전체 날짜) 및 시간 정보를 포함한다. 그 다음에 하나 이상의 유사성 메트릭들은 수신된 질의가 각각의 개인의 하나 이상의 다른 이미지들의 날짜 및 시간 정보에 유사한 이미지 캡처 날짜 및 시간 정보를 가지는 정도에 따라 결정된다. 각각의 개인에 대한 순위화 스코어가 결정되고, 각각의 개인에 대한 순위화 스코어의 결정에서의 하나 이상의 팩터들은 하나 이상의 유사성 메트릭들이다(1716). 임의의 실시예들에서, 유사성 메트릭은 부울리언 값(예를 들어, 예/아니오 또는 1/0)이다. 다른 실시예들에서, 유사성 메트릭은 부울리언 값들의 벡터(예를 들어, 동일한 날짜 예/아니오, 1시간 내 예/아니오, 5시간 내 예/아니오 등)이다. 유사성을 측정하는 숫자 값(예를 들어, 0 내지 1 사이)일 수 있다. 임의의 실시예들에서, 유사성 메트릭은 각각의 개인의 각 다른 이미지에 대하여 결정되지만, 임의의 실시예들에서, 각각의 개인의 이미지들 모두에 대한 그룹 값이 결정된다. 임의의 실시예들에서, 이미지들로부터 유도되는 다른 특성은 상기 논의된 바와 같은 부가적 또는 대안적 유사성 메트릭으로 사용될 수 있는, 장소/위치 정보이다. 예를 들어, 시각 질의가 하나 이상의 다른 이미지들과 유사한 날짜, 시간, 및/또는 위치 정보를 가지는 경우, 상기 유사성은 시각 질의에서 얼굴 이미지가 유사한 날짜, 시간 및/또는 위치 정보를 가지는 하나 이상의 다른 이미지들에 있었던 각 개인이라는 가능성을 증가시킨다.
임의의 실시예들에서, 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 하나 이상의 이미지 소스들로부터 이미지들에서 각각의 개인의 출현들의 양에 관한 출현 정보를 포함한다. 이러한 실시예들에서, 각각의 개인에 대한 순위화 스코어의 결정에서의 팩터는 각각의 개인에 대한 출현 정보이다(1718). 예를 들어, 많은 다른 이미지들이 각각의 개인을 포함하는 경우, 그 다음에 요청자는 각각의 개인을 잘 알 가능성이 있고, 이는 시각 질의에서 얼굴 이미지가 각각의 개인의 것이라는 가능성을 증가시킨다.
임의의 실시예들에서, 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 실내 거주지 팩터, 실외 거주지 팩터, 성별 팩터, 인종 팩터, 안경 팩터, 얼굴 털 팩터, 머리 털 팩터, 모자 팩터, 의류 팩터 및 눈 색상 팩터 중 하나 이상을 포함하는 시각적 팩터들을 포함한다. 이러한 실시예들 중 일부에서, 각각의 개인에 대한 순위화 스코어의 결정에서의 하나 이상의 팩터들은 각각의 개인에 대한 시각적 팩터들을 포함한다(1720).
임의의 상태들에서, 시각 질의는 복수의 얼굴 이미지들을 포함한다. 둘 이상의 얼굴 이미지가 시각 질의에 있을 때, 그 다음에 이들 사이의 상호연결들은 자신들을 올바르게 식별하는 데 도움을 줄 수 있다. 예를 들어, 이들이 강한 소셜 연결 메트릭들을 가지거나 또는 함께 다른 이미지들에서 나타나는 경우, 이러한 사실들은 이들이 또한 질의 이미지에 함께 있다는 가능성을 증가시킨다. 임의의 실시예들에서, 시각 질의는 적어도 각각의 얼굴 이미지 및 제 2 얼굴 이미지를 포함한다. 시각적 유사성 기준에 따라 제 2 얼굴 이미지에 잠재적으로 매칭하는 이미지들(본 명세서에서 잠재 제 2 이미지 매칭들로 지칭됨)이 식별된다. 잠재 제 2 이미지 매칭들은 요청자에 관한 날짜에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들이다. 그 다음에 잠재 제 2 이미지 매칭들과 연관된 제 2 개인이 식별된다. 이 결정의 목적을 위해, 제 2 개인은 높은 정도의 확실성으로 식별된다고 가정된다. 각각의 얼굴 이미지에 잠재 매칭으로 각각의 식별된 개인에 대하여, 제 2 개인에 대한 소셜 연결성의 제 2 소셜 연결 메트릭들을 포함하는 개인-특유 데이터는 복수의 애플리케이션들로부터 획득된다. 그 다음에, 개인들의 순서화된 리스트는 추가로 적어도 제 2 소셜 연결 메트릭들을 포함하는 순위화 정보에 따라 하나 이상의 식별된 개인들을 순위화함으로써 발생된다. 이와 같이, 각각의 개인의 순위화는 추가로 질의에서 제 2 개인에 대한 소셜 연결성의 메트릭들을 포함하는 제 2 소셜 연결 메트릭들에 따른다(1722). 달리 말하면, 임의의 실시예들에서, 요청자에 대한 소셜 연결들 및 제 2 개인에 대한 소셜 연결들 둘 다는 개인들의 순서화된 리스트를 생성하는 데 사용된다.
다른 실시예들에서, 상기 논의된 다른 팩터들 중 하나 이상은 최선 매칭을 발견하기 위해 잠재 매칭으로서 식별되는 각 개인 및 제 2 개인 사이에 비교된다. 예를 들어, 제 2 개인 및 각각의 개인이 동일한 회사에서 고용되거나, 유사한 날짜/시간 정보를 가지는 다른 이미지들에 나타나거나 또는 서로 널리 통신하는 경우, 그 다음에 이러한 팩터들은 이들을 올바르게 식별하는 데 사용될 수 있다. 다른 실시예에서, 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 하나 이상의 이미지 소스들로부터 이미지들에서 제 2 개인 및 각각의 개인의 동시-출현들의 양에 관한 정보를 포함하고; 각각의 개인에 대한 순위화 스코어가 결정될 때, 각각의 개인에 대한 순위화 스코어의 결정에서의 팩터는 하나 이상의 이미지 소스들로부터 이미지들에서 제 2 개인 및 개인의 동시-출현들의 양이다(1724).
도 18a는 얼굴 인식 검색 시스템(112-A)에 의해 이용되는 얼굴 이미지 데이터베이스(114-A)의 데이터 구조의 부분을 도시하는 블록도이다. 임의의 실시예들에서, 얼굴 이미지 데이터베이스는 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터 획득되는 개인의 하나 이상의 이미지들(1802)을 포함한다. 임의의 실시예들에서, 얼굴 이미지 데이터베이스(114-A)는 또한 개인에 대한 개인 식별자 또는 고유 ID(1804)를 포함한다. 개인에 대한 부가적인 정보는 개인 식별자(1804)와 연관되고, 개인-특유 데이터의 데이터베이스(964)에 저장된다. 부가적인 정보의 일부 또는 전부는 그 다음에 시각 질의에서 얼굴 이미지에 대한 잠재 매칭들을 결정하는 데 사용된다. 예를 들어, 잠재적 이미지 매칭들과 연관된 식별된 개인들의 순서화된 리스트는 매칭 그룹 멤버십들(1812) 또는 강한 소셜 연결들(1814)과 같은, 요청자에 대한 소셜 연결성의 메트릭들에 따라 개인을 순위화함으로써 발생된다. 개인 특유 데이터의 데이터베이스(964)로부터 데이터는 식별된 개인들의 순서화된 리스트를 결정할 때 시각 질의에서 얼굴 이미지에 시각적으로 유사한 잠재적 이미지에 부가하여 사용된다. 개인 특유 데이터의 데이터베이스(964)는 고유 ID(1804)에 의해 식별되는 임의의 개인에 대한 아래의 아이템들을 포함할 수 있지만 이에 제한되지 않는다: 이름(1806), 주소(1808), 직업(1810), 그룹 멤버십들(1812), 소셜 네트워크 연결들(1814)(도 18b에 관하여 더 상세히 설명됨), 현재 위치(1816), 공유 선호도들(1818), 관심사들(1820), 나이(1822), 고향(1824), 개인 통계들(1826), 업무 정보(1828). 이 정보는 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들과 같은 복수의 애플리케이션들로부터 획득된다. 임의의 실시예들에서, 개인 특유 데이터는 또한 도 18c에 관하여 논의되는 바와 같이, 개인의 하나 이상의 이미지들로부터 유도되는 특성들(1830)을 포함한다.
도 18b는 소셜 네트워크 연결들의 예시를 도시한다(1814). 임의의 실시예들에서, 식별된 개인에 대한 개인-특유의 데이터는 복수의 애플리케이션들로부터 획득되는 요청자(도 18b에서 질의자로서 식별됨)에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함한다. 이 도면에서 사람들 사이의 라인들은 서로에 대한 자신들의 소셜 연결들 중 하나 이상을 나타낸다(이메일, 인스턴트 메시지 및 소셜 네트워킹 웹사이트에 의한 접속과 같은). 임의의 실시예들에서, 두 사람들 사이의 소셜 거리는 잠재적 이미지 매칭들에 대한 순위화 스코어의 결정에서의 팩터로서 사용된다. 예를 들어, 하나의 잠재적 매칭 이미지는 개인(C)의 이미지였고, 다른 잠재적 매칭 이미지는 개인(Y)의 이미지였던 경우, 임의의 실시예들에서, 개인(C)의 잠재적 매칭 이미지는 개인(Y)보다 더 높은 소셜 연결성 순위화 팩터(순위화 스코어를 계산하는 데 사용됨)를 수신할 수 있는데, 이는 모든 다른 팩터들을 무시하여, 요청자가 세 개의 소셜 네트워크가 "건너뛰는" 누군가(개인(Y))보다 요청자(개인(C))에 직접 연결되는 누군가의 사진을 취할 가능성이 높기 때문이다. 유사하게, 개인(W)은 개인(W)이 요청자로부터 두 개의 소셜 네트워크를 "건너뛰는" 반면, 개인(A)은 요청자로부터 세 개의 소셜 네트워크를 "건너뛰기" 때문에 개인(A)보다 더 높은 소셜 연결성 순위화 팩터를 수신할 수 있다. 임의의 실시예들에서, 요청자에 대한 소셜 네트워크 연결들은 또한 요청자의 시각 질의에 응답하여 어떤 이미지 소스들을 검색할지를 결정하기 위해 사용된다. 예를 들어, 임의의 실시예들에서, 직접 소셜 네트워크 연결을 가지는 사람들에 속하는 어카운트들에서 이미지들은 시각 질의에서 얼굴 이미지를 매칭하는 이미지들에 대하여 검색되는 이미지 소스들에 포함되는 반면, 요청자에 대한 직접 소셜 네트워크 연결을 가지지 않는 개인들에 속하는 어카운트들에서 이미지들은 시각 질의에서 얼굴 이미지를 매칭하는 이미지들에 대하여 검색되는 이미지 소스들에 포함되지 않는다.
임의의 시각 질의들에 대하여, 도 18a의 개인-특유 데이터의 데이터베이스(964)로부터 다른 정보는 도 18B의 소셜 네트워크 연결 그래프 상에서 거리 또는 "건너뜀"과 함께 사용된다. 예를 들어, 요청자 및 각각의 개인이 서로 근처에 살고, 이들이 동일 산업에서 일하고, 동일한 소셜 네트워크 "그룹들"에 있고, 둘 다 현재 동일한 위치에 있는 모바일 디바이스들을 가지는 경우(예를 들어, 예를 들어, 자신들의 모바일 디바이스들에서 GPS 수신기들에 의해 측정됨), 각각의 개인의 순위화 스코어는 각각의 개인이 소셜 네트워크 연결 그래프에서 요청자로부터 여러 차례 "건너뛰는" 경우에도 여전히 높을 수 있다. 다른 실시예에서, 잠재적 매칭 이미지에서 각각의 개인이 소셜 네트워크 연결 그래프에서 요청자로부터 오직 한 번 "건너뛰는" 경우, 상기 각각의 개인은 개인-특유 데이터의 데이터베이스(964)를 통해 결정되는 약한 연결에도 불구하고 높게 순위화될 수 있다(사람들 둘 다 종교 또는 정치적 파티를 공유하는 것과 같은, 큰 그룹 멤버십의 멤버들인 것과 같이).
임의의 실시예들에서, 요청자는 개인-특유 데이터의 데이터베이스(964)로부터 다른 정보보다 더 중요한 개인-특유 데이터의 데이터베이스(964)로부터 특정 정보를 식별할 수 있다. 예를 들어, 요청자는 요청자가 일-관련 행사에 참석하고 그러므로 질의 이미지들이 요청자와 동일한 산업에서 일하는 다른 사람들의 얼굴 이미지들을 포함할 가능성이 높기 때문에, 개인이 일하는 산업에 관한 정보가 다른 개인-특유 데이터보다 더 높은 가중치가 주어지는 것으로 명시할 수 있다. 다른 실시예에서, 요청자는 요청자가 모두 또는 주로 동일한 나이의 사람들에 의해 참석되는 파티(또는 다른 행사)로부터 질의 이미지들을 제출하기 때문에, 나이에 관한 정보가 다른 개인-특유 데이터보다 더 높은 가중치가 주어진다고 명시할 수 있다.
도 18c는 요청자와 연관된 각 개인의 이미지들로부터 유도되는, 임의의 이미지 유도 특성들(1830)을 도시하는 블록도이다. 임의의 실시예들에서 이러한 유도 특성들은(개인의 적어도 하나의 이미지로부터 유도됨) 데이터베이스에서 개인 식별자에 의해 저장된다. 이러한 유도된 특성들은 실내 거주지 팩터(1832), 실외 거주지 팩터(1834), 성별 팩터(1836), 인종 팩터(1838), 안경 팩터(1840), 얼굴 털 팩터(1842), 머리 털 팩터(1844), 모자 팩터(1846), 의류 팩터(1847), 눈 색상 팩터(1848)뿐만 아니라 하나 이상의 이미지 소스들에서 각각의 개인의 출현들의 양에 관한 출현 정보(1850) 및 하나 이상의 이미지 소스들로부터 이미지들에서 다양한 부가적인 사람들과 각각의 개인의 동시-출현들의 양에 관한 정보 중 하나 이상(전형적으로 둘 이상)을 포함한다. 임의의 실시예들에서, 유도 특성들은 또한 각 이미지에 대한 위치 정보(1858), 날짜 정보(1854) 및 시간 정보(1856)와 같은 이미지들로부터 메타데이터 정보를 포함한다. 각각의 개인의 다른 이미지들로부터 유도된, 다른 유도 특성(1830)은 값 및 상기 유도 특성이 사용될 때, 각각의 개인에 대한 순위화 스코어를 결정하는 데 사용되는 가중치로 주어진다.
설명의 목적을 위해 상기 설명은 특유의 실시예들을 참조하여 설명되었다. 하지만, 상기 예시적인 논의들은 개시된 정확한 형태들로 본 발명을 제한하거나 또는 모두 기재하고자 의도되지 않는다. 많은 수정들 및 변경들이 상기 교시들의 관점에서 가능하다. 실시예들은 본 발명의 원리들 및 이의 실제적 적용들을 가장 잘 설명하기 위해 설명되고 선택되었고 이에 의해 당업자들을 고려되는 특정 사용에 적합한 다양한 수정들을 가진 다양한 실시예들 및 본 발명을 가장 잘 이용하도록 할 수 있다.

Claims (19)

  1. 얼굴 이미지를 포함하는 시각 질의(visual query)를 프로세싱하는 컴퓨터-구현된 방법으로서,
    상기 컴퓨터-구현된 방법은 하나 이상의 프로세서들 및 상기 방법을 수행하기 위해 상기 하나 이상의 프로세서들에 의해 실행하기 위한 하나 이상의 프로그램들을 저장하는 메모리를 포함하는 서버 시스템에서 수행되고, 상기 방법은,
    요청자로부터, 각각의 얼굴 이미지를 포함하는 하나 이상의 얼굴 이미지들을 포함하는 시각 질의를 수신하는 단계;
    시각적 유사성 기준에 따라 상기 각각의 얼굴 이미지와 잠재적으로 매칭하는 잠재적 이미지 매칭들을 식별하는 단계 ? 상기 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들을 포함함 ?;
    상기 잠재적 이미지 매칭들과 연관된 하나 이상의 개인(person)들을 식별하는 단계;
    각각의 식별된 개인에 대하여, 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력(collaborative) 애플리케이션들로 구성된 그룹으로부터 선택되는 복수의 애플리케이션들로부터 획득되는, 상기 요청자에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함하는 개인-특유 데이터를 리트리브(retrieve)하는 단계;
    상기 각각의 얼굴 이미지와 상기 잠재적 이미지 매칭들 사이의 시각적 유사성의 하나 이상의 메트릭들에 따라 그리고 적어도 상기 소셜 연결 메트릭들을 포함하는 순위화(ranking) 정보에 따라 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 순서화된(ordered) 리스트를 생성하는 단계; 및
    상기 순서화된 리스트로부터의 적어도 하나의 개인 식별자를 상기 요청자에게 송신하는 단계를 포함하는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  2. 제 1 항에 있어서,
    상기 복수의 애플리케이션들은 소셜 네트워킹 애플리케이션들, 소셜 마이크로-블로그들, 이메일 애플리케이션들 및 인스턴트 메시징 애플리케이션들로 구성된 그룹으로부터 선택되는 하나 이상의 통신 애플리케이션들을 포함하고,
    상기 방법은,
    상기 이상의 통신 애플리케이션들을 통해 각각의 개인과 상기 요청자 사이의 통신량을 결정하는 단계; 및
    상기 각각의 개인에 대한 순위화 스코어를 결정하는 단계를 더 포함하고,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 팩터는 상기 하나 이상의 통신 애플리케이션들을 통한 상기 각각의 개인과 상기 요청자 사이의 상기 결정된 통신량인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  3. 제 2 항에 있어서,
    상기 하나 이상의 통신 애플리케이션들을 통한 상기 각각의 개인과 상기 요청자 사이의 통신량이 임계치를 초과하는지 여부를 결정하는 단계를 포함하고,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 팩터는 상기 하나 이상의 통신 애플리케이션들을 통한 상기 각각의 개인과 상기 요청자 사이의 통신량이 상기 임계치를 초과하는지 여부의 결정인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  4. 제 1 항에 있어서,
    상기 요청자와 각각의 개인이 각각의 소셜 네트워킹 애플리케이션에서 직접 연결되는지 여부를 결정하는 단계; 및
    상기 각각의 개인에 대한 순위화 스코어를 결정하는 단계를 더 포함하고,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 팩터는 상기 요청자와 상기 각각의 개인이 각각의 소셜 네트워킹 애플리케이션에서 직접 연결되는지 여부의 결정인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    각각의 개인에 대한 상기 개인-특유 데이터는 상기 각각의 개인의 다른 이미지들로부터 유도되는 특성들을 더 포함하고,
    상기 순위화는 추가로, 상기 각각의 개인의 다른 이미지들로부터 유도되는 특성들과 상기 수신된 질의 사이의 유사성에 따르는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  6. 제 5 항에 있어서,
    상기 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 이미지 캡처 데이터 및 시간 정보를 포함하고,
    상기 방법은,
    상기 수신된 질의가 상기 각각의 개인의 상기 다른 이미지들의 날짜 및 시간 정보와 유사한 이미지 캡처 날짜 및 시간 정보를 가지는 정도에 따라 하나 이상의 유사성 메트릭들을 결정하는 단계; 및
    상기 각각의 개인에 대한 순위화 스코어를 결정하는 단계를 더 포함하고,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 하나 이상의 팩터들은 상기 하나 이상의 유사성 메트릭들인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 상기 하나 이상의 이미지 소스들로부터의 이미지들에서 상기 각각의 개인의 출현(occurrence)들의 양에 관한 출현 정보를 포함하고,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 팩터는 상기 각각의 개인에 대한 상기 출현 정보인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 각각의 개인의 다른 이미지들로부터 유도되는 특성들은 실내 거주지 팩터, 실외 거주지 팩터, 성별 팩터, 인종 팩터, 안경 팩터, 얼굴 털 팩터, 머리 털 팩터, 모자(headwear) 팩터, 의류 팩터 및 눈 색상 팩터 중 하나 이상을 포함하는 시각적 팩터들을 포함하며,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 팩터들은 상기 각각의 개인에 대한 상기 시각적 팩터들을 포함하는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 시각 질의는 적어도 상기 각각의 얼굴 이미지 및 제 2 얼굴 이미지를 포함하는 복수의 얼굴 이미지들을 포함하고,
    상기 방법은,
    시각적 유사성 기준에 따라 상기 제 2 얼굴 이미지와 잠재적으로 매칭하는 잠재적 제 2 이미지 매칭들을 식별하는 단계 ? 상기 제 2 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별된, 하나 이상의 이미지 소스들로부터의 이미지들을 포함함 ?;
    상기 제 2 얼굴 이미지 매칭들과 연관된 제 2 개인을 식별하는 단계;
    각각의 식별된 개인에 대하여, 상기 복수의 애플리케이션들로부터 획득되는, 상기 제 2 개인에 대한 소셜 연결성의 제 2 소셜 연결 메트릭들을 포함하는 개인-특유 데이터를 리트리브하는 단계; 및
    적어도 상기 제 2 소셜 연결 메트릭들을 포함하는 순위화 정보에 추가로 따라서, 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 상기 순서화된 리스트를 생성하는 단계를 더 포함하는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  10. 제 9 항에 있어서,
    각각의 개인에 대한 상기 개인-특유 데이터는 상기 각각의 개인의 다른 이미지들로부터 유도되는 특성들을 더 포함하고,
    상기 각각의 개인의 다른 이미지들로부터 유도된 특성들은 상기 하나 이상의 이미지 소스들로부터의 이미지들에서 상기 각각의 개인 및 상기 제 2 개인의 동시-출현들의 양에 관한 정보를 포함하고;
    상기 방법은,
    상기 각각의 개인에 대한 순위화 스코어를 결정하는 단계를 더 포함하고,
    상기 각각의 개인에 대한 상기 순위화 스코어의 결정에서의 팩터는 상기 하나 이상의 이미지 소스들로부터의 이미지들에서 상기 개인 및 상기 제 2 개인의 상기 동시-출현들의 양인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    적어도 하나의 개인 식별자를 상기 요청자에게 송신하는 단계 전에, 사전 동의(opt-in) 리스트를 확인하고 상기 개인 식별자가 상기 요청자에게 배포 가능함을 결정하는 단계를 더 포함하는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  12. 제 1 항, 제 5 항, 제 7 항, 제 8 항, 제 9 항 또는 제 11 항 중 어느 한 항에 있어서,
    각각의 식별된 개인에 대하여, 상기 개인-특유 데이터는 상기 각각의 개인에 대한 이름, 주소, 직업, 그룹 멤버십들, 관심사들, 나이, 고향, 개인 통계들 및 업무 정보 중 하나 이상을 더 포함하고,
    상기 방법은,
    상기 각각의 개인에 대한 이름, 주소, 직업, 그룹 멤버십들, 관심사들, 나이, 고향, 개인 통계들 및 업무 정보 중 하나 이상을 또한 포함하는, 상기 요청자에 대한 개인-특유 데이터를 리트리브하는 단계;
    상기 요청자의 개인-특정 데이터가 상기 각각의 식별된 개인의 개인-특유 데이터와 유사한 정도에 따라 하나 이상의 개인 유사성 메트릭들을 결정하는 단계; 및
    상기 각각의 식별된 개인에 대한 순위화 스코어를 결정하는 단계를 더 포함하고,
    상기 각각의 식별된 개인에 대한 상기 순위화 스코어의 결정에서의 하나 이상의 팩터들은 상기 하나 이상의 개인 유사성 메트릭들인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  13. 제 1 항, 제 5 항, 제 7 항, 제 8 항, 제 9 항 또는 제 11 항 중 어느 한 항에 있어서,
    상기 요청자에 대한 현재 위치 정보를 획득하는 단계;
    각각의 식별된 개인에 대한 현재 위치 정보를 획득하는 단계; 및
    상기 각각의 식별된 개인에 대한 순위화 스코어를 결정하는 단계를 더 포함하고,
    상기 각각의 식별된 개인에 대한 상기 순위화 스코어의 결정에서의 팩터는 상기 요청자에 대한 현재 위치 정보가 상기 각각의 식별된 개인에 대한 현재 위치 정보와 매칭하는지 여부인,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 송신하는 단계 이후, 상기 요청자로부터 개인 식별자의 선택을 수신하는 단계; 및
    상기 선택된 개인 식별자에 대응하는 각각의 개인의 부가 이미지로서 상기 시각 질의의 각각의 얼굴 이미지를 저장하는 단계를 더 포함하는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  15. 제 1 항 내지 제 8 항 및 제 11 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 시각 질의는 적어도 상기 각각의 얼굴 이미지 및 제 2 얼굴 이미지를 포함하는 복수의 얼굴 이미지들을 포함하고,
    상기 방법은,
    잠재적 이미지 매칭들을 식별하기 전에, 상기 요청자로부터 상기 각각의 얼굴 이미지의 선택을 수신하는 단계를 더 포함하는,
    얼굴 이미지를 포함하는 시각 질의를 프로세싱하는 컴퓨터-구현된 방법.
  16. 얼굴 이미지를 포함하는 시각 질의를 프로세싱하기 위한 서버 시스템으로서,
    프로그램들을 실행하기 위한 하나 이상의 프로세서들;
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 포함하고,
    상기 하나 이상의 프로그램들은,
    요청자로부터, 각각의 얼굴 이미지를 포함하는 하나 이상의 얼굴 이미지들을 포함하는 시각 질의를 수신하기 위한 명령들;
    시각적 유사성 기준에 따라 상기 각각의 얼굴 이미지와 잠재적으로 매칭하는 잠재적 이미지 매칭들을 식별하기 위한 명령들 ? 상기 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들을 포함함 ?;
    상기 잠재적 이미지 매칭들과 연관된 하나 이상의 개인들을 식별하기 위한 명령들;
    각각의 식별된 개인에 대하여, 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들로 구성된 그룹으로부터 선택되는 복수의 애플리케이션들로부터 획득되는, 상기 요청자에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함하는 개인-특유 데이터를 리트리브하기 위한 명령들;
    상기 각각의 얼굴 이미지와 상기 잠재적 이미지 매칭들 사이의 시각적 유사성의 하나 이상의 메트릭들에 따라 그리고 적어도 상기 소셜 연결 메트릭들을 포함하는 순위화 정보에 따라 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 순서화된 리스트를 생성하기 위한 명령들; 및
    상기 순서화된 리스트로부터의 적어도 하나의 개인 식별자를 상기 요청자에게 송신하기 위한 명령들을 포함하는,
    시각 질의를 프로세싱하기 위한 서버 시스템.
  17. 컴퓨터에 의해 실행하기 위해 구성된 하나 이상의 프로그램들을 저장하는 비-일시적인 컴퓨터 판독 가능한 저장 매체로서,
    상기 하나 이상의 프로그램들은,
    요청자로부터, 각각의 얼굴 이미지를 포함하는 하나 이상의 얼굴 이미지들을 포함하는 시각 질의를 수신하기 위한 명령들;
    시각적 유사성 기준에 따라 상기 각각의 얼굴 이미지와 잠재적으로 매칭하는 잠재적 이미지 매칭들을 식별하기 위한 명령들 ? 상기 잠재적 이미지 매칭들은 상기 요청자에 관한 데이터에 따라 식별되는 하나 이상의 이미지 소스들로부터의 이미지들을 포함함 ?;
    상기 잠재적 이미지 매칭들과 연관된 하나 이상의 개인들을 식별하기 위한 명령들;
    각각의 식별된 개인에 대하여, 통신 애플리케이션들, 소셜 네트워킹 애플리케이션들, 달력 애플리케이션들 및 협력 애플리케이션들로 구성된 그룹으로부터 선택되는 복수의 애플리케이션들로부터 획득되는, 상기 요청자에 대한 소셜 연결성의 소셜 연결 메트릭들을 포함하는 개인-특유 데이터를 리트리브하기 위한 명령들;
    상기 각각의 얼굴 이미지와 상기 잠재적 이미지 매칭들 사이의 시각적 유사성의 하나 이상의 메트릭들에 따라 그리고 적어도 상기 소셜 연결 메트릭들을 포함하는 순위화 정보에 따라 상기 식별된 하나 이상의 개인들을 순위화함으로써 개인들의 순서화된 리스트를 생성하기 위한 명령들; 및
    상기 순서화된 리스트로부터의 적어도 하나의 개인 식별자를 상기 요청자에게 송신하기 위한 명령들을 포함하는,
    비-일시적인 컴퓨터 판독 가능한 저장 매체.
  18. 얼굴 이미지를 포함하는 시각 질의를 프로세싱하기 위한 서버 시스템으로서,
    프로그램들을 실행하기 위한 하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 포함하고,
    상기 하나 이상의 프로그램들은 제 1 항 내지 제 15 항 중 어느 한 항의 방법을 구현하기 위한 명령들을 포함하는,
    시각 질의를 프로세싱하기 위한 서버 시스템.
  19. 컴퓨터에 의해 실행하기 위해 구성되는 하나 이상의 프로그램들을 저장하는 비-일시적인 컴퓨터 판독 가능한 저장 매체로서,
    상기 하나 이상의 프로그램들은 제 1 항 내지 제 15 항 중 어느 한 항의 방법을 구현하기 위한 명령들을 포함하는,
    비-일시적인 컴퓨터 판독 가능한 저장 매체.
KR1020127006118A 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식 KR101760853B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US23239709P 2009-08-07 2009-08-07
US61/232,397 2009-08-07
US37078410P 2010-08-04 2010-08-04
US61/370,784 2010-08-04
US12/851,473 US8670597B2 (en) 2009-08-07 2010-08-05 Facial recognition with social network aiding
US12/851,473 2010-08-05
PCT/US2010/044771 WO2011017653A1 (en) 2009-08-07 2010-08-06 Facial recognition with social network aiding

Related Child Applications (2)

Application Number Title Priority Date Filing Date
KR1020167023079A Division KR101686613B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식
KR1020167023080A Division KR101760855B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식

Publications (2)

Publication Number Publication Date
KR20120058539A true KR20120058539A (ko) 2012-06-07
KR101760853B1 KR101760853B1 (ko) 2017-07-24

Family

ID=42964240

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020167023080A KR101760855B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식
KR1020127006118A KR101760853B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식
KR1020167023079A KR101686613B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167023080A KR101760855B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167023079A KR101686613B1 (ko) 2009-08-07 2010-08-06 소셜 네트워크 지원을 이용한 얼굴 인식

Country Status (9)

Country Link
US (4) US8670597B2 (ko)
EP (1) EP2462522A1 (ko)
JP (4) JP5557911B2 (ko)
KR (3) KR101760855B1 (ko)
CN (2) CN102667763A (ko)
AU (1) AU2010279248B2 (ko)
BR (1) BR112012002823B1 (ko)
CA (1) CA2770239C (ko)
WO (1) WO2011017653A1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014071033A1 (en) * 2012-10-31 2014-05-08 Google Inc. Sorting social profile search results based on computing personal similarity scores
KR20150142030A (ko) * 2013-04-12 2015-12-21 페이스북, 인크. 전자 이미지 내 컨텐츠의 식별
KR20160016567A (ko) * 2014-08-02 2016-02-15 삼성전자주식회사 전자 장치 및 이의 사용자 인터렉션 방법
KR20200090876A (ko) * 2016-06-12 2020-07-29 애플 인크. 정황상 관련있는 미디어 콘텐츠를 검색하기 위한 사용자 인터페이스들
US11042266B2 (en) 2019-05-06 2021-06-22 Apple Inc. Media browsing user interface with intelligently selected representative media items
US11099712B2 (en) 2010-01-06 2021-08-24 Apple Inc. Device, method, and graphical user interface for navigating and displaying content in context
US11334209B2 (en) 2016-06-12 2022-05-17 Apple Inc. User interfaces for retrieving contextually relevant media content
US11601584B2 (en) 2006-09-06 2023-03-07 Apple Inc. Portable electronic device for photo management
US11782575B2 (en) 2018-05-07 2023-10-10 Apple Inc. User interfaces for sharing contextually relevant media content
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences

Families Citing this family (280)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937393B2 (en) 2005-11-28 2011-05-03 Commvault Systems, Inc. Systems and methods for classifying and transferring information in a storage network
US20200257596A1 (en) 2005-12-19 2020-08-13 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
US20080189609A1 (en) * 2007-01-23 2008-08-07 Timothy Mark Larson Method and system for creating customized output
WO2009116049A2 (en) 2008-03-20 2009-09-24 Vizi Labs Relationship mapping employing multi-dimensional context including facial recognition
US9143573B2 (en) 2008-03-20 2015-09-22 Facebook, Inc. Tag suggestions for images on online social networks
JP2011524596A (ja) * 2008-06-17 2011-09-01 ジョステンス, インコーポレイテッド イヤーブック作成のためのシステムおよび方法
US8457366B2 (en) 2008-12-12 2013-06-04 At&T Intellectual Property I, L.P. System and method for matching faces
US9210313B1 (en) 2009-02-17 2015-12-08 Ikorongo Technology, LLC Display device content selection through viewer identification and affinity prediction
US9727312B1 (en) * 2009-02-17 2017-08-08 Ikorongo Technology, LLC Providing subject information regarding upcoming images on a display
US10706601B2 (en) 2009-02-17 2020-07-07 Ikorongo Technology, LLC Interface for receiving subject affinity information
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
JP5436104B2 (ja) * 2009-09-04 2014-03-05 キヤノン株式会社 画像検索装置及び画像検索方法
US20110099199A1 (en) * 2009-10-27 2011-04-28 Thijs Stalenhoef Method and System of Detecting Events in Image Collections
US8121618B2 (en) * 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8819172B2 (en) * 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US20110119297A1 (en) * 2009-11-18 2011-05-19 Robert Rango System and method for providing a personal characteristic-based contact list
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US9405772B2 (en) 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US8526684B2 (en) * 2009-12-14 2013-09-03 Microsoft Corporation Flexible image comparison and face matching application
US8644563B2 (en) * 2009-12-14 2014-02-04 Microsoft Corporation Recognition of faces using prior behavior
WO2011082332A1 (en) 2009-12-31 2011-07-07 Digimarc Corporation Methods and arrangements employing sensor-equipped smart phones
US9097890B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc Grating in a light transmissive illumination system for see-through near-eye display glasses
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
US9129295B2 (en) 2010-02-28 2015-09-08 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear
US9759917B2 (en) 2010-02-28 2017-09-12 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered AR eyepiece interface to external devices
WO2011106797A1 (en) 2010-02-28 2011-09-01 Osterhout Group, Inc. Projection triggering through an external marker in an augmented reality eyepiece
US9091851B2 (en) 2010-02-28 2015-07-28 Microsoft Technology Licensing, Llc Light control in head mounted displays
US9134534B2 (en) 2010-02-28 2015-09-15 Microsoft Technology Licensing, Llc See-through near-eye display glasses including a modular image source
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US10180572B2 (en) 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US9341843B2 (en) 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
US9097891B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment
US9223134B2 (en) 2010-02-28 2015-12-29 Microsoft Technology Licensing, Llc Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses
US9128281B2 (en) 2010-09-14 2015-09-08 Microsoft Technology Licensing, Llc Eyepiece with uniformly illuminated reflective display
US9182596B2 (en) 2010-02-28 2015-11-10 Microsoft Technology Licensing, Llc See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light
US20120206335A1 (en) * 2010-02-28 2012-08-16 Osterhout Group, Inc. Ar glasses with event, sensor, and user action based direct control of external devices with feedback
US20120249797A1 (en) 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display
US9366862B2 (en) 2010-02-28 2016-06-14 Microsoft Technology Licensing, Llc System and method for delivering content to a group of see-through near eye display eyepieces
US9229227B2 (en) 2010-02-28 2016-01-05 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a light transmissive wedge shaped illumination system
US8903798B2 (en) 2010-05-28 2014-12-02 Microsoft Corporation Real-time annotation and enrichment of captured video
KR101317401B1 (ko) * 2010-08-25 2013-10-10 주식회사 팬택 객체 저장이 가능한 단말 장치 및 방법
KR20120021061A (ko) * 2010-08-31 2012-03-08 삼성전자주식회사 특정 영역에서 키워드를 추출하는 검색 서비스 제공방법 및 이를 적용한 디스플레이 장치
KR20120021057A (ko) * 2010-08-31 2012-03-08 삼성전자주식회사 특정 영역에서 키워드를 추출하는 검색 서비스 제공방법 및 이를 적용한 디스플레이 장치
US8630494B1 (en) 2010-09-01 2014-01-14 Ikorongo Technology, LLC Method and system for sharing image content based on collection proximity
US8824748B2 (en) * 2010-09-24 2014-09-02 Facebook, Inc. Auto tagging in geo-social networking system
US20120096354A1 (en) * 2010-10-14 2012-04-19 Park Seungyong Mobile terminal and control method thereof
US20120114199A1 (en) * 2010-11-05 2012-05-10 Myspace, Inc. Image auto tagging method and application
US8559682B2 (en) * 2010-11-09 2013-10-15 Microsoft Corporation Building a person profile database
KR101429962B1 (ko) * 2010-11-22 2014-08-14 한국전자통신연구원 기억 회상용 데이터 처리 시스템 및 그 방법
US9984157B2 (en) * 2010-12-01 2018-05-29 Aware Inc. Relationship detection within biometric match results candidates
US8526686B2 (en) * 2010-12-24 2013-09-03 Telefonaktiebolaget L M Ericsson (Publ) Dynamic profile creation in response to facial recognition
KR101649322B1 (ko) * 2011-02-03 2016-08-18 페이스북, 인크. 이미지에서 텍스트로 및 텍스트에서 이미지로 연관시키기 위한 시스템 및 방법
WO2012112992A2 (en) 2011-02-18 2012-08-23 Google Inc. Facial recognition
US20120213404A1 (en) 2011-02-18 2012-08-23 Google Inc. Automatic event recognition and cross-user photo clustering
US9251854B2 (en) * 2011-02-18 2016-02-02 Google Inc. Facial detection, recognition and bookmarking in videos
US9483751B2 (en) 2011-02-18 2016-11-01 Google Inc. Label privileges
US8606776B2 (en) 2011-02-18 2013-12-10 Google Inc. Affinity based ranked for search and display
US9317530B2 (en) * 2011-03-29 2016-04-19 Facebook, Inc. Face recognition based on spatial and temporal proximity
RU2011115292A (ru) * 2011-04-18 2012-10-27 Валерий Леонидович Сериков (RU) Способ коммуникации с целью осуществления избирательного знакомства
US20120278176A1 (en) * 2011-04-27 2012-11-01 Amir Naor Systems and methods utilizing facial recognition and social network information associated with potential customers
US8631084B2 (en) 2011-04-29 2014-01-14 Facebook, Inc. Dynamic tagging recommendation
US8818049B2 (en) * 2011-05-18 2014-08-26 Google Inc. Retrieving contact information based on image recognition searches
US9678992B2 (en) 2011-05-18 2017-06-13 Microsoft Technology Licensing, Llc Text to image translation
US8891832B2 (en) * 2011-06-03 2014-11-18 Facebook, Inc. Computer-vision-assisted location check-in
US8755610B2 (en) * 2011-06-10 2014-06-17 Apple Inc. Auto-recognition for noteworthy objects
US8935259B2 (en) * 2011-06-20 2015-01-13 Google Inc Text suggestions for images
JP5830784B2 (ja) * 2011-06-23 2015-12-09 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
US9159324B2 (en) * 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US9143889B2 (en) * 2011-07-05 2015-09-22 Htc Corporation Method of establishing application-related communication between mobile electronic devices, mobile electronic device, non-transitory machine readable media thereof, and media sharing method
TWI452527B (zh) * 2011-07-06 2014-09-11 Univ Nat Chiao Tung 基於擴增實境與雲端計算之應用程式執行方法與系統
US8725796B2 (en) 2011-07-07 2014-05-13 F. David Serena Relationship networks having link quality metrics with inference and concomitant digital value exchange
EP2731072A4 (en) 2011-07-07 2015-03-25 Kao Corp FINGER-PRINTED PRINT ANALYSIS METHOD, COSMETIC CONSULTATION METHOD, AND FACE IMAGE GENERATION METHOD
US9195679B1 (en) 2011-08-11 2015-11-24 Ikorongo Technology, LLC Method and system for the contextual display of image tags in a social network
US20130054631A1 (en) * 2011-08-30 2013-02-28 Microsoft Corporation Adding social network data to search suggestions
US8533204B2 (en) * 2011-09-02 2013-09-10 Xerox Corporation Text-based searching of image data
US9141977B2 (en) * 2011-09-07 2015-09-22 Elwha Llc Computational systems and methods for disambiguating search terms corresponding to network members
US8953889B1 (en) * 2011-09-14 2015-02-10 Rawles Llc Object datastore in an augmented reality environment
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9906927B2 (en) 2011-09-28 2018-02-27 Elwha Llc Multi-modality communication initiation
US9503550B2 (en) 2011-09-28 2016-11-22 Elwha Llc Multi-modality communication modification
US9762524B2 (en) 2011-09-28 2017-09-12 Elwha Llc Multi-modality communication participation
US9788349B2 (en) 2011-09-28 2017-10-10 Elwha Llc Multi-modality communication auto-activation
US20130109302A1 (en) * 2011-10-31 2013-05-02 Royce A. Levien Multi-modality communication with conversion offloading
US9699632B2 (en) 2011-09-28 2017-07-04 Elwha Llc Multi-modality communication with interceptive conversion
US9002937B2 (en) 2011-09-28 2015-04-07 Elwha Llc Multi-party multi-modality communication
US9477943B2 (en) 2011-09-28 2016-10-25 Elwha Llc Multi-modality communication
US9165017B2 (en) 2011-09-29 2015-10-20 Google Inc. Retrieving images
US8885960B2 (en) 2011-10-05 2014-11-11 Microsoft Corporation Linking photographs via face, time, and location
US8782042B1 (en) * 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
CN102624534A (zh) * 2011-10-18 2012-08-01 北京小米科技有限责任公司 一种建立群组的方法
CN108014002A (zh) 2011-11-04 2018-05-11 马萨诸塞眼科耳科诊所 自适应视觉辅助装置
US9087273B2 (en) * 2011-11-15 2015-07-21 Facebook, Inc. Facial recognition using social networking information
US9280708B2 (en) * 2011-11-30 2016-03-08 Nokia Technologies Oy Method and apparatus for providing collaborative recognition using media segments
JP6153086B2 (ja) 2011-12-14 2017-06-28 日本電気株式会社 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
US10115127B2 (en) 2011-12-16 2018-10-30 Nec Corporation Information processing system, information processing method, communications terminals and control method and control program thereof
US20130156274A1 (en) * 2011-12-19 2013-06-20 Microsoft Corporation Using photograph to initiate and perform action
US9256620B2 (en) * 2011-12-20 2016-02-09 Amazon Technologies, Inc. Techniques for grouping images
WO2013100980A1 (en) * 2011-12-28 2013-07-04 Empire Technology Development Llc Preventing classification of object contextual information
US8924890B2 (en) * 2012-01-10 2014-12-30 At&T Intellectual Property I, L.P. Dynamic glyph-based search
KR102007840B1 (ko) * 2012-04-13 2019-08-06 엘지전자 주식회사 이미지 검색 방법 및 이를 위한 디지털 디바이스
US8422747B1 (en) 2012-04-16 2013-04-16 Google Inc. Finding untagged images of a social network member
US8925106B1 (en) 2012-04-20 2014-12-30 Google Inc. System and method of ownership of an online collection
US8666123B2 (en) * 2012-04-26 2014-03-04 Google Inc. Creating social network groups
US9047376B2 (en) * 2012-05-01 2015-06-02 Hulu, LLC Augmenting video with facial recognition
US20130294594A1 (en) * 2012-05-04 2013-11-07 Steven Chervets Automating the identification of meeting attendees
US8897484B1 (en) 2012-05-18 2014-11-25 Google Inc. Image theft detector
US8892523B2 (en) 2012-06-08 2014-11-18 Commvault Systems, Inc. Auto summarization of content
US8861804B1 (en) * 2012-06-15 2014-10-14 Shutterfly, Inc. Assisted photo-tagging with facial recognition models
US20140015967A1 (en) * 2012-07-16 2014-01-16 Shaun Moore Social intelligence, tracking and monitoring system and methods
US9098584B1 (en) * 2012-07-19 2015-08-04 Google Inc. Image search privacy protection techniques
US8868598B2 (en) * 2012-08-15 2014-10-21 Microsoft Corporation Smart user-centric information aggregation
KR20140027826A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 휴대 단말기에서 컨텐츠를 표시하는 장치 및 방법
US9471838B2 (en) * 2012-09-05 2016-10-18 Motorola Solutions, Inc. Method, apparatus and system for performing facial recognition
AU2012101375A4 (en) * 2012-09-06 2012-10-18 Oracle Recording's FutureNetID
WO2014056112A1 (en) 2012-10-10 2014-04-17 Broadbandtv, Corp. Intelligent video thumbnail selection and generation
US20140108501A1 (en) * 2012-10-17 2014-04-17 Matthew Nicholas Papakipos Presence Granularity with Augmented Reality
US10032233B2 (en) * 2012-10-17 2018-07-24 Facebook, Inc. Social context in augmented reality
US10038885B2 (en) 2012-10-17 2018-07-31 Facebook, Inc. Continuous capture with augmented reality
TWI528186B (zh) * 2012-11-09 2016-04-01 財團法人資訊工業策進會 經由音訊發布訊息的系統及方法
US20140160157A1 (en) * 2012-12-11 2014-06-12 Adam G. Poulos People-triggered holographic reminders
CN103076879A (zh) * 2012-12-28 2013-05-01 中兴通讯股份有限公司 基于人脸信息的多媒体交互方法及装置及终端
US8824751B2 (en) * 2013-01-07 2014-09-02 MTN Satellite Communications Digital photograph group editing and access
JP2014164697A (ja) * 2013-02-27 2014-09-08 Canon Inc 画像処理装置および画像処理方法、プログラム、並びに記憶媒体
US9514197B2 (en) * 2013-03-01 2016-12-06 Ebay Inc. System and method of selecting events or locations based on content
US20140280267A1 (en) * 2013-03-14 2014-09-18 Fotofad, Inc. Creating real-time association interaction throughout digital media
MY196507A (en) 2013-03-15 2023-04-18 Socure Inc Risk Assessment Using Social Networking Data
WO2014174547A1 (ja) 2013-04-22 2014-10-30 富士通株式会社 システムの制御方法、携帯情報端末の制御方法、サーバの制御方法
WO2014172827A1 (en) * 2013-04-22 2014-10-30 Nokia Corporation A method and apparatus for acquaintance management and privacy protection
US9922052B1 (en) * 2013-04-26 2018-03-20 A9.Com, Inc. Custom image data store
KR20140130331A (ko) * 2013-04-30 2014-11-10 (주)세이엔 착용형 전자 장치 및 그의 제어 방법
US9646208B2 (en) * 2013-05-07 2017-05-09 Htc Corporation Method for computerized grouping contact list, electronic device using the same and computer program product
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
KR101686830B1 (ko) * 2013-05-30 2016-12-15 페이스북, 인크. 온라인 소셜 네트워크 상의 이미지를 위한 태그 제안
US10645127B1 (en) * 2013-05-30 2020-05-05 Jpmorgan Chase Bank, N.A. System and method for virtual briefing books
US9772176B2 (en) 2013-06-13 2017-09-26 Intuitive Surgical Operations, Inc. Overlapped chirped fiber bragg grating sensing fiber and methods and apparatus for parameter measurement using same
KR102099400B1 (ko) * 2013-06-20 2020-04-09 삼성전자주식회사 휴대 단말기에서 이미지를 표시하는 장치 및 방법
US20150006669A1 (en) * 2013-07-01 2015-01-01 Google Inc. Systems and methods for directing information flow
US9798813B2 (en) * 2013-07-31 2017-10-24 Salesforce.Com, Inc. Extensible person container
CN104346370B (zh) * 2013-07-31 2018-10-23 阿里巴巴集团控股有限公司 图像搜索、获取图像文本信息的方法及装置
CN103347032A (zh) * 2013-08-01 2013-10-09 赵频 一种交友的方法和系统
WO2015016784A1 (en) * 2013-08-01 2015-02-05 National University Of Singapore A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
US10152495B2 (en) * 2013-08-19 2018-12-11 Qualcomm Incorporated Visual search in real world using optical see-through head mounted display with augmented reality and user interaction tracking
WO2015053604A1 (en) * 2013-10-08 2015-04-16 Data Calibre Sdn Bhd A face retrieval method
US9531722B1 (en) 2013-10-31 2016-12-27 Google Inc. Methods for generating an activity stream
US9542457B1 (en) 2013-11-07 2017-01-10 Google Inc. Methods for displaying object history information
US9614880B1 (en) 2013-11-12 2017-04-04 Google Inc. Methods for real-time notifications in an activity stream
US20150131868A1 (en) * 2013-11-14 2015-05-14 VISAGE The Global Pet Recognition Company Inc. System and method for matching an animal to existing animal profiles
US9928447B2 (en) 2013-12-20 2018-03-27 Intel Corporation Social circle and relationship identification
US9972324B2 (en) 2014-01-10 2018-05-15 Verizon Patent And Licensing Inc. Personal assistant application
IN2014MU00227A (ko) * 2014-01-22 2015-09-04 Reliance Jio Infocomm Ltd
US9177194B2 (en) * 2014-01-29 2015-11-03 Sony Corporation System and method for visually distinguishing faces in a digital image
US20150213010A1 (en) * 2014-01-30 2015-07-30 Sage Microelectronics Corp. Storage system with distributed data searching
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US10121060B2 (en) 2014-02-13 2018-11-06 Oath Inc. Automatic group formation and group detection through media recognition
US9509772B1 (en) 2014-02-13 2016-11-29 Google Inc. Visualization and control of ongoing ingress actions
US9710447B2 (en) * 2014-03-17 2017-07-18 Yahoo! Inc. Visual recognition using social links
GB201406594D0 (en) 2014-04-11 2014-05-28 Idscan Biometric Ltd Method, system and computer program for validating a facial image-bearing identity document
US9823724B2 (en) * 2014-04-16 2017-11-21 Facebook, Inc. Power management of mobile clients using location-based services
US9495617B2 (en) 2014-05-08 2016-11-15 Shutterfly, Inc. Image product creation based on face images grouped using image product statistics
US9519826B2 (en) 2014-05-08 2016-12-13 Shutterfly, Inc. Automatic image product creation for user accounts comprising large number of images
US9594946B2 (en) 2014-05-08 2017-03-14 Shutterfly, Inc. Image product creation based on face images grouped using image product statistics
US9280701B2 (en) 2014-05-08 2016-03-08 Shutterfly, Inc. Grouping face images using statistic distribution estimate
US20150356180A1 (en) * 2014-06-04 2015-12-10 Facebook, Inc. Inferring relationship statuses of users of a social networking system
US9536199B1 (en) 2014-06-09 2017-01-03 Google Inc. Recommendations based on device usage
JP5664813B1 (ja) * 2014-06-10 2015-02-04 富士ゼロックス株式会社 デザイン管理装置及びプログラム
US9147117B1 (en) 2014-06-11 2015-09-29 Socure Inc. Analyzing facial recognition data and social network data for user authentication
US9507791B2 (en) 2014-06-12 2016-11-29 Google Inc. Storage system user interface with floating file collection
US10078781B2 (en) * 2014-06-13 2018-09-18 Google Llc Automatically organizing images
US9830391B1 (en) 2014-06-24 2017-11-28 Google Inc. Query modification based on non-textual resource context
US9811592B1 (en) 2014-06-24 2017-11-07 Google Inc. Query modification based on textual resource context
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
CN104143213B (zh) * 2014-07-16 2017-05-31 北京卫星制造厂 一种基于视觉检测的导管自动识别方法
US20160019284A1 (en) * 2014-07-18 2016-01-21 Linkedln Corporation Search engine using name clustering
CN104091164A (zh) * 2014-07-28 2014-10-08 北京奇虎科技有限公司 人脸图片人名识别方法和系统
US9251427B1 (en) 2014-08-12 2016-02-02 Microsoft Technology Licensing, Llc False face representation identification
GB201415938D0 (en) * 2014-09-09 2014-10-22 Idscan Biometrics Ltd Distributed Identity Validation Method System And Computer Program
US10277588B2 (en) * 2014-11-03 2019-04-30 Facebook, Inc. Systems and methods for authenticating a user based on self-portrait media content
US10104345B2 (en) * 2014-12-16 2018-10-16 Sighthound, Inc. Data-enhanced video viewing system and methods for computer vision processing
CN104537341B (zh) * 2014-12-23 2016-10-05 北京奇虎科技有限公司 人脸图片信息获取方法和装置
WO2016101766A1 (zh) 2014-12-23 2016-06-30 北京奇虎科技有限公司 相似人脸图片获取和人脸图片信息获取方法和装置
US9870420B2 (en) 2015-01-19 2018-01-16 Google Llc Classification and storage of documents
US9953151B2 (en) 2015-02-03 2018-04-24 Chon Hock LEOW System and method identifying a user to an associated device
JP6589300B2 (ja) * 2015-03-09 2019-10-16 フリュー株式会社 画像生成装置およびその制御方法
US10445391B2 (en) 2015-03-27 2019-10-15 Jostens, Inc. Yearbook publishing system
US10769196B2 (en) 2015-03-27 2020-09-08 Huawei Technologies Co., Ltd. Method and apparatus for displaying electronic photo, and mobile device
GB2537139A (en) * 2015-04-08 2016-10-12 Edward Henderson Charles System and method for processing and retrieving digital content
CN106156144A (zh) * 2015-04-13 2016-11-23 腾讯科技(深圳)有限公司 信息推送方法及装置
US10691314B1 (en) 2015-05-05 2020-06-23 State Farm Mutual Automobile Insurance Company Connecting users to entities based on recognized objects
US9704020B2 (en) 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
US9872061B2 (en) 2015-06-20 2018-01-16 Ikorongo Technology, LLC System and device for interacting with a remote presentation
US9591359B2 (en) 2015-06-26 2017-03-07 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on prevalence
US20160378308A1 (en) * 2015-06-26 2016-12-29 Rovi Guides, Inc. Systems and methods for identifying an optimal image for a media asset representation
KR20180021669A (ko) * 2015-06-26 2018-03-05 로비 가이드스, 인크. 유저 프로파일에 기초한 미디어 자산을 위한 이미지의 자동 포맷팅을 위한 시스템 및 방법
US10628009B2 (en) 2015-06-26 2020-04-21 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
KR20170004450A (ko) * 2015-07-02 2017-01-11 엘지전자 주식회사 이동단말기 및 그 제어방법
EP3323083A4 (en) 2015-07-15 2019-04-17 15 Seconds Of Fame, Inc. APPARATUS AND METHODS FOR FACIAL RECOGNITION AND VIDEO ANALYSIS FOR IDENTIFYING INDIVIDUALS IN CONTEXTUAL VIDEO STREAMS
US10154071B2 (en) * 2015-07-29 2018-12-11 International Business Machines Corporation Group chat with dynamic background images and content from social media
CN105095873B (zh) * 2015-07-31 2018-12-18 小米科技有限责任公司 照片共享方法、装置
CN105069083B (zh) * 2015-07-31 2019-03-08 小米科技有限责任公司 关联用户的确定方法及装置
US20170060404A1 (en) * 2015-08-28 2017-03-02 Facebook, Inc. Systems and methods for providing interactivity for panoramic media content
US10521099B2 (en) * 2015-08-28 2019-12-31 Facebook, Inc. Systems and methods for providing interactivity for panoramic media content
US10521100B2 (en) 2015-08-28 2019-12-31 Facebook, Inc. Systems and methods for providing interactivity for panoramic media content
BR112018007979A2 (pt) 2015-10-21 2019-11-12 15 Seconds Of Fame Inc métodos e aparelho para minimização de falso positivo em aplicações de reconhecimento facial
WO2017078793A1 (en) 2015-11-04 2017-05-11 Shutterfly, Inc. Automatic image product creation for user accounts comprising large number of images
US9904872B2 (en) 2015-11-13 2018-02-27 Microsoft Technology Licensing, Llc Visual representations of photo albums
US10291610B2 (en) 2015-12-15 2019-05-14 Visa International Service Association System and method for biometric authentication using social network
US10002313B2 (en) 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
CN105787023B (zh) * 2016-02-24 2019-03-26 北京橙鑫数据科技有限公司 多媒体文件的发布方法和装置
WO2017143575A1 (zh) * 2016-02-25 2017-08-31 华为技术有限公司 对图片的内容进行检索的方法、便携式电子设备和图形用户界面
US10306315B2 (en) 2016-03-29 2019-05-28 International Business Machines Corporation Video streaming augmenting
US10740385B1 (en) * 2016-04-21 2020-08-11 Shutterstock, Inc. Identifying visual portions of visual media files responsive to search queries
US11003667B1 (en) 2016-05-27 2021-05-11 Google Llc Contextual information for a displayed resource
US10318812B2 (en) 2016-06-21 2019-06-11 International Business Machines Corporation Automatic digital image correlation and distribution
US10152521B2 (en) 2016-06-22 2018-12-11 Google Llc Resource recommendations for a displayed resource
CN106096011A (zh) * 2016-06-23 2016-11-09 北京小米移动软件有限公司 照片分享方法及装置
CN106096009A (zh) * 2016-06-23 2016-11-09 北京小米移动软件有限公司 消息生成方法及装置
US10802671B2 (en) 2016-07-11 2020-10-13 Google Llc Contextual information for a displayed resource that includes an image
US10467300B1 (en) 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
US10051108B2 (en) 2016-07-21 2018-08-14 Google Llc Contextual information for a notification
US10489459B1 (en) 2016-07-21 2019-11-26 Google Llc Query recommendations for a displayed resource
US10169649B2 (en) * 2016-07-28 2019-01-01 International Business Machines Corporation Smart image filtering method with domain rules application
US10212113B2 (en) 2016-09-19 2019-02-19 Google Llc Uniform resource identifier and image sharing for contextual information display
CN106446831B (zh) * 2016-09-24 2021-06-25 江西欧迈斯微电子有限公司 一种人脸识别方法及装置
US10540516B2 (en) 2016-10-13 2020-01-21 Commvault Systems, Inc. Data protection within an unsecured storage environment
US20180247310A1 (en) * 2017-02-28 2018-08-30 Mastercard International Incorporated System and method for validating a cashless transaction
US10282598B2 (en) 2017-03-07 2019-05-07 Bank Of America Corporation Performing image analysis for dynamic personnel identification based on a combination of biometric features
US10311308B2 (en) * 2017-03-31 2019-06-04 International Business Machines Corporation Image processing to identify selected individuals in a field of view
US10552471B1 (en) * 2017-04-21 2020-02-04 Stripe, Inc. Determining identities of multiple people in a digital image
EP3410330B1 (en) * 2017-05-31 2021-07-21 Mastercard International Incorporated Improvements in biometric authentication
US10679068B2 (en) 2017-06-13 2020-06-09 Google Llc Media contextual information from buffered media data
US20180365268A1 (en) * 2017-06-15 2018-12-20 WindowLykr Inc. Data structure, system and method for interactive media
WO2019008553A1 (en) * 2017-07-07 2019-01-10 Bhushan Fani SYSTEM AND METHOD FOR ESTABLISHING A COMMUNICATION SESSION
US10607082B2 (en) * 2017-09-09 2020-03-31 Google Llc Systems, methods, and apparatus for image-responsive automated assistants
US10824329B2 (en) * 2017-09-25 2020-11-03 Motorola Solutions, Inc. Methods and systems for displaying query status information on a graphical user interface
US10803297B2 (en) 2017-09-27 2020-10-13 International Business Machines Corporation Determining quality of images for user identification
US10795979B2 (en) 2017-09-27 2020-10-06 International Business Machines Corporation Establishing personal identity and user behavior based on identity patterns
US10839003B2 (en) 2017-09-27 2020-11-17 International Business Machines Corporation Passively managed loyalty program using customer images and behaviors
US10776467B2 (en) 2017-09-27 2020-09-15 International Business Machines Corporation Establishing personal identity using real time contextual data
WO2019075027A1 (en) 2017-10-10 2019-04-18 Laurie Cal Llc PLATFORM AND PROCESS FOR VERIFYING ONLINE IDENTITY
WO2019083509A1 (en) * 2017-10-24 2019-05-02 Hewlett-Packard Development Company, L.P. PEOPLE SEGMENTATIONS FOR BACKGROUND REPLACEMENTS
US11443551B2 (en) * 2017-10-24 2022-09-13 Hewlett-Packard Development Company, L.P. Facial recognitions based on contextual information
KR102061787B1 (ko) 2017-11-29 2020-01-03 삼성전자주식회사 이미지를 촬영하는 전자 장치 및 이미지 표시 방법
US10565432B2 (en) 2017-11-29 2020-02-18 International Business Machines Corporation Establishing personal identity based on multiple sub-optimal images
US10387487B1 (en) 2018-01-25 2019-08-20 Ikorongo Technology, LLC Determining images of interest based on a geographical location
CN108270794B (zh) 2018-02-06 2020-10-09 腾讯科技(深圳)有限公司 内容发布方法、装置及可读介质
US10642886B2 (en) * 2018-02-14 2020-05-05 Commvault Systems, Inc. Targeted search of backup data using facial recognition
US10810457B2 (en) * 2018-05-09 2020-10-20 Fuji Xerox Co., Ltd. System for searching documents and people based on detecting documents and people around a table
US10511763B1 (en) * 2018-06-19 2019-12-17 Microsoft Technology Licensing, Llc Starting electronic communication based on captured image
CA3050456C (en) * 2018-07-24 2023-01-03 Sultan A. Alrasheed Facial modelling and matching systems and methods
US10402553B1 (en) * 2018-07-31 2019-09-03 Capital One Services, Llc System and method for using images to authenticate a user
KR102077093B1 (ko) * 2018-08-23 2020-02-13 엔에이치엔 주식회사 사용자 단말기로부터 수신되는 이미지를 다른 사용자 단말기에 공유하기 위한 장치 및 방법
US10936856B2 (en) 2018-08-31 2021-03-02 15 Seconds of Fame, Inc. Methods and apparatus for reducing false positives in facial recognition
US10891480B2 (en) * 2018-09-27 2021-01-12 Ncr Corporation Image zone processing
CN109388722B (zh) * 2018-09-30 2022-10-11 上海碳蓝网络科技有限公司 一种用于添加或查找社交联系人的方法与设备
US11012387B2 (en) 2018-10-30 2021-05-18 AMI Holdings Limited Apparatus and method for matching individuals during an ephemeral time period based upon voting and matching criteria
US10810403B2 (en) * 2018-10-30 2020-10-20 AMI Holdings Limited Apparatus and method for coordinating the matching and initial communications between individuals in a dating application
KR102605451B1 (ko) * 2018-11-14 2023-11-24 삼성전자주식회사 이미지 내에 포함된 복수의 외부 객체들 각각에 대응하는 복수의 서비스들을 제공하는 전자 장치 및 방법
KR102581146B1 (ko) * 2018-11-23 2023-09-21 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
US10936178B2 (en) * 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
JP6635208B1 (ja) * 2019-02-22 2020-01-22 日本電気株式会社 検索装置、検索方法、およびプログラム
US11010596B2 (en) 2019-03-07 2021-05-18 15 Seconds of Fame, Inc. Apparatus and methods for facial recognition systems to identify proximity-based connections
US11093715B2 (en) * 2019-03-29 2021-08-17 Samsung Electronics Co., Ltd. Method and system for learning and enabling commands via user demonstration
US11468881B2 (en) 2019-03-29 2022-10-11 Samsung Electronics Co., Ltd. Method and system for semantic intelligent task learning and adaptive execution
US11283937B1 (en) 2019-08-15 2022-03-22 Ikorongo Technology, LLC Sharing images based on face matching in a network
CN110457602A (zh) * 2019-08-15 2019-11-15 张学志 一种基于人脸识别的交友方法与装置
US11341351B2 (en) 2020-01-03 2022-05-24 15 Seconds of Fame, Inc. Methods and apparatus for facial recognition on a user device
JP6842136B1 (ja) * 2020-01-10 2021-03-17 クェスタ株式会社 プログラム、表示制御方法、表示制御装置及びサイネージシステム
US20210248562A1 (en) * 2020-02-10 2021-08-12 The Boeing Company Method and system for communicating social network scheduling between devices
CN111506825A (zh) * 2020-03-12 2020-08-07 浙江工业大学 一种基于社交照片的人物关系可视分析方法
CN111539438B (zh) * 2020-04-28 2024-01-12 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
US10990166B1 (en) * 2020-05-10 2021-04-27 Truthify, LLC Remote reaction capture and analysis system
US11108996B1 (en) 2020-07-28 2021-08-31 Bank Of America Corporation Two-way intercept using coordinate tracking and video classification
US20220092105A1 (en) * 2020-09-18 2022-03-24 Google Llc Intelligent Systems and Methods for Visual Search Queries
CN112270297A (zh) * 2020-11-13 2021-01-26 杭州睿琪软件有限公司 用于显示识别结果的方法和计算机系统
US11907521B2 (en) 2021-01-28 2024-02-20 Samsung Electronics Co., Ltd. Augmented reality calling interface
US20230245127A1 (en) * 2022-02-02 2023-08-03 Kyndryl, Inc. Augmented user authentication
US20230403268A1 (en) * 2022-05-25 2023-12-14 Paypal, Inc. Reducing false positives in entity matching based on image-linking graphs

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2813728B2 (ja) 1993-11-01 1998-10-22 インターナショナル・ビジネス・マシーンズ・コーポレイション ズーム/パン機能付パーソナル通信機
US5764799A (en) 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5987448A (en) 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6137907A (en) 1998-09-23 2000-10-24 Xerox Corporation Method and apparatus for pixel-level override of halftone detection within classification blocks to reduce rectangular artifacts
GB9903451D0 (en) 1999-02-16 1999-04-07 Hewlett Packard Co Similarity searching for documents
US6408293B1 (en) 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
ATE322051T1 (de) 2000-08-24 2006-04-15 Olive Software Inc System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
JP2002189724A (ja) 2000-12-20 2002-07-05 Victor Co Of Japan Ltd 画像データ検索装置
US6748398B2 (en) 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US7313617B2 (en) 2001-09-28 2007-12-25 Dale Malik Methods and systems for a communications and information resource manager
JP2004086625A (ja) * 2002-08-27 2004-03-18 Hitoshi Hongo 顧客情報管理装置
DE10245900A1 (de) 2002-09-30 2004-04-08 Neven jun., Hartmut, Prof.Dr. Bildbasiertes Anfragesystem für Suchmaschinen für mobile Endgeräte mit eingebauter Kamera
US7298931B2 (en) 2002-10-14 2007-11-20 Samsung Electronics Co., Ltd. Image retrieval method and apparatus using iterative matching
US7472110B2 (en) * 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7370034B2 (en) 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US20050083413A1 (en) 2003-10-20 2005-04-21 Logicalis Method, system, apparatus, and machine-readable medium for use in connection with a server that uses images or audio for initiating remote function calls
US7415456B2 (en) 2003-10-30 2008-08-19 Lucent Technologies Inc. Network support for caller identification based on biometric measurement
US7872669B2 (en) 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
JP2005092854A (ja) * 2004-04-16 2005-04-07 Penpower Technology Ltd 顔モデル製作方法および顔識別方法
WO2005114476A1 (en) 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
US20060020630A1 (en) 2004-07-23 2006-01-26 Stager Reed R Facial database methods and systems
US7890871B2 (en) * 2004-08-26 2011-02-15 Redlands Technology, Llc System and method for dynamically generating, maintaining, and growing an online social network
JP2006079460A (ja) 2004-09-10 2006-03-23 Fuji Photo Film Co Ltd 電子アルバム表示システム、電子アルバム表示方法、電子アルバム表示プログラム、画像分類装置、画像分類方法、及び画像分類プログラム
US8489583B2 (en) 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
JP4380524B2 (ja) * 2004-12-17 2009-12-09 ソニー株式会社 情報処理装置及び情報処理方法
US8503800B2 (en) * 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
US20060150119A1 (en) 2004-12-31 2006-07-06 France Telecom Method for interacting with automated information agents using conversational queries
EP1839193A1 (en) 2004-12-31 2007-10-03 Nokia Corporation Provision of target specific information
US20070201749A1 (en) 2005-02-07 2007-08-30 Masaki Yamauchi Image Processing Device And Image Processing Method
JP4739062B2 (ja) * 2005-02-28 2011-08-03 富士フイルム株式会社 画像出力装置、画像出力方法、及びプログラム
JP4267584B2 (ja) 2005-02-28 2009-05-27 株式会社東芝 機器制御装置及びその方法
US7765231B2 (en) * 2005-04-08 2010-07-27 Rathus Spencer A System and method for accessing electronic data via an image search engine
US7956669B2 (en) 2005-04-15 2011-06-07 International Business Machines Corporation High-density low-power data retention power gating with double-gate devices
US7773822B2 (en) 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7809722B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
JP2007026419A (ja) 2005-06-17 2007-02-01 Hitachi Ltd ソーシャルネットワーク情報の管理方法およびそのシステム
KR100754656B1 (ko) 2005-06-20 2007-09-03 삼성전자주식회사 이미지와 관련한 정보를 사용자에게 제공하는 방법 및시스템과 이를 위한 이동통신단말기
JP2007026316A (ja) * 2005-07-20 2007-02-01 Yamaha Motor Co Ltd 画像管理装置、ならびに画像管理用コンピュータプログラムおよびそれを記録した記録媒体
US8095551B2 (en) * 2005-08-18 2012-01-10 Microsoft Corporation Annotating shared contacts with public descriptors
US20090060289A1 (en) 2005-09-28 2009-03-05 Alex Shah Digital Image Search System And Method
US7450740B2 (en) 2005-09-28 2008-11-11 Facedouble, Inc. Image classification and information retrieval over wireless digital networks and the internet
US7876978B2 (en) 2005-10-13 2011-01-25 Penthera Technologies, Inc. Regions of interest in video frames
US20070098303A1 (en) * 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US8849821B2 (en) 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7826665B2 (en) 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
US7725477B2 (en) 2005-12-19 2010-05-25 Microsoft Corporation Power filter for online listing service
US8874591B2 (en) 2006-01-31 2014-10-28 Microsoft Corporation Using user feedback to improve search results
US9336333B2 (en) 2006-02-13 2016-05-10 Linkedin Corporation Searching and reference checking within social networks
JP2007249394A (ja) * 2006-03-14 2007-09-27 Nippon Hoso Kyokai <Nhk> 顔画像認識装置及び顔画像認識プログラム
US20070245045A1 (en) * 2006-03-27 2007-10-18 Sidney Wu Wireless data transceiver
US7668405B2 (en) * 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
JP2007316939A (ja) 2006-05-25 2007-12-06 Fujifilm Corp 電子アルバム提供装置、および画像ネットワークシステム
US7917514B2 (en) 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
JP4891691B2 (ja) * 2006-07-31 2012-03-07 ヤフー株式会社 位置情報を付加されたデータを検索する方法およびシステム
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US20080031506A1 (en) 2006-08-07 2008-02-07 Anuradha Agatheeswaran Texture analysis for mammography computer aided diagnosis
US7934156B2 (en) 2006-09-06 2011-04-26 Apple Inc. Deletion gestures on a portable multifunction device
US8599251B2 (en) 2006-09-14 2013-12-03 Olympus Imaging Corp. Camera
JP4914778B2 (ja) 2006-09-14 2012-04-11 オリンパスイメージング株式会社 カメラ
JP2008165701A (ja) 2007-01-05 2008-07-17 Seiko Epson Corp 画像処理装置、電子機器、画像処理方法、及び、プログラム
KR100865973B1 (ko) 2007-02-08 2008-10-30 (주)올라웍스 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
US8861898B2 (en) 2007-03-16 2014-10-14 Sony Corporation Content image search
KR100768127B1 (ko) 2007-04-10 2007-10-17 (주)올라웍스 가독성 데이터로부터 인간 관계를 추론하는 방법과 가독성데이터를 이용하여 디지털 데이터 내의 인물 식별을 통해태그를 부여하는 방법 및 시스템
CN104866469B (zh) 2007-04-11 2018-10-02 谷歌有限责任公司 具有第二语言模式的输入法编辑器
US20080267504A1 (en) 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
US9591086B2 (en) 2007-07-25 2017-03-07 Yahoo! Inc. Display of information in electronic communications
JP5128880B2 (ja) 2007-08-30 2013-01-23 オリンパスイメージング株式会社 画像取扱装置
KR101435140B1 (ko) 2007-10-16 2014-09-02 삼성전자 주식회사 영상 표시 장치 및 방법
WO2009050741A2 (en) * 2007-10-19 2009-04-23 Amsoft Systems Private Limited Method and system of ranking transaction channels associated with real world identities, based on their attributes and preferences
JP5459527B2 (ja) 2007-10-29 2014-04-02 株式会社Jvcケンウッド 画像処理装置およびその方法
GB2454213A (en) 2007-10-31 2009-05-06 Sony Corp Analyzing a Plurality of Stored Images to Allow Searching
US20090132264A1 (en) 2007-11-16 2009-05-21 Wood Mark D Media asset evaluation based on social relationships
US9237213B2 (en) 2007-11-20 2016-01-12 Yellowpages.Com Llc Methods and apparatuses to initiate telephone connections
KR100969298B1 (ko) 2007-12-31 2010-07-09 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US20090237546A1 (en) 2008-03-24 2009-09-24 Sony Ericsson Mobile Communications Ab Mobile Device with Image Recognition Processing Capability
US8190604B2 (en) 2008-04-03 2012-05-29 Microsoft Corporation User intention modeling for interactive image retrieval
JP4939480B2 (ja) * 2008-05-19 2012-05-23 富士フイルム株式会社 表示装置、撮像装置、画像検索装置、及びプログラム
JP5109836B2 (ja) 2008-07-01 2012-12-26 株式会社ニコン 撮像装置
US8520979B2 (en) * 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11601584B2 (en) 2006-09-06 2023-03-07 Apple Inc. Portable electronic device for photo management
US11099712B2 (en) 2010-01-06 2021-08-24 Apple Inc. Device, method, and graphical user interface for navigating and displaying content in context
US11592959B2 (en) 2010-01-06 2023-02-28 Apple Inc. Device, method, and graphical user interface for navigating and displaying content in context
US9177062B2 (en) 2012-10-31 2015-11-03 Google Inc. Sorting social profile search results based on computing personal similarity scores
WO2014071033A1 (en) * 2012-10-31 2014-05-08 Google Inc. Sorting social profile search results based on computing personal similarity scores
KR20150142030A (ko) * 2013-04-12 2015-12-21 페이스북, 인크. 전자 이미지 내 컨텐츠의 식별
KR20160016567A (ko) * 2014-08-02 2016-02-15 삼성전자주식회사 전자 장치 및 이의 사용자 인터렉션 방법
US11941223B2 (en) 2016-06-12 2024-03-26 Apple Inc. User interfaces for retrieving contextually relevant media content
US11334209B2 (en) 2016-06-12 2022-05-17 Apple Inc. User interfaces for retrieving contextually relevant media content
US10891013B2 (en) 2016-06-12 2021-01-12 Apple Inc. User interfaces for retrieving contextually relevant media content
KR20200090876A (ko) * 2016-06-12 2020-07-29 애플 인크. 정황상 관련있는 미디어 콘텐츠를 검색하기 위한 사용자 인터페이스들
US11681408B2 (en) 2016-06-12 2023-06-20 Apple Inc. User interfaces for retrieving contextually relevant media content
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11782575B2 (en) 2018-05-07 2023-10-10 Apple Inc. User interfaces for sharing contextually relevant media content
US11307737B2 (en) 2019-05-06 2022-04-19 Apple Inc. Media browsing user interface with intelligently selected representative media items
US11625153B2 (en) 2019-05-06 2023-04-11 Apple Inc. Media browsing user interface with intelligently selected representative media items
US11042266B2 (en) 2019-05-06 2021-06-22 Apple Inc. Media browsing user interface with intelligently selected representative media items
US11947778B2 (en) 2019-05-06 2024-04-02 Apple Inc. Media browsing user interface with intelligently selected representative media items

Also Published As

Publication number Publication date
US10031927B2 (en) 2018-07-24
US20110038512A1 (en) 2011-02-17
AU2010279248A1 (en) 2012-03-15
JP5557911B2 (ja) 2014-07-23
KR20160108832A (ko) 2016-09-20
CN104021150B (zh) 2017-12-19
US20160055182A1 (en) 2016-02-25
CA2770239C (en) 2019-01-22
CN102667763A (zh) 2012-09-12
KR101760853B1 (ko) 2017-07-24
KR101686613B1 (ko) 2016-12-14
BR112012002823B1 (pt) 2021-06-22
US20180322147A1 (en) 2018-11-08
JP6470713B2 (ja) 2019-02-13
US9208177B2 (en) 2015-12-08
JP5985535B2 (ja) 2016-09-06
KR20160108833A (ko) 2016-09-20
JP2016201135A (ja) 2016-12-01
US20140172881A1 (en) 2014-06-19
JP2014194810A (ja) 2014-10-09
JP2013501978A (ja) 2013-01-17
EP2462522A1 (en) 2012-06-13
KR101760855B1 (ko) 2017-07-24
US8670597B2 (en) 2014-03-11
CN104021150A (zh) 2014-09-03
WO2011017653A1 (en) 2011-02-10
CA2770239A1 (en) 2011-02-10
US10515114B2 (en) 2019-12-24
AU2010279248B2 (en) 2013-07-25
JP2019023923A (ja) 2019-02-14

Similar Documents

Publication Publication Date Title
US10515114B2 (en) Facial recognition with social network aiding
KR101667346B1 (ko) 시각 질의에 응답하기 위한 아키텍처
KR101670956B1 (ko) 시각 질의의 다수 영역들에 대한 검색 결과들을 제시하기 위한 사용자 인터페이스
AU2016201546B2 (en) Facial recognition with social network aiding
AU2013245488B2 (en) Facial recognition with social network aiding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant