KR20190043604A - 다의적 코드를 사용한 유사성 검색 - Google Patents

다의적 코드를 사용한 유사성 검색 Download PDF

Info

Publication number
KR20190043604A
KR20190043604A KR1020197009570A KR20197009570A KR20190043604A KR 20190043604 A KR20190043604 A KR 20190043604A KR 1020197009570 A KR1020197009570 A KR 1020197009570A KR 20197009570 A KR20197009570 A KR 20197009570A KR 20190043604 A KR20190043604 A KR 20190043604A
Authority
KR
South Korea
Prior art keywords
query
vector
sub
user
code
Prior art date
Application number
KR1020197009570A
Other languages
English (en)
Inventor
매티스 두즈
에흐비 제구
플로헝 페호낭
Original Assignee
페이스북, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 페이스북, 인크. filed Critical 페이스북, 인크.
Publication of KR20190043604A publication Critical patent/KR20190043604A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

일실시예로, 본 방법은 n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하는 단계; 양자화기를 사용하여 질의를 표현하는 벡터를 양자화하는 단계; 복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하는 단계; 및 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하는 단계를 포함하며, 양자화된 벡터는 다의적 코드에 대응하고, 양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련된다.

Description

다의적 코드를 사용한 유사성 검색
본 명세서는 일반적으로 소셜 그래프 및 소셜 네트워킹 환경 내 객체에 대한 검색 수행에 관한 것이다.
소셜 네트워킹 웹사이트를 포함할 수 있는 소셜 네트워킹 시스템은 그 사용자들(가령, 사람들 또는 단체)이 소셜 네트워킹 시스템과 상호작용하고 소셜 네트워킹 시스템을 통해 서로 상호작용할 수 있게 해줄 수 있다. 소셜 네트워킹 시스템은 사용자로부터의 입력으로 사용자와 관련된 사용자 프로필을 생성하고 소셜 네트워킹 시스템에 저장할 수 있다. 사용자 프로필은 신상 정보, 통신-채널 정보 및 사용자의 개인 관심사에 대한 정보를 포함할 수 있다. 또한, 소셜 네트워킹 시스템은 사용자로부터의 입력으로 소셜 네트워킹 시스템의 다른 사용자들과의 사용자의 관계의 레코드를 생성하고 저장할 수 있을 뿐만 아니라, 서비스(예컨대, 담벼락-게시물, 사진 공유, 이벤트 조직, 메시징, 게임 또는 광고)를 제공하여 사용자들 사이의 소셜 상호작용을 용이하게 할 수 있다.
소셜 네트워킹 시스템은 하나 이상의 네트워크를 통해 서비스에 관한 컨텐츠 또는 메시지를 사용자의 모바일이나 다른 컴퓨팅 장치로 송신할 수 있다. 또한, 사용자는 소셜 네트워킹 시스템 내 사용자의 사용자 프로필과 다른 데이터에 접근하기 위해 소프트웨어 애플리케이션을 사용자의 모바일이나 다른 컴퓨팅 장치에 설치할 수 있다. 소셜 네트워킹 시스템은 사용자에게 디스플레이하기 위해 가령 사용자와 연결된 다른 사용자들의 집계된 소식의 뉴스피드와 같이 개인화된 세트의 컨텐츠 객체를 생성할 수 있다.
소셜 그래프 분석은 노드와 에지로 구성되는 네트워크 이론의 관점에서 소셜 관계를 보여줄 수 있다. 노드는 네트워크 내의 개인 행위자를 나타낼 수 있고, 에지는 개인 행위자들 사이의 관계를 나타낼 수 있다. 그 결과, 그래프-기반 구조는 종종 매우 복잡할 수 있다. 많은 타입의 노드 및 노드를 연결하는 많은 타입의 에지가 있을 수 있다. 가장 간단한 형태로, 소셜 그래프는 검토되는 모든 노드 사이의 모든 관련 에지의 지도이다.
특정 실시예로, 소셜 네트워킹 시스템은 예컨대 질의 이미지와 유사한 이미지들을 데이터베이스에서 검색하기 위해 압축된 도메인에서 근사 최근접 이웃(ANN) 검색을 수행할 수 있다. 이 방법은 프로덕트 양자화(product quantization)와 이진 코드 해밍 거리(binary code Hamming distance)를 모두 사용하여 비교를 수행하는 역할을 할 수 있는 다의적 코드를 사용한다. 이를 달성하기 위해, 이 방법은 데이터베이스의 벡터 공간을 양자화함으로써 시작할 수 있다. 이후, 이진 코드로의 벡터 인덱스의 할당이 해밍 거리가 중심 간의 거리를 근사화하도록 최적화될 수 있다. 이후, 질의 벡터는 벡터 인덱스에 반복 적용하고, 선택된 임계치 미만의 해밍 거리를 갖는 벡터에 대해 필터링하며, 해밍 거리로 충분히 근접한 벡터들의 프로덕트 양자화 거리를 계산함으로써 데이터베이스와 2단계로 비교될 수 있다. 이런 기술은 이미지 검색, 비디오 검색 및 소셜-네트워크 소셜 근접성 분석을 포함하지만 이에 국한되지 않는 ANN의 임의의 적용에 유용할 수 있다.
본 방법을 상세히 설명하면, 제1 단계는 벡터를 서브-벡터로 분할하고 그에 따라 피처 공간(feature space)을 프로덕트 공간(product space)으로 분해함으로써 벡터 공간을 양자화하는 것일 수 있다. 각각의 서브-벡터는 서브-공간의 일부이며 각각 다른 양자화기를 사용하여 양자화될 수 있다. 이후, 벡터들 사이의 거리는 대응하는 서브-벡터들 사이의 거리의 합으로 추정될 수 있다. 프로덕트 양자화를 사용하여, 서브-벡터들 사이의 거리는 룩업 테이블(look-up tables)로부터 효율적으로 판독될 수 있다. 또한, 프로덕트 양자화는 사전(dictionary)을 사용하는 제2 코스 양자화(coarse quantizer)를 생성함으로써 종래의 인덱스와 거리 추정을 결합하여 최적화될 수 있다. 이런 제2 코스 양자화는 검색을 양자화된 벡터의 서브세트로 제한함으로써 비-완전 검색(non-exhaustive searching)을 위해 사용될 수 있다.
양자화된 공간이 생성되면, 벡터 코드를 다의적 코드로 번역하여 이후 최적화될 수 있는데, 여기서 해밍 거리는 중심 간의 거리를 근사화한다. 이는 이진 비교가 중심 거리를 반영하도록 비트의 치환을 학습하여 행해질 수 있고 각각의 서브-양자화기에 대하여 행해진다.
마지막으로, 질의 벡터는 상술한 기법을 사용하여 질의 벡터를 양자화하고, 코드를 이진 코드로 해석하여 해밍 거리를 계산함으로서 검색될 수 있다. 질의 벡터에 대한 벡터의 이진 거리가 (시스템 파라미터로서 선택되는) 임계 거리 미만이라면, 벡터는 프로덕트 양자화를 사용하여 비교된다(따라서 더 정확한 추정을 산출한다). 이런 방식으로, 본 방법은 프로덕트 양자화의 정확성으로 이진 검색의 효율성을 거의 달성할 수 있다.
상술한 실시예들은 단지 예들이며, 본 명세서의 범위는 이에 국한되지 않는다. 특정 실시예들은 상술한 실시예들의 컴포넌트, 구성요소, 특징, 기능, 동작 또는 단계의 전부 또는 일부를 포함하거나 전혀 포함하지 않을 수 있다. 특히, 본 발명에 따른 실시예들은 방법, 저장매체, 시스템 및 컴퓨터 프로그램 제품에 관한 첨부된 청구항들에 개시되며, 예컨대 방법과 같은 하나의 청구항 카테고리로 언급되는 임의의 특징은 또한 예컨대 시스템과 같은 또 다른 청구항 카테고리로 청구될 수 있다. 첨부된 청구항들에서 종속항들이나 재참조(references back)가 단지 형식적인 이유로 선택된다. 그러나, 임의의 이전의 청구항들에 대한 의도적인 재참조(특히, 다수의 종속항들)로부터 생성된 임의의 발명의 내용은 청구항들과 이들의 특징들의 임의의 조합이 개시되고 첨부된 청구항들에서 선택된 종속항들에 관계없이 청구될 수 있도록 또한 청구될 수 있다. 청구될 수 있는 발명의 내용은 첨부된 청구항들에서 제시되는 특징들의 조합뿐 아니라 청구항들의 특징들의 임의의 다른 조합을 포함하며, 청구항들에 언급된 각각의 특징은 청구항들의 임의의 다른 특징이나 다른 특징들의 조합과 결합될 수 있다. 게다가, 본 명세서에 기술되거나 도시된 임의의 실시예들 및 특징들은 단독의 청구항으로 및/또는 본 명세서에서 기술되거나 도시된 임의의 실시예나 특징과의 임의의 조합으로 또는 첨부된 청구항들의 임의의 특징들로 청구될 수 있다.
본 발명에 따른 일실시예에서, 본 방법은 컴퓨팅 장치에 의해: n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의, 특히 데이터베이스 내 하나 이상의 유사한 이미지들 및/또는 비디오들에 대한 질의를 수신하는 단계; 양자화기를 사용하여 질의를 표현하는 벡터를 양자화하는 단계; 복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하는 단계; 및 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하는 단계를 포함할 수 있으며, 양자화된 벡터는 다의적 코드에 대응하고, 양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련된다.
본 발명에 따른 일실시예에서, 본 방법은 질의를 표현하는 복수의 서브-벡터로 질의를 표현하는 벡터를 분할하는 단계를 더 포함할 수 있으며, 상기 질의를 표현하는 벡터를 양자화하는 단계는 복수의 서브-양자화기를 사용하여 질의를 표현하는 복수의 서브-벡터 각각을 양자화하는 단계를 포함하고, 각각의 양자화된 서브-벡터는 다의적 코드에 대응하며, 각각의 서브-양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되고, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리는 질의를 표현하는 각각의 개별적인 서브-벡터에 대응하는 각각의 다의적 코드와 컨텐츠 객체를 표현하는 각각의 양자화된 서브-벡터에 대응하는 복수의 개별적인 다의적 코드들 각각 사이의 복수의 해밍 거리에 기초하여 계산된다.
각각의 서브-양자화기는 복수의 서브-양자화기 중 각각의 다른 서브-양자화기와 구별될 수 있다.
컨텐츠 객체를 표현하는 복수의 양자화된 서브-벡터들 각각은 대응하는 서브-양자화기를 사용하여 양자화될 수 있다.
제1 다의적 코드와 제2 다의적 코드 사이의 해밍 거리는 제1 다의적 코드와 제2 다의적 코드 간에 차이가 있는 비트 수로서 계산될 수 있다.
제1 다의적 코드와 제2 다의적 코드 사이의 해밍 거리는 미리-생성된 룩업 테이블에 기초하여 계산될 수 있다.
양자화기는 k-평균 클러스터링을 사용할 수 있다.
본 발명에 따른 일실시예로, 본 방법의 목적 함수는
Figure pct00001
이며,
Figure pct00002
는 중심 인덱스(centroid indexes)의 세트이고,
Figure pct00003
는 중심
Figure pct00004
와 관련된 재생 값(reproduction value)이며,
함수
Figure pct00005
는 단위 하이퍼큐브(unit hypercube)의 각각 다른 정점과 각각의 중심 인덱스를 맵핑하고,
Figure pct00006
Figure pct00007
Figure pct00008
사이의 해밍 거리이며,
Figure pct00009
Figure pct00010
Figure pct00011
사이의 거리이고,
함수
Figure pct00012
Figure pct00013
를 비교가능한 해밍 거리의 범위로 맵핑하는 단조 증가 함수(monotonously increasing function)이다.
본 발명에 따른 일실시예로, 본 방법의 함수
Figure pct00014
Figure pct00015
이며,
Figure pct00016
Figure pct00017
의 경험적으로 측정된 평균(empirically measured mean)이고,
Figure pct00018
Figure pct00019
의 경험적으로 측정된 표준편차이다.
본 발명에 따른 일실시예에서, 본 방법의 상기 목적 함수는
Figure pct00020
이며,
Figure pct00021
는 중심 인덱스의 세트이고,
Figure pct00022
는 중심
Figure pct00023
와 관련된 재생 값이며,
함수
Figure pct00024
는 단위 하이퍼큐브의 각각 다른 정점과 각각의 중심 인덱스를 맵핑하고,
Figure pct00025
Figure pct00026
Figure pct00027
사이의 해밍 거리이며,
Figure pct00028
Figure pct00029
Figure pct00030
사이의 거리이고,
함수
Figure pct00031
Figure pct00032
를 비교가능한 해밍 거리의 범위로 맵핑하는 단조 증가 함수이며,
함수
Figure pct00033
는 함수
Figure pct00034
이고
Figure pct00035
이다.
본 발명에 따른 일실시예에서, 본 방법은 질의에 응답하여 질의에 대한 근사 최근접 이웃이라고 결정된 하나 이상의 컨텐츠 객체를 제1 사용자에게 송신하는 단계를 포함할 수 있다.
각각의 컨텐츠 객체는 이미지를 포함할 수 있다.
수신된 질의는 질의 이미지를 포함할 수 있고, 본 방법은: 질의 이미지를 표현하는 n-차원 벡터를 생성하는 단계를 포함할 수 있다.
질의는 질의 이미지와 유사한 이미지들에 대한 요청에 해당할 수 있다.
각각의 컨텐츠 객체는 비디오를 포함할 수 있다.
수신된 질의는 질의 비디오를 포함할 수 있고, 본 방법은: 질의 비디오를 표현하는 n-차원 벡터를 생성하는 단계를 포함할 수 있다.
본 발명에 따른 일실시예에서, 본 방법은 복수의 노드 및 노드들을 연결하는 복수의 에지를 포함하는 소셜 그래프에 액세스하는 단계를 포함할 수 있으며, 2개의 노드 사이의 각각의 에지는 노드들 사이의 이격도 1도를 표현하고, 상기 노드는: 제1 사용자에 대응하는 제1 노드; 및 복수의 컨텐츠 객체에 각각 대응하는 복수의 제2 노드를 포함할 수 있다.
본 발명에 따른 일실시예에서, 하나 이상의 컴퓨터-판독가능 비-일시적 저장매체는: n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하고; 양자화기를 사용하여 질의를 표현하는 벡터를 양자화하며; 복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하고; 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하도록 실행시 동작하는 소프트웨어를 수록할 수 있으며, 양자화된 벡터는 다의적 코드에 대응하고, 양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련된다.
상기 소프트웨어는 질의를 표현하는 복수의 서브-벡터로 질의를 표현하는 벡터를 분할하도록 실행시 동작할 수 있으며, 상기 질의를 표현하는 벡터를 양자화하는 것은 복수의 서브-양자화기를 사용하여 질의를 표현하는 복수의 서브-벡터 각각을 양자화하는 것을 포함하고, 각각의 양자화된 서브-벡터는 다의적 코드에 대응하며, 각각의 서브-양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되고, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리는 질의를 표현하는 각각의 개별적인 서브-벡터에 대응하는 각각의 다의적 코드와 컨텐츠 객체를 표현하는 각각의 양자화된 서브-벡터에 대응하는 복수의 개별적인 다의적 코드들 각각 사이의 복수의 해밍 거리에 기초하여 계산된다.
본 발명에 따른 일실시예에서, 본 시스템은 하나 이상의 프로세서; 및 프로세서와 연결되고 프로세서에 의해 실행가능한 명령어를 포함한 비-일시적 메모리를 포함할 수 있고, 상기 프로세서는: n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하고; 양자화기를 사용하여 질의를 표현하는 벡터를 양자화하며; 복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하고; 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하는 명령어를 실행시 동작하며, 양자화된 벡터는 다의적 코드에 대응하고, 양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련된다.
본 발명에 따른 일실시예에서, 하나 이상의 컴퓨터-판독가능한 비-일시적 저장매체는 본 발명 또는 임의의 상술한 실시예들에 따른 방법을 수행하도록 실행시 동작하는 소프트웨어를 수록할 수 있다.
본 발명에 따른 일실시예에서, 본 시스템은: 하나 이상의 프로세서; 및 프로세서와 연결되고 프로세서에 의해 실행가능한 명령어를 포함하는 적어도 하나의 메모리를 포함할 수 있는데, 상기 프로세서는 본 발명 또는 임의의 상술한 실시예들에 따른 방법을 수행하는 명령어를 실행할 때 동작한다.
본 발명에 따른 일실시예에서, 바람직하게 컴퓨터-판독가능한 비-일시적 저장매체를 포함하는 컴퓨터 프로그램 제품은 본 발명 또는 임의의 상술한 실시예들에 따른 방법을 수행하도록 데이터 처리 시스템에서 실행될 때 동작할 수 있다.
본 발명의 내용 중에 포함되어 있다.
도 1은 소셜 네트워킹 시스템과 관련된 예시적인 네트워크 환경을 도시한다.
도 2는 예시적인 소셜 그래프를 도시한다.
도 3은 해밍 공간에서 유사한 중심들 사이의 거리가 작도록 중심들의 명수법의 재-순서화를 도시한다.
도 4는 최적화 전후의 이진 벡터로 사용되는 코드의 비교를 도시한다.
도 5는 이중 전략에서의 해밍 임계치의 영향을 도시한다.
도 6은 거리-기반 목적 함수용 반복에 따른 다의적 코드의 성능을 도시한다.
도 7은 FYCNN90M 벤치마크에서 다의적 코드를 적용하는 다양한 방법의 성능을 도시한다.
도 8은 그래프에서 이미지 모드 및 그 이웃들의 예를 도시한다.
도 9는 다의적 코드를 사용한 유사성 검색을 수행하는 방법(900)의 예를 도시한다.
도 10은 예시적인 컴퓨터 시스템을 도시한다.
시스템 개요
도 1은 소셜 네트워킹 시스템과 관련된 예시적인 네트워크 환경(100)을 도시한다. 네트워크 환경(100)은 네트워크(110)에 의해 서로 연결되는 클라이언트 시스템(130), 소셜 네트워킹 시스템(160) 및 제3자 시스템(170)을 포함한다. 도 1은 클라이언트 시스템(130), 소셜 네트워킹 시스템(160), 제3자 시스템(170) 및 네트워크(110)의 특정한 구성을 도시하지만, 본 명세서는 클라이언트 시스템(130), 소셜 네트워킹 시스템(160), 제3자 시스템(170) 및 네트워크(110)의 임의의 적절한 구성을 고려한다. 예로서 제한 없이, 2 이상의 클라이언트 시스템(130), 소셜 네트워킹 시스템(160) 및 제3자 시스템(170)은 네트워크(110)를 우회하여 서로 직접적으로 연결될 수 있다. 또 다른 예로서, 2 이상의 클라이언트 시스템(130), 소셜 네트워킹 시스템(160) 및 제3자 시스템(170)은 전체적으로 또는 부분적으로 서로 물리적으로 또는 논리적으로 같은 장소에 배치될 수 있다. 게다가, 도 1은 특정한 수의 클라이언트 시스템(130), 소셜 네트워킹 시스템(160), 제3자 시스템(170) 및 네트워크(110)를 도시하지만, 본 명세서는 임의의 적절한 수의 클라이언트 장치(130), 소셜 네트워킹 시스템(160), 제3자 시스템(170) 및 네트워크(110)를 고려한다. 예로서 제한 없이, 네트워크 환경(100)은 다수의 클라이언트 시스템(130), 소셜 네트워킹 시스템(160), 제3자 시스템(170) 및 네트워크(110)를 포함할 수 있다.
본 명세서는 임의의 적절한 네트워크(110)를 고려한다. 예로서 제한 없이, 네트워크(110)의 하나 이상의 부분은 애드 혹 네트워크, 인트라넷, 엑스트라넷, 가상 사설 네트워크(VPN), 근거리 네트워크(LAN), 무선 LAN(WLAN), 광역 네트워크(WAN), 무선 WAN(WWAN), 대도시 네트워크(MAN), 인터넷의 일부, 공중 전화망(PSTN)의 일부, 셀룰러 전화 네트워크 또는 2 이상의 이들의 조합을 포함할 수 있다. 네트워크(110)는 하나 이상의 네트워크(110)를 포함할 수 있다.
링크(150)는 클라이언트 시스템(130), 소셜 네트워킹 시스템(160) 및 제3자 시스템(170)을 통신 네트워크(110)와 연결하거나 서로 연결할 수 있다. 본 명세서는 임의의 적절한 링크(150)를 고려한다. 특정 실시예로, 하나 이상의 링크(150)는 하나 이상의 유선라인(가령, 예컨대, 디지털 가입자 라인(DSL) 또는 DOCSIS(Data Over Cable Service Interface Specification)), 무선(가령, 예컨대, Wi-Fi 또는 WiMAX(Worldwide Interoperability for Microwave Access)) 또는 광학(가령, 예컨대, 동기식 광학 네트워크(Synchronous Optical Network, SONET) 또는 동기식 디지털 계층(Synchronous Digital Hierarchy, SDH)) 링크를 포함한다. 특정 실시예로, 하나 이상의 링크(150)는 애드 혹 네트워크, 인트라넷, 엑스트라넷, VPN, LAN, WLAN, WAN, WWAN, MAN, 인터넷의 일부, PSTN의 일부, 셀룰러 기술-기반 네트워크, 위성 통신 기술-기반 네트워크, 또 다른 링크(150) 또는 2 이상의 이런 링크(150)의 조합을 각각 포함한다. 링크(150)는 네트워크 환경(100)을 통해 반드시 동일할 필요는 없다. 하나 이상의 제1 링크(150)는 하나 이상의 측면에서 하나 이상의 제2 링크(150)와 다를 수 있다.
특정 실시예로, 클라이언트 시스템(130)은 하드웨어, 소프트웨어 또는 임베디드 로직 컴포넌트나 이들의 2 이상의 컴포넌트의 조합을 포함하고 클라이언트 시스템(130)에 의해 구현되거나 지원되는 적절한 기능을 수행할 수 있는 전자식 장치일 수 있다. 예로서 제한 없이, 클라이언트 시스템(130)은 가령 데스크톱 컴퓨터, 노트북이나 랩톱 컴퓨터, 넷북, 태블릿 컴퓨터, e-북 리더, GPS 장치, 카메라, 개인용 정보 단말기(PDA), 휴대용 전자 장치, 셀룰러 전화, 스마트폰, 다른 적절한 전자 장치 또는 이들의 임의의 적절한 조합과 같은 컴퓨터 시스템을 포함할 수 있다. 본 명세서는 임의의 적절한 클라이언트 시스템(130)을 고려한다. 클라이언트 시스템(130)은 클라이언트 시스템(130)에서 네트워크 사용자가 네트워크(110)에 접근할 수 있게 할 수 있다. 클라이언트 시스템(130)은 그 사용자가 다른 클라이언트 시스템(130)의 다른 사용자들과 통신할 수 있게 할 수 있다.
특정 실시예로, 클라이언트 시스템(130)은, 가령 MICROSOFT INTERNET EXPLORER, GOOGLE CHROME 또는 MOZILLA FIREFOX와 같은 웹 브라우저(132)를 포함할 수 있고, 가령 TOOLBAR 또는 YAHOO TOOLBAR와 같은 하나 이상의 애드-온(add-ons), 플러그-인(plug-ins) 또는 다른 확장형(extensions)을 가질 수 있다. 클라이언트 시스템(130)에서의 사용자는 URL(Uniform Resource Locator) 또는 웹 브라우저(132)를 특정 서버(가령, 서버(162) 또는 제3자 시스템(170)과 관련된 서버)로 인도하는 다른 주소를 입력할 수 있고, 웹 브라우저(132)는 하이퍼텍스트 전송 프로토콜(HTTP) 요청을 생성하고 HTTP 요청을 서버로 통신할 수 있다. 서버는 HTTP 요청을 수락하고, HTTP 요청에 응답하여 하나 이상의 하이퍼텍스트 마크업 언어(HTML) 파일을 클라이언트 시스템(130)으로 통신할 수 있다. 클라이언트 시스템(130)은 사용자에게 표시하기 위해 서버로부터 HTML 파일에 기초한 웹 인터페이스(예컨대, 웹페이지)를 렌더링할 수 있다. 본 명세서는 임의의 적절한 소스 파일을 고려한다. 예로서 제한 없이, 웹 인터페이스는 특정한 필요에 따라 HTML 파일, 확장형 하이퍼텍스트 마크업 언어(XHTML) 파일 또는 확장형 마크업 언어(XML) 파일로부터 렌더링될 수 있다. 또한, 이런 인터페이스는, 예로서 제한 없이 JAVASCRIPT, JAVA, MICROSOFT SILVERLIGHT, 가령 AJAX(비동기식 JAVASCRIPT 및 XML)와 같은 마크업 언어와 스크립트의 조합 등과 같은 스크립트를 실행할 수 있다. 본 명세서에서, 웹 인터페이스에 대한 언급은 (브라우저가 웹 인터페이스를 렌더링하는데 사용할 수 있는) 하나 이상의 해당 소스 파일을 포함하며, 적절한 경우, 그 역도 또한 같다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 온라인 소셜 네트워크를 호스팅할 수 있는 네트워크-주소화 컴퓨팅 시스템일 수 있다. 소셜 네트워킹 시스템(160)은 예컨대 사용자-프로필 데이터, 컨셉-프로필 데이터, 소셜-그래프 정보 또는 온라인 소셜 네트워크에 관한 다른 적절한 데이터와 같은 소셜 네트워킹 데이터를 생성, 저장, 수신 및 송신할 수 있다. 소셜 네트워킹 시스템(160)은 직접적으로 또는 네트워크(110)를 통해 네트워크 환경(100)의 다른 컴포넌트들에 의해 접근될 수 있다. 예로서 제한 없이, 클라이언트 시스템(130)은 직접적으로 또는 네트워크(110)를 통해 웹 브라우저(132) 또는 소셜 네트워킹 시스템(160)과 관련된 네이티브 애플리케이션(예컨대, 모바일 소셜 네트워킹 애플리케이션, 메시징 애플리케이션, 다른 적절한 애플리케이션 또는 이들의 임의의 조합)을 사용하여 소셜 네트워킹 시스템(160)에 접근할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 하나 이상의 서버(162)를 포함할 수 있다. 각 서버(162)는 일체형 서버(unitary server)일 수 있거나, 다수의 컴퓨터 또는 다수의 데이터센터에 걸쳐 있는 분산형 서버일 수 있다. 서버(162)는 예로서 제한 없이, 웹 서버, 뉴스 서버, 메일 서버, 메시지 서버, 광고 서버, 파일 서버, 애플리케이션 서버, 교환 서버, 데이터베이스 서버, 프록시 서버, 본 명세서에 기술된 기능이나 프로세스를 수행하는데 적절한 또 다른 서버 또는 이들의 임의의 조합과 같이, 다양한 타입일 수 있다. 특정 실시예로, 각 서버(162)는 서버(162)에 의해 구현되거나 지원되는 적절한 기능을 수행하기 위한 하드웨어, 소프트웨어 또는 임베디드 논리 소자 또는 2 이상의 이런 소자들의 조합을 포함할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(164)은 하나 이상의 데이터 스토어(164)를 포함할 수 있다. 데이터 스토어(164)는 다양한 타입의 정보를 저장하는데 사용될 수 있다. 특정 실시예로, 데이터 스토어(164)에 저장된 정보는 특정한 데이터 구조에 따라 구조화될 수 있다. 특정 실시예로, 각 데이터 스토어(164)는 관계형, 컬럼형, 상관형 또는 다른 적절한 데이터베이스일 수 있다. 비록 본 명세서는 특정 타입의 데이터베이스를 기술하거나 도시하지만, 본 명세서는 임의의 적절한 타입의 데이터베이스를 고려한다. 특정 실시예는 클라이언트 시스템(130), 소셜 네트워킹 시스템(160) 또는 제3자 시스템(170)이 데이터 스토어(164)에 저장된 정보를 관리, 검색, 변경, 추가 또는 삭제할 수 있게 하는 인터페이스를 제공할 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 하나 이상의 데이터 스토어(164)에 하나 이상의 소셜 그래프를 저장할 수 있다. 특정 실시예로, 소셜 그래프는 (특정 사용자에 각각 해당하는) 다수의 사용자 노드 또는 (특정 컨셉에 각각 해당하는) 다수의 컨셉 노드를 포함할 수 있는 다수의 노드 및 노드를 연결하는 다수의 에지를 포함할 수 있다. 소셜 네트워킹 시스템(160)은 다른 사용자와 통신하고 상호작용하는 능력을 온라인 소셜 네트워크의 사용자에게 제공할 수 있다. 특정 실시예로, 사용자는 소셜 네트워킹 시스템(160)을 통해 온라인 소셜 네트워크에 가입한 후 연결들(즉, 관계들)을 그들이 연결되고자 하는 소셜 네트워킹 시스템(160)의 다수의 다른 사용자에 추가할 수 있다. 본 명세서에서, "친구"란 용어는 사용자가 소셜 네트워킹 시스템(160)을 통해 연결, 유대 또는 관계를 형성했던 소셜 네트워킹 시스템(160)의 임의의 다른 사용자를 가리킬 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 소셜 네트워킹 시스템(160)에 의해 지원되는 다양한 유형의 아이템이나 객체에 대한 행위를 취할 수 있는 능력을 사용자에게 제공할 수 있다. 예로서 제한 없이, 아이템 및 객체는 소셜 네트워킹 시스템(160)의 사용자들이 속할 수 있는 그룹이나 소셜 네트워크, 사용자가 관심을 가질지도 모르는 이벤트 또는 캘린더 엔트리, 사용자가 사용할 수 있는 컴퓨터-기반 애플리케이션, 사용자가 서비스를 통해 아이템을 팔거나 구매할 수 있게 하는 거래, 사용자가 수행할 수 있는 광고와의 상호작용 또는 다른 적절한 아이템이나 객체를 포함할 수 있다. 사용자는 소셜 네트워킹 시스템(160) 또는 소셜 네트워킹 시스템(160)과 별개이거나 네트워크(110)를 통해 소셜 네트워킹 시스템(160)에 결합되는 제3자 시스템(170)의 외부 시스템에서 표현될 수 있는 모든 것과 상호작용할 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 다양한 엔티티를 링크할 수 있다. 예로서 제한 없이, 소셜 네트워킹 시스템(160)은 사용자가 서로 상호작용할 뿐 아니라 제3자 시스템(170)이나 다른 엔티티로부터 컨텐츠를 수신할 수 있게 하거나, 사용자가 응용 프로그래밍 인터페이스(API)나 다른 통신 채널을 통해 이런 엔티티와 상호작용할 수 있게 해줄 수 있다.
특정 실시예로, 제3자 시스템(170)은 하나 이상의 타입의 서버, 하나 이상의 데이터 스토어, API들을 포함하나 이에 국한되지 않는 하나 이상의 인터페이스, 하나 이상의 웹 서비스, 하나 이상의 컨텐츠 소스, 하나 이상의 네트워크 또는 예컨대 서버가 통신할 수 있는 임의의 다른 적절한 컴포넌트를 포함할 수 있다. 제3자 시스템(170)은 소셜 네트워킹 시스템(160)을 운영하는 엔티티와는 다른 엔티티에 의해 운영될 수 있다. 그러나, 특정 실시예로, 소셜 네트워킹 시스템(160) 및 제3자 시스템(170)은 소셜 네트워킹 서비스를 소셜 네트워킹 시스템(160)이나 제3자 시스템(170)의 사용자에게 제공하도록 서로 함께 동작할 수 있다. 이런 의미에서, 소셜 네트워킹 시스템(160)은 가령 제3자 시스템(170)과 같은 다른 시스템들이 인터넷상의 사용자들에게 소셜 네트워킹 서비스와 기능을 제공하도록 사용할 수 있는 플랫폼 또는 백본(backbone)을 제공할 수 있다.
특정 실시예로, 제3자 시스템(170)은 제3자 컨텐츠 객체 제공자를 포함할 수 있다. 제3자 컨텐츠 객체 제공자는 클라이언트 시스템(130)과 통신될 수 있는 하나 이상의 소스의 컨텐츠 객체를 포함할 수 있다. 예로서 제한 없이, 컨텐츠 객체는 가령 영화 쇼타임, 영화 리뷰, 레스토랑 리뷰, 레스토랑 메뉴, 제품 정보와 리뷰 또는 다른 적절한 정보와 같이 사용자가 관심 있는 사물이나 활동에 관한 정보를 포함할 수 있다. 또 다른 예로서 제한 없이, 컨텐츠 객체는 가령 쿠폰, 할인 티켓, 상품권 또는 다른 적절한 인센티브 객체와 같은 인센티브 컨텐츠 객체를 포함할 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 또한 소셜 네트워킹 시스템(160)과 사용자의 상호작용을 향상시킬 수 있는 사용자-생성된 컨텐츠 객체를 포함한다. 사용자-생성된 컨텐츠는 사용자가 소셜 네트워킹 시스템(160)에 추가, 업로드, 송신 또는 "게시"할 수 있는 어떤 것을 포함할 수 있다. 예로서 제한 없이, 사용자는 클라이언트 시스템(130)으로부터 소셜 네트워킹 시스템(160)으로 게시물을 통신할 수 있다. 게시물은 가령 상태 업데이트나 다른 텍스트형 데이터와 같은 데이터, 위치 정보, 사진, 비디오, 링크, 음악 또는 다른 유사한 데이터나 매체를 포함할 수 있다. 또한, 컨텐츠는 가령 뉴스피드 또는 스트림과 같이 "통신 채널"을 통해 제3자에 의해 소셜 네트워킹 시스템(160)에 추가될 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 다양한 서버, 서브-시스템, 프로그램, 모듈, 로그 및 데이터 스토어를 포함할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 다음의 하나 이상의: 웹 서버, 행위 로거, API 요청 서버, 관련성 및 순위화 엔진, 컨텐츠 객체 분류기, 알림 제어기, 행위 로그, 제3자 컨텐츠 객체 노출 로그, 추론 모듈, 인증/개인정보 서버, 검색 모듈, 광고 타겟팅 모듈, 사용자 인터페이스 모듈, 사용자 프로필 스토어, 연결 스토어, 제3자 컨텐츠 스토어 또는 위치 스토어를 포함할 수 있다. 또한, 소셜 네트워킹 시스템(160)은 가령 네트워크 인터페이스, 보안 메커니즘, 부하 균형기, 장애 서버, 관리 및 네트워크 운영 콘솔, 다른 적절한 컴포넌트 또는 이들의 임의의 적절한 조합과 같이 적절한 컴포넌트들을 포함할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 사용자 프로필을 저장하기 위한 하나 이상의 사용자 프로필 스토어를 포함할 수 있다. 사용자 프로필은 예컨대 인명정보, 인구학적 정보, 행동 정보, 소셜 정보 또는 가령 경력, 학력, 취미나 기호, 관심사, 친밀감, 위치와 같은 다른 유형의 설명적 정보를 포함할 수 있다. 관심사 정보는 하나 이상의 카테고리에 관한 관심사를 포함할 수 있다. 카테고리는 일반적이거나 구체적일 수 있다. 예로서 제한 없이, 사용자가 신발 브랜드에 관한 기사에 "좋아한다"면, 카테고리는 그 브랜드일 수 있거나 "신발" 또는 "옷"의 일반 카테고리일 수 있다. 연결 스토어는 사용자에 대한 연결 정보를 저장하는데 사용될 수 있다. 연결 정보는 유사하거나 공통의 경력, 그룹 맴버쉽, 취미, 학력을 가지거나 임의의 방식으로 관련되거나 공통 속성을 공유하는 사용자들을 표시할 수 있다. 또한, 연결 정보는 (내부와 외부 모두의) 다른 사용자들과 컨텐츠 사이의 사용자-정의된 연결들을 포함할 수 있다. 웹 서버는 네트워크(110)를 통해 하나 이상의 클라이언트 시스템(130)이나 하나 이상의 제3자 시스템(170)과 소셜 네트워킹 시스템(160)을 링크하는데 사용될 수 있다. 웹 서버는 소셜 네트워킹 시스템(160)과 하나 이상의 클라이언트 시스템(130) 사이에서 메시지를 수신하고 라우팅하기 위한 메일 서버나 다른 메시징 기능을 포함할 수 있다. API 요청 서버는 제3자 시스템(170)이 하나 이상의 API를 호출하여 소셜 네트워킹 시스템(160)으로부터의 정보에 접근할 수 있게 해줄 수 있다. 행위 로거는 소셜 네트워킹 시스템(160) 내부나 외부에서의 사용자의 행위에 대한 웹 서버로부터의 통신을 수신하는데 사용될 수 있다. 행위 로그와 함께, 제3자 컨텐츠 객체 로그에서는 제3자 컨텐츠 객체에 대한 사용자 노출이 관리될 수 있다. 알림 제어기는 컨텐츠 객체에 관한 정보를 클라이언트 시스템(130)에 제공할 수 있다. 정보는 알림으로서 클라이언트 시스템(130)으로 푸싱(pushed)될 수 있거나, 정보는 클라이언트 시스템(130)으로부터 수신된 요청에 응답하여 클라이언트 시스템(130)으로부터 풀링(pulled)될 수 있다. 인증 서버는 소셜 네트워킹 시스템(160)의 사용자의 하나 이상의 개인정보 설정을 강제하는데 사용될 수 있다. 사용자의 개인정보 설정은 사용자와 관련된 특정 정보가 어떻게 공유될 수 있는지를 결정한다. 인증 서버는 예컨대 적절한 개인정보 설정을 설정함으로써, 사용자의 행위를 소셜 네트워킹 시스템(160)에 의해 로그되게 하거나 다른 시스템(예컨대, 제3자 시스템(170))과 공유되게 하도록 사용자가 참여하거나 탈퇴할 수 있게 해줄 수 있다. 제3자 컨텐츠 객체 스토어는 가령 제3자 시스템(170)과 같은 제3자로부터 수신된 컨텐츠 객체를 저장하는데 사용될 수 있다. 위치 스토어는 사용자와 관련된 클라이언트 시스템(130)으로부터 수신된 위치 정보를 저장하는데 사용될 수 있다. 광고 가격결정 모듈은 소셜 정보, 현재시간, 위치 정보 또는 다른 적절한 정보를 결합하여 알림의 형태로 사용자에게 관련 광고를 제공할 수 있다.
소셜 그래프
도 2는 예시적인 소셜 그래프(200)를 도시한다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 하나 이상의 데이터 스토어에 하나 이상의 소셜 그래프(200)를 저장할 수 있다. 특정 실시예로, 소셜 그래프(200)는 다수의 사용자 노드(202)나 다수의 컨셉 노드(204)를 포함할 수 있는 다수의 노드 및 노드를 연결하는 다수의 에지(206)를 포함할 수 있다. 도 2에 도시된 예시적인 소셜 그래프(200)는 훈시적 목적상 2차원 시각적 지도 표현으로 도시된다. 특정 실시예로, 소셜 네트워킹 시스템(160), 클라이언트 시스템(130) 또는 제3자 시스템(170)은 소셜 그래프(200) 및 적절한 애플리케이션에 대한 관련 소셜-그래프 정보에 접근할 수 있다. 소셜 그래프(200)의 노드 및 에지는 예컨대 데이터 스토어(가령, 소셜-그래프 데이터베이스)에 데이터 객체로서 저장될 수 있다. 이런 데이터 스토어는 소셜 그래프(200)의 노드 또는 에지의 하나 이상의 검색가능하거나 질의가능한 인덱스를 포함할 수 있다.
특정 실시예로, 사용자 노드(202)는 소셜 네트워킹 시스템(160)의 사용자에 해당할 수 있다. 예로서 제한 없이, 사용자는 개인(사람인 사용자), 엔티티(예컨대, 기업, 사업체 또는 제3자 애플리케이션) 또는 소셜 네트워킹 시스템(160)과 상호작용하거나 소셜 네트워킹 시스템에서 통신하는 (예컨대, 개인 또는 엔티티의) 그룹일 수 있다. 특정 실시예로, 사용자가 소셜 네트워킹 시스템(160)에서 계정을 등록하면, 소셜 네트워킹 시스템(160)은 사용자에 해당하는 사용자 노드(202)를 생성할 수 있고, 하나 이상의 데이터 스토어에 사용자 노드(202)를 저장할 수 있다. 적절한 경우, 본 명세서에 기술되는 사용자들 및 사용자 노드들(202)은 등록 사용자들 및 등록 사용자들과 관련된 사용자 노드들(202)을 말할 수 있다. 추가로 또는 대안으로, 본 명세서에 기술되는 사용자들 및 사용자 노드들(202)은 적절한 경우 소셜 네트워킹 시스템(160)에 등록되지 않은 사용자들을 말할 수 있다. 특정 실시예로, 사용자 노드(202)는 사용자가 제공한 정보 및 소셜 네트워킹 시스템(160)을 포함하는 다양한 시스템이 수집한 정보와 관련될 수 있다. 예로서 제한 없이, 사용자는 그들의 이름, 프로필 사진, 연락 정보, 생일, 성별, 혼인 여부, 가족 관계, 직장, 학력, 기호, 관심사 또는 다른 신상 정보를 제공할 수 있다. 특정 실시예로, 사용자 노드(202)는 사용자와 관련된 정보에 해당하는 하나 이상의 데이터 객체와 관련될 수 있다. 특정 실시예로, 사용자 노드(202)는 하나 이상의 웹 인터페이스에 해당할 수 있다.
특정 실시예로, 컨셉 노드(204)는 컨셉에 해당할 수 있다. 예로서 제한 없이, 컨셉은 장소(가령, 예컨대, 영화관, 레스토랑, 명소 또는 도시); 웹사이트(가령, 예컨대, 소셜 네트워크 시스템(160)과 관련된 웹사이트 또는 웹-애플리케이션 서버와 관련된 제3자 웹사이트); 엔티티(가령, 예컨대, 사람, 사업체, 그룹, 스포츠 팀 또는 유명인사); 소셜 네트워킹 시스템(160) 또는 가령 웹-애플리케이션 서버와 같은 외부 서버에 위치할 수 있는 자원(가령, 예컨대, 오디오 파일, 비디오 파일, 디지털 사진, 텍스트 파일, 구조화된 문서 또는 애플리케이션); 물적 재산권 또는 지적 재산권(가령, 예컨대, 조각품, 미술품, 영화, 게임, 노래, 아이디어, 사진 또는 저서); 게임; 활동; 아이디어나 이론; 또 다른 적절한 컨셉; 또는 2 이상의 이런 컨셉들에 해당할 수 있다. 컨셉 노드(204)는 사용자에 의해 제공된 컨셉의 정보 또는 소셜 네트워킹 시스템(160)을 포함하는 다양한 시스템에 의해 수집된 정보와 관련될 수 있다. 예로서 제한 없이, 컨셉의 정보는 이름이나 제목; 하나 이상의 이미지(예컨대, 책의 커버 페이지의 이미지); 위치(예컨대, 주소 또는 지리적 위치); (URL과 관련될 수 있는) 웹사이트; 연락 정보(예컨대, 전화번호 또는 이메일 주소); 다른 적절한 컨셉 정보; 또는 이런 정보의 임의의 적절한 조합을 포함할 수 있다. 특정 실시예로, 각각의 컨셉 노드(204)는 컨셉 노드(204)와 관련된 정보에 해당하는 하나 이상의 데이터 객체와 관련될 수 있다. 특정 실시예로, 각각의 컨셉 노드(204)는 웹 인터페이스에 해당할 수 있다.
특정 실시예로, 소셜 그래프(200)에서 노드는 ("프로필 인터페이스"라고 할 수 있는) 웹 인터페이스를 표현하거나, 그 웹 인터페이스로 표현될 수 있다. 프로필 인터페이스는 소셜 네트워킹 시스템(160)에 의해 호스트될 수 있거나, 접근될 수 있다. 또한, 프로필 인터페이스는 제3자 시스템(170)과 관련된 제3자 웹사이트에 호스트될 수 있다. 예로서 제한 없이, 특정한 외부 웹 인터페이스에 해당하는 프로필 인터페이스는 특정한 외부 웹 인터페이스일 수 있고, 이런 프로필 인터페이스는 특정 컨셉 노드(204)에 해당할 수 있다. 프로필 인터페이스는 모든 또는 선택된 서브세트의 다른 사용자들에 의해 열람될 수 있다. 예로서 제한 없이, 사용자 노드(202)는 해당 사용자가 컨텐츠를 추가할 수 있고, 선언을 할 수 있으며, 그렇지 않으면 그들 자신을 표현할 수 있는 해당 사용자 프로필-인터페이스를 가질 수 있다. 또 다른 예로서 제한 없이, 컨셉 노드(204)는 특히 컨셉 노드(204)에 해당하는 컨셉과 관련하여 하나 이상의 사용자들이 컨텐츠를 추가할 수 있거나, 선언을 할 수 있거나, 그들 자신을 표현할 수 있는 해당 컨셉-프로필 인터페이스를 가질 수 있다.
특정 실시예로, 컨셉 노드(204)는 제3자 시스템(170)에 의해 호스팅된 제3자 웹 인터페이스 또는 자원을 표현할 수 있다. 제3자 웹 인터페이스 또는 자원은 다른 요소들 중에서 행위 또는 활동을 표현하는 (예컨대, JavaScript, AJAX 또는 PHP 코드로 구현될 수 있는) 컨텐츠, 선택가능하거나 다른 아이콘 또는 다른 상호작용가능한 객체를 포함할 수 있다. 예로서 제한 없이, 제3자 웹 인터페이스는 가령 "좋아요", "체크인", "식사하기(eat)", "추천하기" 또는 다른 적절한 행위나 활동과 같은 선택가능한 아이콘을 포함할 수 있다. 제3자 웹 인터페이스를 열람하는 사용자는 아이콘들 중 하나(예컨대, "체크인")를 선택하여 행위를 수행할 수 있고, 클라이언트 시스템(130)이 사용자의 행위를 표시하는 메시지를 소셜 네트워킹 시스템(160)으로 송신하게 할 수 있다. 그 메시지에 응답하여, 소셜 네트워킹 시스템(160)은 사용자에 해당하는 사용자 노드(202)와 제3자 웹 인터페이스 또는 자원에 해당하는 컨셉 노드(204) 사이의 에지(예컨대, "체크인-타입" 에지)를 생성할 수 있고, 하나 이상의 데이터 스토어에 에지(206)를 저장할 수 있다.
특정 실시예로, 소셜 그래프(200)에서 노드 쌍은 하나 이상의 에지(206)에 의해 서로 연결될 수 있다. 노드 쌍을 연결하는 에지(206)는 노드 쌍 사이의 관계를 표현할 수 있다. 특정 실시예로, 에지(206)는 노드 쌍 사이의 관계에 해당하는 하나 이상의 데이터 객체나 속성을 포함하거나 표현할 수 있다. 예로서 제한 없이, 제1 사용자는 제2 사용자가 제1 사용자의 "친구"라고 표시할 수 있다. 이런 표시에 응답하여, 소셜 네트워킹 시스템(160)은 "친구 요청"을 제2 사용자에게 송신할 수 있다. 제2 사용자가 "친구 요청"을 확인하면, 소셜 네트워킹 시스템(160)은 소셜 그래프(200)에서 제1 사용자의 사용자 노드(202)와 제2 사용자의 사용자 노드(202)를 연결하는 에지(206)를 생성할 수 있고, 하나 이상의 데이터 스토어(164)에 소셜-그래프 정보로서 에지(206)를 저장할 수 있다. 도 2의 예에서, 소셜 그래프(200)는 사용자 "A"와 사용자 "B"의 사용자 노드(202)들 사이의 친구 관계를 표시하는 에지(206)를 그리고 사용자 "C"와 사용자 "B"의 사용자 노드(202) 사이의 친구 관계를 표시하는 에지를 포함한다. 본 명세서가 특정 사용자 노드(202)를 연결하는 특정 속성을 가진 특정 에지(206)를 기술하거나 도시하지만, 본 명세서는 사용자 노드(202)를 연결하는 임의의 적절한 속성을 가진 임의의 적절한 에지(206)를 고려한다. 예로서 제한 없이, 에지(206)는 친구관계, 가족관계, 사업이나 고용 관계, (예컨대, 좋아요 등을 포함하는) 팬 관계, 팔로어 관계, (예컨대, 액세스하기, 열람하기, 체크인하기, 공유하기 등을 포함하는) 방문자 관계, 구독자 관계, 상위/하위 관계, 호혜 관계, 비-상호 관계, 또 다른 적절한 타입의 관계 또는 2 이상의 이런 관계들을 표현할 수 있다. 게다가, 본 명세서는 일반적으로 노드들이 연결되는 것을 기술하지만, 본 명세서는 또한 사용자 또는 컨셉이 연결되는 것을 기술한다. 본 명세서에서, 사용자 또는 컨셉이 연결되는 것에 대한 언급은 적절한 경우 이들 사용자 또는 컨셉에 해당하는 노드가 하나 이상의 에지(206)에 의해 소셜 그래프(200)에서 연결되는 것을 말할 수 있다.
특정 실시예로, 사용자 노드(202)와 컨셉 노드(204) 사이의 에지(206)는 컨셉 노드(204)와 관련된 컨셉에 대해 사용자 노드(202)의 사용자가 수행한 특정 행위 또는 활동을 표현할 수 있다. 예로서 제한 없이, 도 2에 도시된 바와 같이, 사용자는 컨셉을 "좋아요(like)", "참여했음(attended)", "실행했음(played)", "청취했음(listened)", "요리했음(cooked)", "근무했음(worked at)", 또는 "시청했음(watched)"을 할 수 있고, 이들 각각은 에지 타입이나 서브타입에 해당할 수 있다. 컨셉 노드(204)에 해당하는 컨셉-프로필 인터페이스는 예컨대 선택가능한 "체크인" 아이콘(가령, 예컨대, 클릭가능한 "체크인" 아이콘) 또는 선택가능한 "즐겨찾기에 추가(add to favorites)" 아이콘을 포함할 수 있다. 마찬가지로, 사용자가 이런 아이콘을 클릭한 후, 소셜 네트워킹 시스템(160)은 각각의 행위에 해당하는 사용자의 행위에 응답하여 "즐겨찾기" 에지 또는 "체크인" 에지를 생성할 수 있다. 또 다른 예로서 제한 없이, 사용자(사용자 "C")는 특정 애플리케이션(온라인 음악 애플리케이션인 SPOTIFY)을 사용하여 특정 노래("Imagine")를 들을 수 있다. 이 경우, 소셜 네트워킹 시스템(160)은 사용자에 해당하는 사용자 노드(202)와 노래 및 애플리케이션에 해당하는 컨셉 노드(204) 사이에 "청취했음(listened)" 에지(206) 및 "사용했음(used)" 에지(도 2에 도시)를 생성하여, 사용자가 그 노래를 들었고 그 애플리케이션을 사용했음을 표시할 수 있다. 게다가, 소셜 네트워킹 시스템(160)은 노래와 애플리케이션에 해당하는 컨셉 노드(204) 사이에서 "실행했음(played)" 에지(206)(도 2에 도시)를 생성하여 특정 노래가 특정 애플리케이션에 의해 실행되었음을 표시할 수 있다. 이 경우, "실행했음(played)" 에지(206)는 외부 오디오 파일(노래 "Imagine")에 대해 외부 애플리케이션(SPOTIFY)이 수행한 행위에 해당한다. 본 명세서는 사용자 노드(202)와 컨셉 노드(204)를 연결하는 특정 속성을 가진 에지(206)를 기술하지만, 본 명세서는 사용자 노드(202)와 컨셉 노드(204)를 연결하는 임의의 적절한 속성을 가진 임의의 적절한 에지(206)를 고려한다. 게다가, 본 명세서는 단일의 관계를 표현하는 사용자 노드(202)와 컨셉 노드(204) 사이의 에지를 기술하지만, 본 명세서는 하나 이상의 관계를 표현하는 사용자 노드(202)와 컨셉 노드(204) 사이의 에지를 고려한다. 예로서 제한 없이, 에지(206)는 사용자가 특정 컨셉에서 좋아요 하고 사용했음을 모두 표현할 수 있다. 대안으로, 또 다른 에지(206)는 사용자 노드(202)와 컨셉 노드(204) 사이(도 2에 도시된 바와 같이, 사용자 "E"에 대한 사용자 노드(202)와 "SPOTIFY"에 대한 컨셉 노드(204) 사이)의 각 타입의 관계(또는 다수의 단일 관계)를 표현할 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 소셜 그래프(200)에서 사용자 노드(202)와 컨셉 노드(204) 사이의 에지(206)를 생성할 수 있다. 예로서 제한 없이, (가령, 예컨대, 사용자의 클라이언트 시스템(130)에 의해 호스팅되는 웹 브라우저 또는 특수목적 애플리케이션을 사용하여) 사용자가 컨셉-프로필 인터페이스를 열람하는 것은 사용자가 "좋아요" 아이콘을 클릭하거나 선택하여 컨셉 노드(204)가 표현한 컨셉을 좋아함을 나타낼 수 있는데, "좋아요" 아이콘은 사용자의 클라이언트 시스템(130)이 컨셉-프로필 인터페이스와 관련된 컨셉을 사용자가 좋아요 했다고 표시한 메시지를 소셜 네트워킹 시스템(160)으로 송신하게 할 수 있다. 그 메시지에 응답하여, 소셜 네트워킹 시스템(160)은 사용자와 컨셉 노드(204) 사이의 "좋아요" 에지(206)로 도시된 바와 같이 사용자와 관련된 사용자 노드(202)와 컨셉 노드(204) 사이의 에지(206)를 생성할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 하나 이상의 데이터 스토어에 에지(206)를 저장할 수 있다. 특정 실시예로, 에지(206)는 특정 사용자 행위에 응답하여 소셜 네트워킹 시스템(160)에 의해 자동 형성될 수 있다. 예로서 제한 없이, 제1 사용자가 사진을 업로드하거나, 영화를 시청하거나, 노래를 듣는다면, 에지(206)는 제1 사용자에 해당하는 사용자 노드(202)와 이런 컨셉에 해당하는 컨셉 노드(204) 사이에 형성될 수 있다. 본 명세서는 특정 방식으로 특정 에지(206)를 형성하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 임의의 적절한 에지(206)를 형성하는 것을 고려한다.
온라인 소셜 네트워크에서의 검색 질의
특정 실시예로, 소셜 네트워킹 시스템(160)은 온라인 소셜 네트워크의 사용자의 클라이언트 시스템으로부터 사용자가 입력한 질의를 수신할 수 있다. 사용자는 예를 들어 질의 입력을 선택하거나 텍스트를 질의 필드에 입력함으로써 소셜 네트워킹 시스템(160)으로 질의를 제출할 수 있다. 온라인 소셜 네트워크의 사용자는 흔히 "검색 질의(search query)"라고 하는 주제를 설명하는 짧은 문구를 검색 엔진에 제공함으로써 특정 주제(예컨대, 사용자, 컨셉, 외부 컨텐츠 또는 리소스)에 관한 정보를 검색할 수 있다. 질의는 비구조화된 텍스트 질의일 수 있고 (하나 이상의 n-그램을 포함할 수 있는) 하나 이상의 텍스트 문자열을 포함할 수 있다. 통상, 사용자는 텍스트 질의에 매치하는 소셜 네트워킹 시스템(160)의 컨텐츠를 검색하도록 임의의 문자열을 질의 필드로 입력할 수 있다. 이후, 소셜 네트워킹 시스템(160)은 질의에 매치하는 컨텐츠를 식별하도록 데이터 스토어(164)(또는, 특히, 소셜-그래프 데이터베이스)를 검색할 수 있다. 검색 엔진은 다양한 검색 알고리즘을 사용하여 질의 문구를 기초로 검색을 실행할 수 있고, 검색 질의와 관련될 가능성이 가장 높은 리소스 또는 컨텐츠(예컨대, 사용자-프로필 인터페이스, 컨텐츠-프로필 인터페이스 또는 외부 리소스)를 식별하는 검색 결과를 생성할 수 있다. 검색을 실행하기 위해, 사용자는 검색 질의를 검색 엔진으로 입력 또는 전송할 수 있다. 응답으로, 검색 엔진은 검색 질의에 대응하여 각각 개별적으로 "검색 결과"라고 할 수 있거나 포괄적으로 "검색 결과"라고 할 수 있는 검색 질의와 관련될 가능성이 있는 하나 이상의 리소스를 식별할 수 있다. 식별된 컨텐츠는 예컨대 소셜-그래프 요소(즉, 사용자 노드(202), 컨셉 노드(204), 에지(206)), 프로필 인터페이스, 외부 웹 인터페이스 또는 이들의 임의의 조합을 포함할 수 있다. 이후, 소셜 네트워킹 시스템(160)은 식별된 컨텐츠에 해당하는 검색 결과를 가진 검색 결과 인터페이스를 생성하고 사용자에게 검색 결과 인터페이스를 송신할 수 있다. 검색 결과는 흔히 검색-결과 웹 인터페이스에서 링크 리스트의 형태로 사용자에게 제시될 수 있으며, 각각의 링크는 식별된 리소스 또는 컨텐츠의 일부를 포함하는 다른 웹 인터페이스와 관련된다. 특정 실시예로, 검색 결과 내 각각의 링크는 해당 웹 인터페이스가 위치하는 장소 및 이를 검색하는 메커니즘을 명시한 URL(Uniform Resource Locator)의 형태일 수 있다. 이후, 소셜 네트워킹 시스템(160)은 검색 결과 웹 인터페이스를 사용자의 클라이언트 시스템(130)에서 사용자의 웹 브라우저(132)로 전송할 수 있다. 이후, 사용자는 적절하게 소셜 네트워킹 시스템(160) 또는 외부 시스템(예컨대, 제3자 시스템(170))으로부터 컨텐츠에 접근하도록 URL 링크를 클릭하거나 검색 결과 웹 인터페이스로부터 컨텐츠를 선택할 수 있다. 리소스는 검색 질의에 대한 상대적인 관련도에 따라 순위화되고 사용자에게 제시될 수 있다. 또한, 검색 결과는 사용자와의 상대적인 관련도에 따라 순위화되고 사용자에게 제시될 수 있다. 즉, 검색 결과는 예컨대 소셜-그래프 정보, 사용자 정보, 사용자의 검색이나 브라우징 이력 또는 사용자에 관한 다른 적절한 정보를 기초로 질의중인 사용자에 대해 개인화될 수 있다. 특정 실시예로, 리소스의 순위화는 검색 엔진으로 구현되는 순위화 알고리즘에 의해 결정될 수 있다. 예로서 제한 없이, 검색 질의 또는 사용자와 상대적으로 더 관련성이 있는 리소스는 검색 질의 또는 사용자와 상대적으로 덜 관련성이 있는 리소스보다 더 높게 순위화될 수 있다. 특정 실시예로, 검색 엔진은 그 검색을 온라인 소셜 네트워크의 리소스 및 컨텐츠로 제한할 수 있다. 그러나, 특정 실시예로, 검색 엔진은 또한 가령 제3자 시스템(170), 인터넷 또는 World Wide Web 또는 다른 적절한 소스와 같은 다른 소스들에서 리소스 또는 컨텐츠를 검색할 수 있다. 본 명세서는 특정한 방식으로 소셜 네트워킹 시스템(160)에 질의하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 소셜 네트워킹 시스템(160)에 질의하는 것을 고려한다.
타이프어헤드 프로세스 및 질의
특정 실시예로, 하나 이상의 클라이언트-측 및/또는 백엔드(서버-측) 프로세스는 가령 소셜 네트워킹 시스템(160)에 의해 호스팅되거나 접근가능할 수 있는 요청된 웹 인터페이스(예컨대, 사용자-프로필 인터페이스, 컨셉-프로필 인터페이스, 검색-결과 인터페이스, 온라인 소셜 네트워크와 관련된 네이티브 애플리케이션의 사용자 인터페이스/시청 상태 또는 온라인 소셜 네트워크의 다른 적절한 인터페이스)와 함께 렌더링되는 입력 서식에 사용자가 현재 입력한 정보와 소셜 그래프 요소(예컨대, 사용자 노드(202), 컨셉 노드(204) 또는 에지(206))를 자동으로 매치하고자 하는 "타이프어헤드(typeahead)" 기능을 구현하고 이용할 수 있다. 특정 실시예로, 사용자가 선언문을 만들도록 텍스트를 입력중일 때, 타이프어헤드 기능은 선언문에 입력되는 텍스트 문자열을 소셜 그래프(200) 내 사용자, 컨셉 또는 에지 그리고 그들의 대응하는 요소들에 해당하는 문자열(예컨대, 이름, 설명)을 매치하고자 할 수 있다. 특정 실시예로, 매치가 발견되는 경우, 타이프어헤드 기능은 기존의 소셜 그래프 요소의 소셜 그래프 요소에 대한 참조(가령, 예컨대, 노드 이름/유형, 노드 ID, 에지 이름/유형, 에지 ID 또는 다른 적절한 참조나 식별자)로 서식을 자동으로 채울 수 있다. 특정 실시예로, 사용자가 문자를 서식 박스로 입력할 때, 타이프어헤드 프로세스는 입력된 텍스트 문자열을 판독할 수 있다. 각각의 키 누름(keystroke)이 이루어질 때, 프런트엔트-타이프어헤드 프로세스는 요청(또는 호출)으로서 입력된 문자열을 소셜 네트워킹 시스템(160) 내에서 실행하는 백엔드-타이프어헤드 프로세스로 전송할 수 있다. 특정 실시예로, 타이프어헤드 프로세스는 하나 이상의 매칭 알고리즘을 사용하여 매칭 소셜-그래프 요소를 식별하고자 할 수 있다. 특정 실시예로, 매치이나 매치들이 발견되는 경우, 타이프어헤드 프로세스는 예컨대 매칭 소셜-그래프 요소의 이름(이름 문자열) 또는 설명뿐 아니라 잠재적으로 매칭 소셜-그래프 요소와 관련된 다른 메타데이터를 포함할 수 있는 응답을 사용자의 클라이언트 장치로 전송할 수 있다. 예로서 제한 없이, 사용자가 문자 "dat"를 질의 필드로 입력하면, 타이프어헤드 프로세스는 매치하는 기존 프로필 인터페이스 및 각각의 사용자 노드(202)나 컨셉 노드(204)(예컨대, "poker" 또는 "pokemon"으로 이름지어지거나 그 전용의 프로필 인터페이스)의 이름을 디스플레이하는 드롭-다운 메뉴를 디스플레이하며, 사용자가 이후 클릭하거나 선택함으로써 선택된 노드에 해당하는 매칭된 사용자나 컨셉 이름을 선언하는 요구를 확인할 수 있다. 타이프어헤드 프로세스에 대한 더 많은 정보는 참조로 통합되는 2010년 4월 19일자로 출원된 미국특허출원 제12/763162호 및 2012년 7월 23일자로 출원된 미국특허출원 제13/556072호에서 확인할 수 있다.
특정 실시예로, 본 명세서에 기술된 타이프어헤드 프로세스가 사용자에 의해 입력된 검색 질의에 적용될 수 있다. 예로서 제한 없이, 사용자가 텍스트 문자를 질의 필드에 입력하면, 타이프어헤드 프로세스는 사용자의 문자 입력시 질의 필드에 입력된 문자열에 매치하는 하나 이상의 사용자 노드(202), 컨셉 노드(204) 또는 에지(206)를 식별하고자 할 수 있다. 타이프어헤드 프로세스가 텍스트 질의로부터 문자열 또는 n-그램을 포함하는 요청 또는 호출을 수신하면, 타이프어헤드 프로세스는 입력된 텍스트에 매치하는 각각의 이름, 타입, 카테고리 또는 다른 식별자를 가진 기존의 소셜-그래프 요소(즉, 사용자 노드(202), 컨셉 노드(204), 에지(206))를 식별하는 검색을 수행하거나 수행되게 할 수 있다. 타이프어헤드 프로세스는 하나 이상의 매칭 알고리즘을 사용하여 매칭 노드 또는 에지를 식별하려고 시도할 수 있다. 매치 또는 매치들이 발견되는 경우, 타이프어헤드 프로세스는 예컨대 매칭 노드의 이름(이름 문자열)뿐 아니라 잠재적으로 매칭 노드와 관련된 다른 메타데이터를 포함할 수 있는 응답을 사용자의 클라이언트 시스템(130)으로 전송할 수 있다. 타이프어헤드 프로세스는 이후 매칭하는 기존의 프로필 인터페이스 및 각각의 사용자 노드(202)나 컨셉 노드(204)의 이름을 디스플레이하고 매칭하는 사용자 노드(202) 또는 컨셉 노드(204)와 연결할 수 있는 매칭 에지(206)의 이름을 디스플레이하는 드롭-다운 메뉴를 디스플레이할 수 있으며, 이후 사용자는 이를 클릭하거나 선택함으로써 선택된 노드에 해당하는 매칭된 사용자나 컨셉 이름을 검색하거나 매칭 에지로 매칭된 사용자나 컨셉과 연결되는 사용자나 컨셉을 검색하려는 요구를 확인할 수 있다. 대안으로, 타이프어헤드 프로세스는 드롭-다운 메뉴를 디스플레이하는 대신에 간단히 최상위의 매치의 이름이나 다른 식별자로 서식을 자동으로 채울 수 있다. 이후, 사용자는 간단히 그들의 키보드에서 "enter"를 치거나 자동-채움 선언을 클릭함으로써 자동-채움 선언을 확인할 수 있다. 매칭 노드와 에지의 사용자 확인시, 타이프어헤드 프로세스는 매칭 소셜-그래프 요소를 포함하는 질의의 사용자 확인을 소셜 네트워킹 시스템(160)에 알리는 요청을 전송할 수 있다. 전송된 요청에 응답하여, 소셜 네트워킹 시스템(160)은 매칭 소셜-그래프 요소 또는 적절한 경우 매칭 소셜-그래프 요소에 연결된 소셜-그래프 요소를 소셜-그래프 데이터베이스에서 자동으로(또는 요청 내 지시를 기초로 교대로) 호출하거나 검색할 수 있다. 본 명세서는 특정한 방식으로 검색 질의에 타이프어헤드 프로세스를 적용하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 검색 질의에 타이프어헤드 프로세스를 적용하는 것을 고려한다.
검색 질의 및 검색 결과와 관련하여, 특정 실시예는 본 명세서에 참조로서 통합된 2006년 8월 11일에 출원된 미국특허출원 제11/503093호, 2010년 12월 22일에 출원된 미국특허출원 제12/977027호 및 2010년 12월 23일에 출원된 미국특허출원 제12/978265호에 개시된 하나 이상의 시스템, 컴포넌트, 요소, 함수, 방법, 작동 또는 단계를 사용할 수 있다.
구조화된 검색 질의
특정 실시예에서, 제1 사용자(즉, 질의하는 사용자)로부터 수신된 텍스트 질의에 응답하여, 소셜 네트워킹 시스템(160)은 텍스트 질의를 파싱하고 특정 소셜 그래프 요소들에 대응하는 텍스트 질의의 부분들을 식별할 수 있다. 그러나, 경우에 따라, 질의는 모호한 하나 이상의 용어가 포함할 수 있는데, 모호한 용어는 다수의 소셜 그래프 요소에 대응할 가능성이 있는 용어이다. 모호한 용어를 파싱하기 위해, 소셜 네트워킹 시스템(160)은 소셜 그래프(200)에 액세스한 후, 텍스트 질의로부터 모호한 n-그램에 대응하는 소셜 그래프 요소를 식별하기 위해 텍스트 질의를 파싱할 수 있다. 이후, 소셜 네트워킹 시스템(160)은 구조화된 질의의 세트를 생성할 수 있는데, 여기서 각각의 구조화된 질의는 가능한 일치하는 소셜 그래프 요소 중 하나에 대응한다. 이런 구조화된 질의는 문법 모델에 의해 생성되는 문자열에 기반할 수 있으므로, 이들은 관련 소셜 그래프 요소에 대한 레퍼런스를 가진 자연어 구문법(natural-language syntax)으로 렌더링된다. 예로서 제한 없이, 소셜 네트워킹 시스템(160)은 "나의 여자친구의 친구들을 보여줘(show me friends of my girlfriend)"라는 텍스트 질의에 응답하여 구조화된 질의 "Stephanie의 친구들(Friends of Stephanie)"를 생성할 수 있는데, 여기서 구조화된 질의 내 "Friends" 및 "Stephanie"는 특정 소셜 그래프 요소에 대응하는 레퍼런스이다. "Stephanie"에 대한 레퍼런스는 특정 사용자 노드(202)에 대응(이때, 소셜 네트워킹 시스템(160)은 사용자 "Stephanie"에 대한 사용자 노드(202)와 일치하도록 n-그램 "나의 여자친구(my girlfriends)"를 파싱했음)하는 한편, "Friends"에 대한 레퍼런스는 그 사용자 노드(202)를 다른 사용자 노드(202)와 연결하는 친구-타입 에지(206)(즉, "Stephanie의" 1차 친구와 연결하는 에지(206))에 대응할 것이다. 이러한 구조화된 질의를 실행할 때, 소셜 네트워킹 시스템(160)은 "Stephanie"에 대응하는 사용자 노드(202)와 친구-타입 에지(206)로 연결되는 하나 이상의 사용자 노드(202)를 식별할 수 있다. 또 다른 예로서 제한 없이, 텍스트 질의 "facebook에서 일하는 친구들(friends who work at facebook)"에 응답하여, 소셜 네트워킹 시스템(160)은 구조화된 질의 "My friends who work at Facebook"을 생성할 수 있는데, 여기서 구조화된 질의 내 "my friends", "work at" 및 "Facebook"은 이전에 설명된 바와 같이 특정 소셜 그래프 요소에 대응하는 레퍼런스(즉, 친구-타입 에지(206), 근무했음-타입 에지(206) 및 회사 "Facebook"에 대응하는 컨셉 노드(204))이다. 사용자의 텍스트 질의에 응답하여 제안되는 구조화된 질의를 제공함으로써, 소셜 네트워킹 시스템(160)은 온라인 소셜 네트워크의 사용자가 그들의 소셜 그래프 속성 및 다양한 소셜 그래프 요소와 그들의 관계에 기초하여 소셜 그래프(200)에 표현된 요소를 검색하는 강력한 방법을 제공할 수 있다. 구조화된 질의는 질의중인 사용자가 특정 에지-타입으로 소셜 그래프(200)에서 특정 사용자나 컨셉과 연결되는 컨텐츠를 검색하게 해줄 수 있다. 구조화된 질의는 제1 사용자에게 송신될 수 있고 드롭-다운 메뉴(400)에 (예컨대, 클라이언트-측 타이프어헤드 프로세스를 통해) 디스플레이될 수 있는데, 여기서 제1 사용자는 이후 원하는 컨텐츠를 검색하도록 적절한 질의를 선택할 수 있다. 본 명세서에 기술되는 구조화된 질의를 사용하는 것의 이점들 중 일부는 제한된 정보를 기초로 온라인 소셜 네트워크의 사용자를 찾는 것, 다양한 소셜 그래프 요소와 컨텐츠의 관계를 기초로 온라인 소셜 네트워크로부터 그 컨텐츠의 가상 인덱스를 함께 가져오는 것 또는 당신 및/또는 당신의 친구에 관한 정보를 찾는 것을 포함한다. 비록 본 명세서는 특정 방식으로 특정 구조화된 질의를 생성하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 임의의 적절한 구조화된 질의를 생성하는 것을 고려한다.
요소 검출 및 질의 파싱에 대한 더 많은 정보는 각각 참조로 통합되는 2012년 7월 23일자로 출원된 미국특허출원 제13/556072호, 2012년 12월 31일자로 출원된 미국특허출원 제13/731866호 및 2012년 12월 31일자로 출원된 미국특허출원 제13/732101호에서 확인할 수 있다. 구조화된 검색 질의 및 문법 모델에 대한 더 많은 정보는 각각 참조로 통합되는 2012년 7월 23일자로 출원된 미국특허출원 제13/556072호, 2012년 11월 12일자로 출원된 미국특허출원 제13/674695호 및 2012년 12월 31일자로 출원된 미국특허출원 제13/731866호에서 확인할 수 있다.
키워드 및 키워드 질의의 생성
특정 실시예에서, 소셜 네트워킹 시스템(160)은 사용자가 질의 필드에 문자열을 입력할 때 질의하는 사용자에게 맞춤화된 키워드 완성 제안을 제공할 수 있다. 키워드 완성 제안은 비-구조화된 포맷으로 사용자에게 제공될 수 있다. 키워드 완성 제안을 생성하기 위해, 소셜 네트워킹 시스템(160)은 소셜 네트워킹 시스템(160) 내 다수의 소스에 액세스하여 키워드 완성 제안을 생성하고, 복수의 소스로부터 키워드 완성 제안을 점수화한 후, 키워드 완성 제안을 사용자에게 반환할 수 있다. 예로서 제한 없이, 사용자가 질의 "friends stan"을 타이핑하면, 소셜 네트워킹 시스템(160)은 예를 들어 "friends stanford", "friends stanford university", "friends stanley", "friends stanley cooper", "friends stanley kubrick", "friends stanley cup" 및 "friends stanlonski"를 제안할 수 있다. 이 예에서, 소셜 네트워킹 시스템(160)은 모호한 n-그램 "stan"의 변형인 키워드를 제안하고 있는데, 여기서 제안은 다양한 키워드 생성기로부터 생성될 수 있다. 소셜 네트워킹 시스템(160)은 사용자가 제안에 어떤 식으로든 연결되기 때문에 키워드 완성 제안을 선택했을 수 있다. 예로서 제한 없이, 질의하는 사용자는 소셜 그래프(200) 내에서 예컨대 좋아요-타입 에지 또는 참여했음-타입 에지에 의해 Stanford 대학에 대응하는 컨셉 노드(204)와 연결될 수 있다. 또한, 질의하는 사용자는 Stanley Cooper라는 친구가 있을 수도 있다. 비록 본 명세서는 특정 방식으로 키워드 완성 제안을 생성하는 것을 설명하지만, 본 명세서는 임의의 적절한 방식으로 키워드 완성 제안을 생성하는 것을 고려한다.
키워드 질의에 대한 더 많은 정보는 2014년 4월 3일자로 출원된 미국특허출원 제14/244748호, 2014년 8월 27일자로 출원된 미국특허출원 제14/470607호 및 2014년 12월 5일자로 출원된 미국특허출원 제14/561418호에서 확인할 수 있으며, 이들 각각은 참조로 통합된다.
다의적 코드를 사용한 유사성 검색
특정 실시예에서, 소셜 네트워킹 시스템(160)은 압축된 도메인에서 근사 최근접 이웃 검색을 수행할 수 있다. 검색은 프로덕트 양자화의 거리 추정 품질 및 해밍 거리와 이진 코드의 효율적인 비교를 모두 제공하는 다의적 코드를 사용할 수 있다. 검색시, 채널-최적화 벡터 양자화기를 사용하는 이런 이중 해석은 검색을 가속화할 수 있다. 대부분의 인덱싱된 벡터는 해밍 거리로 필터링되어 비대칭 거리 추정기로 벡터의 분수만이 순위화되게 할 수 있다.
이 방법은 역 다중 인덱스(inverted multi-index)와 같은 피처 공간의 거친 분할(coarse partitioning)과 상보적일 수 있다. 이는 코어 당 0.3 밀리 초 미만의 질의 시간 동안 최신의 결과를 보고하는 10억 개의 벡터를 포함하는 BIGANN 데이터세트와 같은 여러 공개 벤치마크에서 수행된 실험에 나타난다. 이 접근법은 단일 시스템에서 8 미만의 시간 내 CNN 이미지 설명자에 의해 설명된 Yahoo Flickr Creative Commons 100M와 관련된 k-최근접 이웃(k-NN) 그래프의 근사 계산을 가능하게 할 수 있다.
최근접 이웃 검색 또는 더 일반적으로 유사성 검색은 지난 수십 년 동안 여러 연구 커뮤니티에서 주목을 받아왔다. 컴퓨터 비전 커뮤니티는 특히 이 주제에 대해 적극적으로 활동했으며, 이는 매우 큰 시각적 집합을 다룰 때 가장 중요하다.
초기의 근사 최근접 이웃(approximate nearest neighbor(ANN)) 방법은 주로 속도와 정확도 간의 절충을 최적화하는 반면, 최근의 많은 연구는 몇 가지 이유로 메모리 요구사항을 핵심 기준으로 삼았다. 예를 들어, 메모리 계층 구조로 인해, 메모리를 적게 사용한다는 것은 더 빠른 메모리를 사용하는 것을 의미한다: 디스크는 주 메모리보다 느리고 주 메모리는 CPU 캐시보다 느리며, 기타 등등이다. 메모리 액세스는 검색의 병목일 수 있다. 따라서, 컴팩트 코드(compact codes)를 사용하는 알고리즘은 전체 벡터에 의존하는 알고리즘보다 더 나은 효율성을 제공할 수 있다. 이러한 이유로, 실시예는 단일 머신 상에 무려 10억 개의 벡터를 포함하는 벡터 세트에서 검색을 수행할 수 있는 컴팩트 코드를 갖는 ANN 검색에 초점을 맞춘다.
컴팩트 코드를 사용하는 ANN의 2가지 연구가 진행되어왔다. 제1 클래스의 방법은 원래 벡터를 해밍 하이퍼큐브(Hamming hypercube)에 맵핑하는 방법을 제안한다. 그 결과 비트 벡터는 가령 xor 및 popcnt와 같은 최적화된 저-수준 프로세서 명령어 덕분에 해밍 거리와 효율적으로 비교되며 CPU 및 GPU에서 모두 사용할 수 있다. 또 다른 접근법은 주어진 코드 크기에 대해 더 나은 거리 추정을 달성하기 위해 양자화 시점을 채택하는 것이다. 이런 두 클래스의 접근 방식은 종종 경쟁자로 보여지지만 둘 다 장점과 단점이 있다. 이진 코드는 더 빠른 기본 거리 계산을 제공하며 일단 코드가 생성되면 외부 메타데이터가 필요하지 않다. 반면에, 양자화-기반 접근법은 더 나은 메모리/정확도 동작점을 달성한다.
특정 실시예에서, 본 명세서에 기술된 다의적 코드는 양 세계의 장점을 제공한다. 이들은 필터링 단계에서 특히 유용한 이진 코드 또는 프로덕트 양자화 접근법의 비대칭 거리 추정기와 비교될 수 있다. 이런 이중 해석을 달성하는 핵심적인 측면은 학습 절차이다. 본 접근법은 채널-최적화된 벡터 양자화를 포함한다.
특정 실시예에서, 소셜 네트워킹 시스템(160)은 제1 사용자의 클라이언트 시스템으로부터 질의를 수신할 수 있는데, 이때 질의는 n-차원 벡터 공간에서 n-차원 벡터로 표현된다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은 벡터를 복수의 서브-벡터들로 분할하고, 복수의 서브 양자화기를 사용하여 복수의 서브 벡터들 각각을 양자화할 수 있는데, 여기서 각각의 양자화된 서브 벡터는 벡터 코드로 표현된다. 따라서, 접근 방식은 프로덕트 양자화기를 훈련시키는 것이다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은 양자화된 서브 벡터를 나타내는 벡터 코드를 질의를 나타내는 다의적 코드로 변환할 수 있는데, 여기서 각각의 다의적 코드는 양자화된 서브 벡터 중 하나를 표현한다. 이 방식으로, 그것은 중심들의 소위 "인덱스 할당"을 이진 코드로 최적화한다. 즉, 이 방법은 도 3에 도시된 바와 같이 해밍 공간에서 유사한 중심들 사이의 거리가 작도록 중심들의 명수법(numeration)을 재-순서화할 수 있다.
특정 실시예에서, 벡터 코드를 다의적 코드로 변환하는 것은 다의적 코드의 이진 비교가 양자화된 서브 벡터의 중심 간 거리를 반영하도록 비트의 순열(permutation)을 학습하는 것을 포함한다. 도 3은 특정 실시예에 따라 해밍 공간에서 유사한 중심들 사이의 거리가 작도록 중심들의 명수법을 재-순서화하는 것을 도시한다. 다의적 코드는 프로덕트 양자화(8-바이트 코드의 경우 코어당 초당 222M 거리 평가) 또는 이진 코드(초당 1.19G 거리)와 비교될 수 있는 벡터들의 간결한 표현이다. 이 속성을 얻기 위해, 비트에 대한 양자화 인덱스의 할당은 가장 가까운 중심이 작은 해밍 거리를 갖도록 최적화될 수 있다. 도면은 ([0,1] Х [0,1] 으로 균일하게 그려지는 점에 대해 학습된) k-평균 중심들 및 해당 이진 표현을 도시한다. 관찰될 수 있는 바와 같이, (도면에서 적색 세그먼트로 연결되는) 1 비트만큼 차이가 있는 코드들은 최적화 후 근접 중심들에 일반적으로 대응하지만(도 3, 우측), 표준 PQ 코드에 대한 사항(도 3, 좌측)은 아니다.
결과적으로, 본 방법은 검색 효율과 관련하여 정확도 및 이진법 측면에서 양자화-기반 방법과 거의 유사하다. 이 접근법을 역 다중-인덱스(inverted multi-index)와 같은 상보적인 접근법과 결합할 때, 본 방법은 몇몇 대형 공개 벤치마크에서 수행된 실험으로 나타난 바와 같이 큰 마진으로 최신 기술을 능가할 수 있다. 흥미롭게도, 본 접근법 의 높은 효율은 4,096 차원 벡터들에 의해 기술된 대형 이미지 집합 Flickr100M에 대한 모든 이웃 문제, 즉 k-NN 그래프를 계산할 수 있는 확장 가능한 솔루션을 제공한다.
컴팩트 코드를 갖는 근사 최근접 이웃
컴팩트 이진 코드(Compact binary codes). 지역-감지 해싱(Locality-Sensitive hashing)은 선구적인 이진 인코딩 기법이다. 일부 가정 하에서, 해밍 거리는 (정규화된 벡터에 대한 유클리드 거리와 동일하게) 코사인 유사성(cosine similarity)과 통계적으로 관련되어 있다. 이진 해시의 무차별 비교는 메모리 제약 조건을 가진 효율적인 이미지 검색을 위한 실행 가능한 옵션으로 보여 왔는데 이는 백만 가지 크기의 이미지 집합에 대한 이 접근법의 확장성을 입증하는 후속 작업에 의해 널리 보급되었다. 스펙트럼 해싱(spectral hashing) 또는 반복적 양자화(iterative quantization, ITQ)와 같이, 이런 해밍 공간에서 검색 속도를 높이기 위한 많은 접근법이 제안되었다. 예를 들어, k-means 해싱 방법은 생성된 코드가 해밍 거리와 비교되는 벡터 양자화기를 먼저 생성한다.
양자화-기반 코드(Quantization-based codes). 몇몇 작업은 주로 메모리와 거리 추정 간의 절충을 최적화하는데 중점을 두었다. 특히, Lloyd 조건을 만족하는 벡터 양자화기는 양자화기 제곱 손실(squared loss)에 의해 예상되는 경계의 제곱 유클리드 거리 추정기(square Euclidean distance estimator)에 대해 통계적으로 보장된다는 것을 보여준다 .이러한 양자화-기반 방법은 프로덕트 양자화(PQ) 및 그 최적화된 버전인 "최적화된 프로덕트 양자화" 및 "직교(Cartesian) k-means"를 포함한다.
이러한 접근법은 시각적 디스크립터의 많은 집합 내 근사 검색에 효과적이다. 후속 연구는 "추가 양자화(Additive Quantization)"과 같은 더 일반적인 관점을 채택함으로써 메모리/효율성 절충을 가능하게 하여 우수한 근사 및 검색 성능을 제공하지만 훨씬 높은 계산 부호화 비용으로 얻을 수 있다. 이 일반적인 공식과 PQ 사이에서, 양호한 절충이 잔여 양자화기에 의해 달성되는데, 잔여 양자화기는 본래의 벡터 대신에 잔여 오차 벡터를 인코딩하여 양자화 손실을 줄이기 위해 비-완전 PQ 변형에서 일상적으로 사용되고 그 자체의 코딩 전략으로 사용된다.
하이브리드 방식(Hybrid methods). 앞서 언급한 ANN 검색 방법은 인덱싱된 벡터당 메모리 사용을 제한하고 정확한 거리보다 계산 속도가 빠른 거리 추정기를 제공한다. 그러나, 질의가 모든 데이터베이스 요소와 비교된다는 의미에서 검색은 여전히 완전하다. 10억 개의 집합에 대해, 메모리에서 코드를 판독하는 것은 일반적으로 대략 1초의 검색 시간을 초래하는 심각한 제약이다. 이러한 메모리 병목현상의 한계는 2단계 접근법으로 이어졌으며, 이 방식에서는 먼저 특징 공간이 해싱 또는 클러스터링을 통해 분할된다. 실제로, 식별자 및 해당 컴팩트 코드를 저장하는 역 리스트는 각 영역에 대해 저장된다. 질의 시간에, 거리는 지역의 서브세트와 관련된 코드에 대해서만 추정된다. 합동 역 인덱싱(joint inverted indexing)에서 행해진 바대로 초기 LSH 논문에서처럼 다수의 파티션을 사용할 수도 있다. 그러나, 이러한 솔루션은 여러 인덱싱 구조가 필요하므로 메모리와 정확도 간의 절충을 고려할 때 경쟁력이 없다. 비-정밀도(coarse level)로 다양한 파티셔닝 방법이 제안되었다. 특히, 역 다중-인덱스는 비-정밀도를 정의하고 잔여 벡터를 코딩하기 위해 프로덕트 양자화를 사용한다. 이 전략은 코드 기반의 재-순위화 전략과 더 결합될 때 최첨단 성능을 제공한다.
이진 코드 대 양자화-기반 접근법. 해밍 거리는 양자화 방법과 관련된 테이블 룩업에 기반한 거리 추정기보다 상당히 빠르게 평가된다. 예를 들어, 가속 계수는 코드 길이에 따라 4.6x 내지 6.6x 일 수 있다. 그러나, 이진 방법은 해밍 공간에 의해 부과된 한계를 겪는다. 첫째, 가능한 거리의 수는 많아야 d+1이며, 여기서 d는 이진 벡터 길이이다. 이 문제는 LSH의 비대칭 변형에 의해 부분적으로 해결되는데, LSH의 추정은 데이터베이스 벡터에 대해 컴팩트 코드를 사용하지만 질의 측면에는 사용하지 않는다. 그러나, 이러한 비대칭 측정은 프로덕트 양자화에서 파생된 방법과 같이 룩업을 요구하므로, 해밍 거리보다 평가하는 것이 더 비용이 든다. 한편, 양자화-기반 방법은 이진화가 양자화의 특별한 경우이기 때문에 예상되는 더 나은 메모리/정확성 타협을 제공한다.
이진 및 양자화-기반 코드는 그 자체의 장점과 단점을 가진다. 문헌에서는 보통 이진 및 양자화-기반 코드를 병행 방법(concurrent methods)으로 제시하지만, 다음 섹션에서는 두 클래스의 방법들의 장점을 활용하는 방법을 소개한다.
다의적 코드를 가진 근사 최근접 이웃
특정 실시예에서, 본 방법은 양자화-기반 방법들의 추정 정확성을 제공하면서 해밍 거리의 고속 계산을 이용할 수 있다. 특정 실시예에서, 본 방법은 정규 프로덕트 양자화기를 학습한 후 해밍 거리가 중심 간 거리를 근사화하도록 이진 코드에 대한 중심 인덱스의 할당을 최적화한다. 이 섹션에서는 먼저 이 속성을 달성하기 위해 최적화된 목적 함수를 설명하고 최적화 알고리즘을 설명한다.
특정 실시예에서, 소셜 네트워킹 시스템(160)은 벡터를 복수의 서브 벡터들로 나눌 수 있는데, 이는 n차원 벡터 공간을 복수의 프로덕트 서브 공간들로 분해하는 것을 포함하며, 벡터들 사이의 거리는 프로덕트 서브 공간에서 대응하는 서브 벡터들 간의 거리의 합과 동일하다. 특정 실시예에서, 프로덕트 양자화기에 대해, 구성 서브 양자화기 각각을 개별적으로 최적화한다. 특정 실시예에서, 각각의 서브 양자화기는 복수의 서브 양자화기의 서로 다른 서브 양자화기와 구별된다. 따라서, 다음으로, 우리는 서브 양자화기 당 하나의 목적 함수(및 최적화 프로세스)를 갖는다.
목적 함수(Objective Functions)
우리는 2개의 목적 함수: 거리 추정기를 기반으로 손실을 최소화하는 함수 및 순위 손실을 최소화하는 함수를 고려한다.
표기법. 양자화기는 일반적으로 그 중심의 세트로 설명된다.
Figure pct00036
는 중심 인덱스의 세트로서: 각각의 (서브-)양자화기가 표준 방식으로 1바이트의 원래의 벡터를 인코딩한다면
Figure pct00037
이고 d=8이라 한다. ci는 중심 i와 관련된 재생 값(reproduction value)이라 한다. d :
Figure pct00038
는 중심들 간의 거리, 예컨대 유클리드 거리라고 한다.
Figure pct00039
는 단위 하이퍼큐브의 각기 다른 정점과 각각의 중심 인덱스를 맵핑하는 목적 함수를 나타낸다. 마지막으로,
Figure pct00040
는 2개의 d-차원 이진 표현들 간의 해밍 거리라 한다.
거리 추정기 손실(Distance estimator loss). 하나의 가능한 목표는 2개의 중심 간의 거리 d(ci, cj)가 2개의 해당 이진 코드 간의 해밍 거리 h(π(i), π(j))로 근사화되도록 하는 전단사 맵(bijective map)을 찾는 것이다:
Figure pct00041
여기서, f :
Figure pct00042
는 코드워드들(codewords) 사이의 거리 d(ci, cj)를 해밍 거리에 대비할 수 있는 범위로 맵핑하는 단조 증가 함수이다. 실제로, 우리는 f에 대해 간단한 선형 맵핑을 선택한다. 이 선택은 하기의 관찰들 때문이다. {0, 1}d에서 무작위로 추출된 2개의 이진 벡터 간의 해밍 거리는 평균 d/2 및 분산 d/4를 갖는 이항 분포(binomial distribution)를 따른다. 거리 d(ci, cj)의 분포가 평균 μ 및 표준편차 σ를 갖는 이항의 양호한 근사인 가우시안 분포(Gaussian distribution)로 근사될 수 있다고 가정하면, 이런 두 분포를 그들의 평균 및 분산을 맵핑함으로써 맵핑할 수 있다. 그 결과는 다음과 같다:
Figure pct00043
여기서, μ와 σ가 실험적으로 측정된다.
k-NN의 맥락에서, 큰 거리보다 작은 거리를 근사하는 것이 더 중요하므로, 우리는 실제로 목적 함수의 거리를 가중하는 것이 이점적이라는 것을 발견했다. 이것은 가중된 목적 함수로 이어진다:
Figure pct00044
우리는 α< 1인 형식의 w(u) = αu의 함수 w :
Figure pct00045
를 선택한다.우리의 실험에서 α= 1/2로 설정했으나 범위 [0.2, 0.6]에서 α의 값들이 유사한 결과를 산출한다는 것을 알았다.
순위 손실. k-NN 검색의 맥락에서, 우리는 코드워드의 순위를 유지하는 전단사 맵 π를 찾는데 관심이 있다. 이를 위해,정보 검색 관점(Information Retrieval perspective)을 채택한다. (i, j)를 i가 "질의"로 가정하고 j가 i와 "관련"있다고 가정하는 한 쌍의 코드워드라고 하자. 나중에,(질의, 관련) 쌍의 선택에 대해 논의할 것이다. d(ci, cj) < d(ci, ck) 이도록 코드워드 k를 질의 i에 대해 음수로 취한다. (i, j) 쌍에 대한 손실은 다음과 같이 정의될 수 있다:
Figure pct00046
여기서, u가 참이면 
Figure pct00047
이고 그렇지 않으면 0이다. 이것은 중심 간 거리에 따라 i가 k보다 j에 더 근접하면서 해밍 거리에 따라 얼마나 많은 코드워드 k가 j보다 i에 더 근접한지를 측정한다. 우리는 이전의 손실이 켄달의 타우(Kendall's tau)계수와 밀접하게 관련이 있는 정확하게 순서화된 쌍들의 수를 측정함에 주목한다.
손실 rπ(i, j)의 문제는 목록의 하위 부분에 목록의 상위 부분과 동일한 가중치를 부여한다는 것이다. 그러나,순위화 문제에서,상위 순위에서 발생하는 에러에 더 많은 가중치를 두는 것이 바람직하다. 따라서,(i, j)쌍에 대해 손실 rπ(i, j)를 직접 사용하지 않고,그 대신 rπ(i, j)에 서브-선형적으로 증가하는 손실을 채택했다. 더 상세하게, 우리는
Figure pct00048
인 단조 감소 시퀀스 αi를 도입하며, 이는 j에 서브-선형적으로 증가한다. 우리는 (i, j) 쌍에 대한 가중 손실을 
Figure pct00049
로 정의한다.
후속 문제는 (i, j) 쌍을 선택하는 방법이다. 하나의 가능성은 i의 k-NN 중에서 j를 선택하는 것이고, 이 경우 다음과 같이 최적화할 수 있다:
Figure pct00050
이 접근법의 문제는 NN 목록에 대해 임의의 길이 k를 선택해야 한다는 것이다. 대안은 모든 j ≠ i를 i와 잠재적으로 "관련"이 있는 것으로 간주하지만 i로부터 더 멀리 있는 이들 j의 기여의 가중치를 줄이는 것이다. 이 경우, 다음과 같이 최적화할 수 있다:
Figure pct00051
여기서 αi 는 감소하는 시퀀스이고, r(i, j)는 i에 이웃한 순서화된 목록에서 j의 순위이다:
Figure pct00052
우리의 모든 순위화 실험에서,우리는 수식
Figure pct00053
를 사용하며, αi = 1/i를 선택한다.
최적화
앞서 언급한 목적 함수는 유사한 이진 코드를 인접한 중심들에 할당할 수 있는 전단사 맵 π 또는 동등하게 또 다른 PQ 중심들의 세트의 명수법을 찾는 것을 목표로 한다.
이 문제는 채널 최적화된 벡터 양자화의 경우와 유사하면, 이 채널에 의한 비트의 손상이 가능한 적게 재구성에 영향을 미치도록 연구자들은 양자화기를 설계했다. 이는 관대할 수 없는 이산 최적화 문제이며 가능한 전단사 맵의 세트가 크기 때문에 우리는 국부 최소치(local minimum)만을 목표로 할 수 있다. 코딩 문헌에서, 이러한 인덱스 할당 문제는 우선 예를 들어 이진 스위칭 알고리즘을 사용하여 그리디 방식(greedy manner)으로 최적화되었다. 초기 인덱스 할당에서 시작하여 각 반복에서 이 알고리즘은 모든 가능한 비트 스왑(즉, d)을 테스트하고 목적 함수의 최선의 업데이트를 제공하는 비트 스왑을 유지한다. 그러나, 이 전략은 열악한 국부 최소치에 빠르게 갇힐 수 있다. 우리가 아는 한, 인덱스 할당 문제에 대한 최선의 접근법은 시뮬레이팅된 어닐링(annealing)을 사용하여 최적화를 수행하는 것이다.
알고리즘은 크기 2d의 테이블로 정의된 전단사 맵핑 π에 의존하는 손실 L(π)를 최적화하는 것을 목표로 한다. 이것은 다음과 같이 진행된다:
1. 초기화
2. 현재 솔루션 π:=[0,....,2d-1]
3. 온도 t:=t0
4. Niter번 반복:
5. 무작위로
Figure pct00054
추출
6. π’:=π, 엔트리 i와 j를 교환
7. 비용 업데이트 계산 ΔC:= L(π’)-L(π)
8. ΔC < 0이거나 임의적으로 확률이 t인 경우:
9. 새로운 솔루션 π:=π’를 수용
10. t:= t × tdecay
알고리즘은 반복 횟수 Niter = 500,000, 초기 "온도" t0 = 0.7 및 tdecay = 0.91/500(즉, 500회 반복마다 인자 0.9만큼 감소)에 따른다. 거리 추정 손실(resp ranking loss)을 평가하는 것은
Figure pct00055
(resp.
Figure pct00056
)에서 복잡성을 가진다. 그러나, 스왑으로 발생한 비용 업데이트를 계산하는 것은
Figure pct00057
(resp.
Figure pct00058
)로 구현될 수 있다.
도 4는 최적화 전후의 이진 벡터로서 사용된 코드의 비교를 도시한다. 도 4에 도시된 바와 같이, 해밍 거리는 최적화 이전보다 이후에 실제 거리와 더 상호관련성이 있다. 좌측에서, 도 4는 PQ 코드를 사용한 실제 거리 대 거리 추정을 보여준다. 가운데에서, 도 4는 다의적 최적화 이전의 실제 거리 대 해밍 거리를 보여준다. 우측에서, 도 4는 다의적 최적화 이후의 실제 거리 대 해밍 거리를 보여준다. 다의적 이진 비교는 훨씬 더 식별적이면서, PQ 코드로 해석될 때 동일한 추정을 제공한다.
논의
최적화 알고리즘은 채널 최적화된 벡터 양자화에서 이전에 사용된 알고리즘과 유사하지만 우리의 목적 함수는 우리의 응용 시나리오를 반영하기 위해 상당히 다르다. 통신에서 많은 비트 오류가 동시에 발생하지 않을 것이며, 특히 메모리가 없는 채널에서는 그렇지 않다. 따라서 통신에 사용되는 목적 함수는 작은 해밍 거리에 초점을 맞춘다. 반면에, ANN의 경우, 이웃들의 전형적인 해밍 거리는 비교적 크다.
특정 실시예에서, 소셜 네트워킹 시스템(160)은 변환된 다의적 코드에 기초하여 양자화된 서브 벡터와 복수의 컨텐츠 객체를 나타내는 벡터의 복수의 대응하는 서브 벡터 사이의 해밍 거리를 계산할 수 있다. 제안된 이진화 PQ 코드는 경쟁력 있는 성능을 제공하지만 그 정확도는 PQ보다 훨씬 낮다. 이는 대규모 검색을 위한 2단계 전략을 제시한다. 질의가 주어지면, 먼저 이진화된 PQ 코드에서 빠른 해밍 거리를 사용하여 데이터베이스 아이템의 대부분을 필터링한다. 이후, 해밍 거리가 주어진 임계값 τ 미만인 아이템에 대해 더 크게 비대칭 거리를 평가한다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은 임계 거리보다 작은 계산된 해밍 거리를 갖는 복수의 서브 벡터에 의해 표현되는 컨텐츠 객체의 서브세트 중에서 근사적인 최근접 벡터를 갖는 컨텐츠 객체를 결정할 수 있으며, 그 결정은 질의를 나타내는 변환된 다의적 코드들과 컨텐츠 객체를 나타내는 대응하는 다의적 코드들 사이의 하나 이상의 검색 및 추가 연산에 기초할 수 있다. 예를 들어, 근사 최근접 벡터를 갖는 컨텐츠 객체를 결정하는 것은 양자화된 서브 벡터들과 컨텐츠 객체들의 서브세트를 나타내는 서브 벡터들 간의 가장 짧은 중심 간 거리를 계산하는 것을 포함할 수 있다.
특정 실시예에서, 양자화된 서브 벡터와 컨텐츠 객체의 서브세트를 나타내는 서브 벡터 간의 가장 짧은 중심 간 거리를 계산하는 것은 추가적인 양자화를 사용하여 수행된다. 예를 들어, 소셜 네트워킹 시스템(160)은 컨텐츠 객체들의 서브세트 내의 각각의 컨텐츠 객체에 대해 양자화된 서브 벡터들과 미리-생성된 룩업 테이블로부터의 컨텐츠 객체를 나타내는 서브 벡터들 간의 중심 간 거리를 검색할 수 있다. 소셜 네트워킹 시스템(160)은 컨텐츠 객체들의 서브 세트 내의 각 컨텐츠 객체에 대해 양자화된 서브 벡터들과 컨텐츠 객체를 나타내는 대응하는 서브 벡터들 사이의 중심 간 거리를 가산함으로써 컨텐츠 객체를 나타내는 벡터와 질의를 나타내는 벡터 간의 근사 거리를 계산할 수 있고 계산된 근사 거리의 최단 거리를 결정할 수 있다.
필터링 단계에 대해 다른 전략이 고려될 수 있다. 그러한 전략 중 하나는 프로덕트 양자화기에 대해 얼마나 많은 양자화 인덱스가 다른지 측정하는 것이다. 형식적으로, 이 양을 해밍 거리라고도 하지만 인덱스들의 벡터와 비-이진 벡터 사이에서 측정된다. 다른 말로 하면, 주어진 개수 이상의 서브 양자화기가 질의의 인덱스와 동일하지 않은 인덱스를 생성하면 벡터를 필터링할 수 있다. 실험 섹션에서 볼 수 있듯이, 이 방법은 이 섹션에서 제안된 전략만큼 효율적이지 않으며 정확하지 않다.
그러한 또 다른 전략은 필터링 단계에 PQ와 관련없는 이진 인코딩 기술(예컨데, ITQ)을 사용하는 것이다. 문제는 ITQ 코드 및 PQ 코드 저장과 관련하여 방법의 메모리 요구사항이 증가한다는 것이다. 반면에, 제안된 접근법에서는 데이터베이스 아이템 당 하나의 다의적 코드만 저장하며, 저장소 요건에 중점을 두어야 한다. 특정 실시예에서, 각 컨텐츠 객체는 n 차원 벡터 공간에서 n 차원 벡터로 표현되고, 컨텐츠 객체를 나타내는 벡터는 복수의 서브 벡터로 분할된다. 예를 들어, 컨텐츠 객체를 나타내는 복수의 서브 벡터는 대응하는 프로덕트 서브 공간에 대한 복수의 서브 양자화기를 사용하여 양자화된다.
실험
이 섹션은 분석을 제공하고 우리의 다의적 코드를 평가한다. 평가 프로토콜을 도입한 후, 우리는 다양한 측면에서 핵심 접근법을 분석한다. 이후, 우리의 접근법이 역 다중-인덱스(IMI)와 호환되며 최신 기술에 대한 비교를 제시하고 있음을 보여준다.
평가 프로토콜(Evaluation protocol)
우리는 검색 품질을 평가하기 위해 도입 한 새로운 벤치마크뿐만 아니라 ANN에 대한 표준 벤치마크를 사용하여 우리의 접근법을 분석 및 평가한다.
SIFT1M은 128차원 SIFT 디스크립터의 벤치마크이다. 데이터베이스에는 1백만 개의 벡터가 있으며, 트레이닝을 위한 100,000개의 벡터와 10,000개의 질의 벡터가 있다. 이것은 우리가 주로 파라미터 분석에 사용하는 비교적 작은 세트이다.
BIGANN은 ANN 검색에 널리 사용되는 대규모 벤치마크이며 SIFT 디스크립터로도 구성된다. 10억 개의 데이터베이스 벡터, 1억 개의 트레이닝 벡터 및 10,000개의 질의로 구성된다.
FYCNN1M 및 FYCNN90M은 더 도전적인 기능으로 검색 품질을 평가하기 위해 도입된다. 우리는 다음과 같이 Yahoo Flickr Creative Commons 100M 이미지 컬렉션을 활용한다. FYCNN90M에서는 데이터 세트를 3개의 세트로 나눴다: 90M 벡터를 인덱싱하고 10k 벡터를 질의로 사용하고 5M 벡터를 트레이닝에 사용한다. FYCNN1M은 동일한 트레이닝 세트 및 질의를 사용하지만, 인덱싱된 세트는 우리의 방법을 분석할 목적으로 첫 번째 백만 개의 이미지로 제한된다. 우리는 다음의 지침에 따라 컨볼루션 신경망 특징을 추출한다: 우리는 AlexNet의 7번째 계층의 활성화를 계산한다. 이렇게 하면 4096차원의 이미지 디스크립터가 산출된다. 인덱싱하기 전에 PCA를 사용하여 이 디스크립터를 256D로 줄인 다음 임의의 회전을 적용한다.
모든 데이터 세트에 대해 정확도는 recall@R에 의해 평가된다. 이 지표는 실제 최근접 이웃이 상위 R개의 결과 내에 반환되는 질의의 분율을 측정한다. 보고된 모든 시간은 2.8GHz 머신의 단일 코어에 있다.
다의적 코드 성능의 분석
먼저, 다의적 코드의 성능을 분석한다. 표기법을 소개한다. 먼저, 프로덕트 양자화기를 구성하는 3가지 방법을 고려한다.
PQ는 기준선이다: 우리는 인덱스 할당을 최적화하지 않고 프로덕트 양자화기가 생성한 코드를 직접 사용한다.
Polyd는 거리 추정 손실을 최소화하여 인덱스 할당이 최적화되는 프로덕트 양자화기를 말한다.
Polyr은 유사하게 제안된 순위 손실로 최적화된 PQ를 말한다.
코드북과 인덱스 할당을 학습하면 다의적 코드를 기반으로 거리를 추정하기 위해 다음과 같은 방법을 고려한다.
ADC는 비대칭 거리 추정기를 기반으로 한 정기적인 비교이다.
binary는 이진 코드(예컨대, ITQ)와 같이 코드가 비트 벡터로 간주될 때 해밍 거리와의 비트 비교를 말한다.
disidx는 얼마나 많은 서브 양자화기가 각각 다른 코드를 부여하는지 카운트한다.
dual은 다의적 코드의 두 해석을 모두 사용하는 전략을 의미한다: 해밍 코드는 질의에 대한 거리가 임계값 τ보다 큰 데이터베이스 벡터를 필터링하는데 사용된다. 이 테스트를 만족하는 인덱싱된 벡터는 비대칭 거리 추정기와 비교된다.
유의: 다의적 코드는 주로 PQ 코드이다. 따라서, 다의적 코드와 정규 PQ의 성능은 ADC와 disidx의 경우인 인덱스 할당과는 비교가 독립적일 때 동일하다. 예를 들어 Polyd/ADC, Polyr/ADC 및 PQ/ADC의 조합은 효율성과 정확성 모두에서 동일하다.
R@1 R@100 R@1 R@100 query(ms)
PQ/disidx 0.071
±0.0015
0.281±0.0043 0.031±0.0016 0.284±0.0017 3.66±0.01
PQ/binary .036
±.0010
0.129±0.0028 0.015±0.0004 0.124±0.0014 1.42±0.01
PolyD/binary 0.107
±0.0019
0.503±.0047 0.027±0.0013 0.281±0.0017 1.45±0.05
PolyR/binary 0.105
±0.0026
0.467±0.0019 0.022±0.0010 0.222±0.0026 1.45±0.03
PQ/dual(r=55) 0.312
±0.507
0.507±0.0080 0.116±0.0019 0.522±0.0047 2.59±0.03
PolyD/dual(r=51) 0.441
±0.987
0.987±0.0012 0.132±0.0014 0.804±0.0017 2.53±0.05
PolyR/dual(r=53) 0.439
±0.960
0.960±0.0020 0.130±0.0013 0.745±0.0026 2.47±0.05
Baseline: LSH 0.114
±0.576
0.576±0.0029 0.089±0.0017 0.643±0.0023 1.45±0.05
Baseline: ITQ 0.135
±0.688
0.688±0.0039 0.088±0.0014 0.654±0.0054 1.45±0.05
Baseline: PQ 0.442
±0.997
0.997
±0.0000
0.133±0.0011 0.838±0.0014 9.01±0.01
특정 실시예에서, 다의적 코드는 16 바이트/벡터일 수 있다. disidx의 성능은 인덱스 할당에 의존하지 않을 수 있다. binary, 이전(PQ/binary) 및 이후(Polyd/binary 및 Polyr/binary) 최적화에서 비교될 때 코드의 성능이 제공된다. 이후, 우리는 제안된 다의적 이중 전략에 대한 결과를 제시하며, 이 전략은 거의 PQ만큼 정확하고 이진 방식의 속도에 접근한다. 해밍 임계값은 트레이닝 세트에서 조정되어 해밍 비교는 지점들의 적어도 95%를 필터링한다. 결과는 5회에 걸쳐 평균을 내며, 무작위성의 소스는 PQ 트레이닝의 k-평균과 시뮬레이트된 어닐링이다. 마지막 3행은 기준으로 제공되는 기준선이다: LSH, ITQ 및 PQ. LSH는 더 나은 성능을 위해 랜덤 프로젝션(random projection) 대신 랜덤 회전(random rotation)을 사용한다.
표 1은 상술한 PQ 구성의 성능을 상세히 보여준다. 우선, disidx의 정확도는 낮으며 전용 머신 명령이 없기 때문에 상대적으로 느리다는 점에 유의하자. 둘째,이 결과는 인덱스 할당 최적화가 이진 비교의 품질을 향상시키는데 매우 효과적이라는 것을 보여준다. 이 최적화가 없으면, 이진 비교는 결과(PQ/binary)를 순위화하고 (PQ/dual)를 필터링하는데 모두 효과적이지 않다. 순위 손실 Polyr은 Polyd보다 약간 뒤떨어지므로 다음과 같이 Polyd를 채택한다.
도 5는 특정 실시예에서 이중 전략에 대한 해밍 임계값의 영향을 도시한다. 예를 들어, 도 5는 128비트(16개의 서브 양자화기)로 Recall@1 대 SIFT1M 데이터세트에 대한 검색 속도를 보여준다. 다의성에 대한 동작 지점은 PQ 거리 추정을 위해 유지되는 지점의 비율에 영향을 주는 (괄호 안의) 해밍 임계치에 의해 매개변수화된다. 다의적 최적화(PQdual) 및 2개의 기준선(ITQ 및 PQ) 없이 획득되는 절충안이 참조로 제공된다.
도 5는 Polyd/dual의 관련성을 도시한다. 그것은 속도와 정확성 간의 절충을 매개변수화하는 해밍 임계치τ를 변화시키기 위한 이 방법에 의해 달성되는 성능을 보여준다. 다의적 코드를 통해 우리는 거의 타협하지 않을 수 있다: PQ/ADC의 품질을 달성하려면 이진 코드에 비해 검색 시간만을 약간 희생해야 한다. 임계치 τ=54일 때, 지점들의 90-95%가 필터링되고; τ=42일 때, 99.5% 이상으로 올라간다.
도 6은 거리-기반 목적 함수에 대한 반복에 따른 다의적 코드(이중, τ=52, 128비트)의 성능을 도시한다(순위 손실을 가진 결과들은 유사하다). 초기 상태(0 반복)는 본 방법으로 아직 최적화되지 않은 프로덕트 양자화기에 해당함에 유의하자.
도 6은 반복 횟수의 함수로서 이진 필터링의 성능을 도시한다. 알고리즘은 일반적으로 수십만 번의 반복(1회 반복 = 가능한 인덱스 스왑의 1 테스트)으로 수렴한다. 각각 256개 중심을 가진 PQ 서브-양자화기의 세트에 대하여, 거리 재구성 손실 PolyR의 경우 몇 초, 순위 손실 PolyR의 경우 최대 1시간을 의미한다.
최신 기술과의 비교
대용량 데이터세트의 경우, 정확도, 검색 시간 및 메모리 간의 최상의 절충안은 일반적으로 클러스터링을 통해 구현된 예비 공간 분할을 잔여 벡터에서 학습된 컴팩트 코드와 결합하는 하이브리드 방식에 의해 획득된다. 이것이 우리가 다의적 코드를 IMI와 결합한 이유이다. 이 방법은 공간을 프로덕트 양자화기("비-정밀(coarse)" 분할 수준)로 분할하고 PQ를 사용하여 잔여 오류 벡터를 인코딩한다. 비-정밀 레벨에서 몇몇 역-목록을 선택하여 검색이 진행된 후, 선택된 목록과 관련된 벡터에 대한 거리를 추정하기 위해 잔여 PQ 코드를 사용한다. 특정 실시예에서, 양자화된 서브 벡터와 컨텐츠 객체의 서브세트를 나타내는 서브 벡터 간의 중심 간 거리는 미리-생성된 룩업 테이블로부터 검색된다. 우리는 다수의 목록을 탐색할 때 PQ에 포함된 룩업 테이블의 계산을 더 최적화한다.
Code size 8 bytes Code size 16 bytes
K probes/cap R@1 R@100 time(ms) R@1 R@2 time(ms)
IMI 163842 -/10k 0.158 0.706 6 0.304 0.740 7
IMI 163842 -/20k 0.164 0.813 13 0.328 0.885 13
IMI* 163842 1024/10k 0.0159 0.719 1.57 2.58 0.313 0.753 1.92 2.89
IMI* 40962 1024/10k 0.125 0.550 0.99 1.23 0.255 0.576 1.16 1.44
IMI* 40962 16/10k 0.115 0.462 0.50 0.75 0.226 0.479 0.64 0.88
IMI
+PolyD
+ADC

40962

16/10k

0.103

0.332

0.27

0.51

0.206

0.397

0.33

0.58
IMI* 163842 1024/30k 0.162 0.796 2.20 3.15 0.330 0.856 2.77 3.75
IMI* 40962 1024/30k 0.134 0.696 1.35 1.61 0.295 0.755 1.77 2.07
IMI* 40962 16/30k 0.117 0.505 0.59 0.81 0.238 0.532 0.75 1.01
IMI*
+PolyD
+ADC

40962

16/30k

0.106

0.370

0.33

0.56

0.217

0.447

0.38

0.64
표 2는 BIGANN(10억개 벡터)의 최신 기술과의 비교를 보여준다. 방문 목록의 최대 수와 거리 평가 수(probes/cap 열)를 모두 제한한다. 타이밍을 위해, 향상된 구현(*)을 사용하면, 첫 번째 숫자는 일괄 모드에서 수행되는 질의에 대한 것이고, 두 번째 숫자는 한 번에 하나의 질의에 대응한다. 우리의 다의적 방법은 코드의 80%를 필터링하도록 설정된다.
이 방법을 바탕으로, 우리는 잔여 PQ에 대한 다의적 코드를 학습함으로써 우리가 중간 단계를 도입하여 대부분의 목록 아이템을 필터링하게 할 수 있으므로, PQ를 사용한 거리 추정의 대부분을 피할 수 있다. 표 2는 BIGANN 데이터세트에 대한 최신 기술의 알고리즘과 비교한 것이다. 우리는 동시적 방법에 대해 보고된 타이밍과 IMI의 향상된 재-구현을 모두 보고한다. 우리의 시스템은 원래 IMI와 비교할 때 매우 경쟁력 있는 결과를 이미 얻었음에 유의하자. 일괄 모드와 달리, 한 번에 단일 질의 벡터가 검색되는 경우, 비-정밀 양자화는 50 내지 60% 더 비용이 듬에 유의하자. 따라서, 다음에서, 우리는 K = 40962를 사용하여 비-정밀 양자화기의 고정 비용을 줄임으로써 더 공격적인 동작 지점을 목표로 한다. 이 경우, Polyd/dual의 결과는 IMI 및 최신 기술과 비교하여 명확한 향상을 제공한다. 특히, 16바이트를 사용하면, 우리는 하나의 코어에서 1ms 미만 내 recall@1=0.217을 달성할 수 있다(단일 질의 모드에서 0.38ms, 일괄 모드에서는 0.64ms). 이진 필터는 검색 시간을 거의 2로 나눠서 Recall@1 점수를 약간만 줄일 수 있다.
도 7은 특정 실시예에 따라 FYCNN90M 벤치마크에서 다양한 방법의 성능을 도시한다. 우리는 벡터당 20바이트(코드의 경우 128비트, 식별자 당 4바이트), 즉 인덱스 이미지당 20바이트를 사용한다. 위: 참조로 우리는 우리의 코드를 기반으로 모든 벡터 인덱스와 질의를 완전 비교하는 방법으로 얻은 결과를 제공한다. 예상되는 바와 같이, 비-완전 방법(아래)은 특히 많은 수의 역-목록("probe 256" 참조)을 탐색할 때 훨씬 더 나은 성능을 달성한다. 우리의 제안인 IMI+PolyD/dual은 상당한 이득으로 메모리, 검색 시간 및 정확성 사이의 최상의 절충을 제공한다.
FYCNN90M 벤치마크에서, 단일 질의는 9천만 개의 이미지를 포함하는 집합에서 이미지 검색에 해당한다. 도 7은 각각 다른 방법들에 의해 달성된 성능을 도시한다. 먼저, 비-완전 방법(하단)이 ITQ와 같이 코드를 완전히 비교하는 방법(상단)보다 최소 2배 이상 빠르다. 전자는 몇 초 내에 유사한 이미지를 찾을 수 있다. 다시 말하면, 우리의 다의적 전략인 IMI+PolyD/dual은 경쟁자인 IMI에 비해 경쟁 우위를 제공한다. 우리의 방법은 무시할 수 있는 정확성의 손실에 대해 약 1.5배 더 빠르다.
응용의 예: 대규모 k- NN 이미지 그래프
특정 실시예에서, 컨텐츠 객체는 이미지 또는 비디오일 수 있고, 본 명세서에 설명된 방법은 데이터베이스에서 질의 이미지 또는 비디오와 k개의 가장 유사한 이미지 또는 비디오를 찾는데 사용될 수 있다.
예를 들어, 이런 고속 인덱싱 기법으로의 응용은 매우 큰 이미지 집합의 근사 k-NN 그래프를 구축하는 문제일 수 있다. 이 실험에서, Flickr 100M 데이터세트에서 이용할 수 있는 95,063,295개의 이미지를 사용한다. PCA의 256D로 축소된 4,096D AlexNet 기능을 사용한다. 그래프 구성을 위해, 우리는 단순히 차례로 각 이미지 k=100으로 k-NN을 계산한다. 이것은 CPU 서버의 20개의 스레드를 사용하여 7h44가 걸린다. 우리가 고려한 집합이 k-NN 그래프에 대한 이전의 연구에서 고려된 것보다 훨씬 더 크다는 점에 유의하자.
도 8은 특정 실시예에서 그래프 내 이미지 모드 및 그 이웃의 예를 도시한다. 각각의 기준 이미지(왼쪽)에 대해, 우리는 오른쪽의 k-NN 그래프 내 해당 이미지 이웃을 표시한다. 시각화 목적을 위해, 우리는 랜덤 워크(random walk) 기술을 따르는 모드를 찾는다: 우선, 워크의 정적 분포(즉, 랜덤 워크 동안 각 노드가 방문할 확률)를 반복적으로 계산한 후, 그래프 내 정적 확률의 각각의 국부 최대치를 모드로 간주한다. 우리는 대략 3,000개의 이러한 최대치를 찾는다. 도 8은 이러한 최대치뿐만 아니라 그들의 최근접 이웃들의 샘플을 도시한다. 우리는 이러한 결과가, 사생활 보호를 위해 "사람들의 쌍들", "2명 이상 사람들의 클러스터" 또는 "아기 얼굴"의 특수 모드 등을 포함하여 발견되는 얼굴에 대응하는 다수의 모드를 보여주지 않는 것을 제외하고, 발견된 이웃들의 일반적인 품질을 대표한다고 믿는다.
특정 실시예에서, 소셜 네트워킹 시스템(160)은 양자화 연산자
Figure pct00059
를 학습할 수 있는데, 이때,
Figure pct00060
는 n-차원 벡터이고,
Figure pct00061
는 양자화 인덱스이며, 각각의 양자화 인덱스 k는 n-차원 양자화 중심 mk와 관련된다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은 클러스터링 알고리즘(예컨대, k-평균 클러스터링)을 사용하여 양자화 중심의 세트를 학습하여 연산자 c를 학습하고 양자화 인덱스 간의 제1 거리(예컨대, 해밍 거리)가 해당 중심들 간의 제2 거리(예컨대, 중심 간의 거리)를 근사화하도록 양자화 중심들의 인덱스들을 할당한다. 특정 실시예에서, 양자화는 프로덕트 양자화(product quantization, PQ)를 포함할 수 있다. 예로서 제한 없이, 소셜 네트워킹 시스템(160)은
Figure pct00062
의 복수의 서브-벡터들
Figure pct00063
을 결정함으로써
Figure pct00064
를 계산하고 각각의 서브-벡터를 복수의 서브-양자화기(cn)로 양자화할 수 있다. 각각의 서브-양자화기는 독립적으로 트레이닝될 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은
Figure pct00065
를 계산하여 각각의 객체(di)에 대응하는 각각의 벡터
Figure pct00066
를 양자화할 수 있다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은
Figure pct00067
를 계산하여 질의(q)를 나타내는 벡터
Figure pct00068
를 양자화할 수 있다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은 각각의 객체(di)에 대하여
Figure pct00069
Figure pct00070
사이의 제1 거리를 계산할 수 있다. 예로서 제한 없이, 소셜 네트워킹 시스템(160)은 각각의 객체(di)에 대하여
Figure pct00071
Figure pct00072
사이의 해밍 거리를 계산할 수 있다. 특정 실시예에서, 소셜 네트워킹 시스템(160)은 하나 이상의 객체(di)에 대하여 하나 이상의 양자화된 객체들과 양자화된 벡터 사이의 제1 거리에 기초하여 조건이 충족되었다고 결정할 수 있다. 조건이 충족되었다는 결정에 기초하여, 소셜 네트워킹 시스템(160)은 하나 이상의 객체에 대응하는 벡터와 각각의 대응하는 양자화 중심에 기초한 질의를 나타내는 벡터 사이의 제2 거리를 계산할 수 있다. 예로서 제한 없이, 소셜 네트워킹 시스템(160)은 하나 이상의 객체에 대응하는 벡터와 각각의 대응하는 양자화 중심에 기초한 질의를 나타내는 벡터 사이의 중심 간 거리를 계산할 수 있다. 비록 본 명세서는 특정 벡터, 양자화기 및 거리를 설명하지만, 본 명세서는 임의의 적합한 벡터, 양자화기 또는 거리를 고려한다.
도 9는 다의적 코드를 사용하여 유사성 검색을 수행하기 위한 예시적인 방법(900)을 도시한다. 이 방법은 단계 910에서 시작할 수 있는데, 이때 소셜 네트워킹 시스템(160)은 질의를 수신할 수 있고, 질의는 n-차원 벡터 공간에서 n-차원 벡터로 표현된다. 단계 920에서, 소셜 네트워킹 시스템(160)은 양자화기를 사용하여 질의를 나타내는 벡터를 양자화할 수 있고, 양자화된 벡터는 다의적 코드에 대응하며, 양자화기는 머신 러닝에 의해 트레이닝되어 해밍 거리가 목적 함수를 사용하여 중심 간 거리를 근사화하도록 다의적 코드를 결정한다. 단계 930에서, 소셜 네트워킹 시스템(160)은 복수의 컨텐츠 객체 각각에 대해 질의를 나타내는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 나타내는 양자화된 벡터에 대응하는 다의적 코드 간의 해밍 거리를 계산할 수 있다. 단계 940에서, 소셜 네트워킹 시스템(160)은 질의를 나타내는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 나타내는 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라는 결정에 기초하여 복수의 컨텐츠 객체들 중 한 컨텐츠 객체가 질의와 근사 최근접 이웃이라고 결정할 수 있다. 적절한 경우, 특정 실시예는 도 9의 방법의 하나 이상의 단계를 반복할 수 있다. 본 명세서는 도 9의 방법의 특정 단계가 특정 순서로 발생하는 것으로 기술하고 도시하지만, 본 명세서는 도 9의 방법의 임의의 적절한 단계가 임의의 적절한 순서로 발생하는 것을 고려한다. 게다가, 본 명세서는 도 9의 방법의 특정 단계를 포함하는, 다의적 코드를 사용하여 유사성 검색을 수행하기 위한 예시적인 방법을 기술하고 도시하지만, 본 명세서는 적절한 경우 도 9의 방법의 단계의 전부, 일부를 포함하거나 전혀 포함하지 않을 수 있는, 임의의 적절한 단계를 포함하는, 다의적 코드를 사용하여 유사성 검색을 수행하기 위한 임의의 적절한 방법을 고려한다. 또한, 본 명세서는 도 9의 방법의 특정 단계를 수행하는 특정 컴포넌트, 장치, 또는 시스템을 기술하고 도시하지만, 본 명세서는 도 9의 방법의 임의의 적절한 단계를 수행하는 임의의 적절한 컴포넌트, 장치, 또는 시스템의 임의의 적절한 조합을 고려한다.
소셜 그래프 친밀도 및 계수
특정 실시예로, 소셜 네트워킹 시스템(160)은 다양한 소셜 그래프 엔티티들의 서로에 대한 소셜 그래프 친밀도(이하 "친밀도"라고도 함)를 결정할 수 있다. 친밀도는 사용자, 컨셉, 컨텐츠, 행위, 광고, 온라인 소셜 네트워크와 연관된 다른 객체, 또는 이들의 임의의 적절한 조합과 같이 온라인 소셜 네트워크와 연관된 특정 객체들 사이의 관계의 강도 또는 관심의 정도를 표현할 수 있다. 친밀도는 또한, 제3자 시스템(170) 또는 다른 적절한 시스템과 연관된 객체에 관련하여 결정될 수 있다. 각각의 사용자, 주제, 또는 컨텐츠의 타입에 대한 소셜 그래프 엔티티의 전체 친밀도가 확립될 수 있다. 전체 친밀도는 소셜 그래프 엔티티와 연관된 행위 또는 관계에 대한 지속적인 모니터링에 기초하여 변경될 수 있다. 비록 본 명세서는 특정 방식으로 특정 친밀도를 결정하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 임의의 적절한 친밀도를 결정하는 것을 고려한다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 친밀도 계수(이하 "계수"라고도 함)을 사용하여 소셜 그래프 친밀도를 측정하거나 수량화할 수 있다. 계수는 온라인 소셜 네트워크와 연관된 특정 객체 사이의 관계의 강도를 표현하거나 수량화할 수 있다. 계수는 또한, 행위에 대한 사용자의 관심에 기초하여 사용자가 특정 행위를 수행할 예측된 확률을 측정하는 확률 또는 함수를 표현할 수 있다. 이러한 방식으로, 사용자의 미래의 행위는 사용자의 과거의 행위에 기초하여 예측될 수 있고, 여기서 계수는 사용자의 행위의 이력에 적어도 부분적으로 기초하여 계산될 수 있다. 계수는 온라인 소셜 네트워크 내부 또는 외부일 수 있는 임의의 개수의 행위를 예측하는데 사용될 수 있다. 예로서 제한 없이, 이러한 행위는 메시지 전송, 컨텐츠 게시 또는 컨텐츠에 대해 코멘트하기와 같은 다양한 타입의 통신; 프로필 인터페이스, 미디어 또는 다른 적절한 컨텐츠에 액세스하거나 열람하는 것과 같은 다양한 타입의 관찰 행위; 동일한 그룹에 있거나, 동일한 사진에 태그되거나, 동일한 위치에 체크인되거나, 동일한 이벤트에 참석하는 것과 같은 둘 이상의 소셜 그래프 엔티티들에 관한 다양한 타입의 일치 정보(coincidence information); 또는 다른 적절한 행위를 포함할 수 있다. 비록 본 명세서는 특정 방식으로 친밀도를 측정하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 친밀도를 측정하는 것을 고려한다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 계수를 계산하기 위해 다양한 인자를 사용할 수 있다. 이러한 인자는 예컨대, 사용자 행위, 객체, 위치 정보, 다른 적절한 인자, 또는 이들의 임의의 조합을 포함할 수 있다. 특정 실시예로, 상이한 인자는 계수를 계산할 때 다른 가중치가 적용될 수 있다. 각각의 인자에 대한 가중치는 일정하거나, 또는 가중치는 예컨대, 사용자, 관계의 타입, 행위의 타입, 사용자의 위치 등에 따라 변경될 수 있다. 인자에 대한 등급(rating)은 사용자를 위한 전체 계수를 결정하기 위해 그들의 가중치에 따라 조합될 수 있다. 예로서 제한 없이, 특정 사용자 행위에는 등급 및 가중치 모두가 할당되는 한편, 특정 사용자 행위와 연관된 관계에는 등급 및 상관 가중치(예컨대, 가중치가 총 100%가 됨)가 할당된다. 특정 객체를 향하는 사용자의 계수를 계산하기 위해, 사용자의 행위에 할당된 등급은 예컨대, 전체 계수의 60%를 포함할 수 있는 한편, 사용자 및 객체 사이의 관계는 전체 계수의 40%를 포함할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 계수를 계산하는데 사용되는 다양한 인자에 대한 가중치를 결정할 때, 가령 예컨대, 정보가 액세스된 이후의 시간, 감쇠 인자(decay factor), 액세스의 빈도, 정보에 대한 관계, 또는 정보가 액세스된 객체에 대한 관계, 객체에 연결된 소셜 그래프 엔티티에 대한 관계, 사용자 행위의 단기 또는 장기 평균, 사용자 피드백, 다른 적절한 변수, 또는 이들의 임의의 조합과 같은 다양한 변수를 고려할 수 있다. 예로서 제한 없이, 계수는 특정 행위에 의해 제공된 신호의 강도가 시간에 따라 감쇠되도록 야기하는 감쇠 인자를 포함할 수 있어서, 더 최근의 행위가 계수를 계산할 때보다 관련이 있도록 한다. 등급 및 가중치는 계수가 기초로 하는 행위에 대한 지속적인 추적에 기초하여 연속으로 업데이트될 수 있다. 임의의 타입의 프로세스 또는 알고리즘은 각각의 인자에 대한 등급 및 인자에 할당되는 가중치를 할당하고, 조합하며, 평균을 내는 등에 이용될 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 과거의 행위 및 과거의 사용자 응답에 대해 훈련된 기계-습득 알고리즘, 또는 데이터를 다양한 옵션 및 측정 응답에 노출함으로써 사용자로부터 획득(farm)되는 데이터를 사용하여 계수를 결정할 수 있다. 비록 본 명세서는 특정 방식으로 계수를 계산하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 계수를 계산하는 것을 고려한다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 사용자의 행위에 기초하여 계수를 계산할 수 있다. 소셜 네트워킹 시스템(160)은 온라인 소셜 네트워크에서, 제3자 시스템(170)에서, 다른 적절한 시스템에서, 또는 이들의 임의의 조합에서 이러한 행위를 모니터링할 수 있다. 임의의 타입의 사용자 행위가 추적되거나 모니터링될 수 있다. 전형적인 사용자 행위는 프로필 인터페이스 보기, 컨텐츠 생성 또는 게시, 컨텐츠와 상호작용, 이미지에서 태그하거나 태그되기, 그룹에 가입, 이벤트의 참석을 리스팅하고 확인하기, 위치에 체크인하기, 특정 인터페이스를 좋아하기, 인터페이스를 생성하기, 및 소셜 행위를 용이하게 하는 다른 작업을 수행하기를 포함할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 특정 타입의 컨텐츠를 갖는 사용자의 행위에 기초하여 계수를 계산할 수 있다. 컨텐츠는 온라인 소셜 네트워크, 제3자 시스템(170), 또는 다른 적절한 시스템과 연관될 수 있다. 컨텐츠는 사용자, 프로필 인터페이스, 게시물, 뉴스 소식, 헤드라인, 인스턴트 메시지, 채팅방 대화, 이메일, 광고, 사진, 비디오, 음악, 다른 적절한 객체, 또는 이들의 임의의 조합을 포함할 수 있다. 소셜 네트워킹 시스템(160)은 하나 이상의 행위가 주제, 컨텐츠, 다른 사용자 등에 대한 친밀도를 표시하는지 여부를 결정하기 위해 사용자의 행위를 분석할 수 있다. 예로서 제한 없이, 사용자가 "커피" 또는 그것의 변형품과 관련된 컨텐츠를 자주 게시한다면, 소셜 네트워킹 시스템(160)은 사용자가 컨셉 "커피"에 관해 높은 계수를 가진다고 결정할 수 있다. 특정 행위 또는 특정 타입의 행위에 다른 행위보다 더 높은 가중치 및/또는 등급이 할당될 수 있고, 이는 전체 계산된 계수에 영향을 줄 수 있다. 예로서 제한 없이, 제1 사용자가 제2 사용자에게 이메일을 보낸다면, 행위에 대한 가중치 또는 등급은 사용자가 제2 사용자를 위한 사용자-프로필 인터페이스를 단순히 보는 것보다 더 높을 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 특정 객체들 사이의 관계의 타입에 기초하여 계수를 계산할 수 있다. 소셜 그래프(200)를 참조하면, 소셜 네트워킹 시스템(160)은 계수를 계산할 때, 특정 사용자 노드(202) 및 컨셉 노드(204)를 연결하는 에지(206)의 개수 및/또는 타입을 분석할 수 있다. 예로서 제한 없이, 배우자-타입 에지 (두 명의 사용자가 혼인관계임을 표현함)에 의해 연결된 사용자 노드(202)는 친구-타입 에지에 의해 연결된 사용자 노드(202)보다 높은 계수가 할당될 수 있다. 즉, 특정 사용자에 대한 행위 및 관계에 할당된 가중치에 의존하여, 전체 친밀도는 사용자의 배우자에 관한 컨텐츠에 대해 사용자의 친구에 관한 컨텐츠보다 높게 결정될 수 있다. 특정 실시예로, 다른 객체에 대해 사용자가 갖는 관계는 그 객체에 대한 계수를 계산하는데 있어서 사용자의 행위의 가중치 및/또는 등급에 영향을 줄 수 있다. 예로서 제한 없이, 사용자가 제1 사진에서 태그되지만, 제2 사진은 오로지 좋아하기만 한다면, 소셜 네트워킹 시스템(160)은, 컨텐츠와 태그-인 타입 관계를 가지는 것에 컨텐츠와 좋아요-타입 관계를 가지는 것보다 높은 가중치 및/또는 등급이 할당되기 때문에 사용자가 제2 사진보다 제1 사진에 대해 더 높은 계수를 가진다고 결정할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 특정 객체에 대해 하나 이상의 제2 사용자가 갖는 관계에 기초하여 제1 사용자에 대한 계수를 계산할 수 있다. 즉, 다른 사용자가 객체에 대해 갖는 연결 및 계수는 제1 사용자의 객체에 대한 계수에 영향을 줄 수 있다. 예로서 제한 없이, 제1 사용자가 하나 이상의 제2 사용자에게 연결되거나 제2 사용자에 대해 높은 계수를 가지며 이러한 제2 사용자가 특정 객체에 연결되거나 특정 객체에 대해 높은 계수를 가진다면, 소셜 네트워킹 시스템(160)은 제1 사용자 또한 특정 객체에 대해 상대적으로 높은 계수를 가진다고 결정할 수 있다. 특정 실시예로, 계수는 특정 객체 사이의 이격도에 기초할 수 있다. 낮은 계수는 소셜 그래프(200)에서 제1 사용자에게 간접적으로 연결된 사용자의 컨텐츠 객체에 대한 관심을 제1 사용자가 공유할 가능성이 감소함을 표현할 수 있다. 예로서 제한 없이, 소셜 그래프(200)에서 더 가까운 (즉, 더 낮은 이격도의) 소셜 그래프 엔티티들은 소셜 그래프(200)에서 더 멀리 떨어진 엔티티들보다 높은 계수를 가질 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 위치 정보에 기초하여 계수를 계산할 수 있다. 서로 지리적으로 가까운 객체들은 더 떨어진 객체들보다 서로 더욱 관련되거나 서로에 대해 더 관심이 있는 것으로 여겨질 수 있다. 특정 실시예로, 특정 객체에 대한 사용자의 계수는 사용자 (또는 사용자의 클라이언트 시스템(130)의 위치)와 연관된 현재 위치에 대한 객체의 위치의 인접도에 기초할 수 있다. 제1 사용자는 제1 사용자에게 더 가까운 다른 사용자들 또는 컨셉들에 더 관심이 있을 수 있다. 예로서 제한 없이, 사용자가 공항으로부터 1마일 떨어져 있고, 주유소로부터 2마일 떨어져 있다면, 소셜 네트워킹 시스템(160)은 공항의 사용자에 대한 인접도에 기초하여 사용자가 주유소보다 공항에 대해 더 높은 계수를 가진다고 결정할 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은 계수 정보에 기초하여 사용자에 대해 특정 행위를 수행할 수 있다. 계수는 사용자의 행위에 대한 관심에 기초하여 사용자가 특정 행위를 수행할 것인지 여부를 예측하는데 사용될 수 있다. 계수는, 사용자에 대해 임의의 타입의 객체 가령, 광고, 검색 결과, 뉴스 소식, 미디어, 메시지, 알림, 또는 다른 적절한 객체들을 생성 또는 제시할 때 사용될 수 있다. 계수는 또한, 적절한 경우 이러한 객체들을 순위화하고 정렬하는데 이용될 수 있다. 이러한 방식으로, 소셜 네트워킹 시스템(160)은 사용자의 관심 및 현재 상황에 관련된 정보를 제공할 수 있고, 사용자가 이러한 관심이 있는 정보를 찾을 가능성을 증가시킨다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 계수 정보에 기초하여 컨텐츠를 생성할 수 있다. 컨텐츠 객체는 사용자 고유의 계수에 기초하여 제공되거나 선택될 수 있다. 예로서 제한 없이, 계수는 사용자를 위한 미디어를 생성하는데 사용될 수 있으며, 여기서 사용자에게는, 사용자가 미디어 객체에 관해 높은 전체 계수를 갖는 미디어가 제시될 수 있다. 다른 예로서 제한 없이, 계수는 사용자를 위한 광고를 생성하는데 사용될 수 있으며, 여기서 사용자에게는, 사용자가 광고되는 객체에 관해 높은 전체 계수를 가지는 광고가 제시될 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 계수 정보에 기초하여 검색 결과를 생성할 수 있다. 특정 사용자를 위한 검색 결과는 질의하는 사용자와 관련하여 검색 결과와 연관되는 계수에 기초하여 점수화 또는 순위화될 수 있다. 예로서 제한 없이, 더 높은 계수를 갖는 객체에 대응하는 검색 결과는 더 낮은 계수를 갖는 객체에 대응하는 결과보다 검색-결과 인터페이스에서 더 높게 순위화될 수 있다.
특정 실시예로, 소셜 네트워킹 시스템(160)은, 특정 시스템 또는 프로세스로부터의 계수의 대한 요청에 응답하여 계수를 계산할 수 있다. 주어진 상황에서 사용자가 행하거나 (또는 그 대상이 될) 가능성이 높은 행위를 예측하기 위해, 임의의 프로세스는 사용자를 위해 계산된 계수를 요청할 수 있다. 요청은 또한, 계수를 계산하는데 사용되는 다양한 인자를 위해 사용할 가중치의 세트를 포함할 수 있다. 이러한 요청은 온라인 소셜 네트워크에서 실행되는 프로세스로부터, 제3자 시스템(170)으로부터 (예컨대, API 또는 다른 통신 채널을 통해), 또는 다른 적절한 시스템으로부터 올 수 있다. 요청에 응답하여, 소셜 네트워킹 시스템(160)은 계수를 계산하거나 (계수가 이미 계산되고 저장되었다면 계수 정보에 액세스)할 수 있다. 특정 실시예로, 소셜 네트워킹 시스템(160)은 특정 프로세스에 관한 친밀도를 측정할 수 있다. (온라인 소셜 네트워크의 내부 및 외부 모두에서의) 상이한 프로세스는 특정 객체 또는 객체들의 세트에 대한 계수를 요청할 수 있다. 소셜 네트워킹 시스템(160)은 친밀도의 측정을 요청한 특정 프로세스에 관련되는 친밀도의 측정을 제공할 수 있다. 이러한 방식으로, 각각의 프로세스는, 프로세스가 친밀도의 측정을 사용하는 상이한 컨텍스트를 위해 맞춰진(tailored) 친밀도의 측정을 수신한다.
소셜 그래프 친밀도 및 친밀도 계수와 관련하여, 특정 실시예는, 각각이 참조로 통합되는, 2006년 8월 11일자 출원된 미국 특허출원 번호 제11/503093호, 2010년 12월 22일자 출원된 미국 특허출원 번호 제12/977027호, 2010년 12월 23일자 출원된 미국 특허출원 번호 제12/978265호, 및 2012년 10월 1일자 출원된 미국 특허출원 번호 제13/632869호에 개시된 하나 이상의 시스템, 컴포넌트, 구성요소, 기능, 방법, 동작, 또는 단계를 이용할 수 있다.
광고행위
특정 실시예로, 광고는, 하나 이상의 웹 인터페이스에서 제시되는 임의의 적절한 디지털 포맷에서, 하나 이상의 이메일에서 또는 사용자에 의해 요청되는 검색 결과와 관련하여, (HTML-링크될 수 있는) 텍스트, (HTML-링크될 수 있는) 하나 이상의 이미지, 하나 이상의 비디오, 오디오, 하나 이상의 ADOBE FLASH 파일, 이들의 적절한 조합 또는 임의의 다른 적절한 광고일 수 있다. 추가로 또는 대안으로, 광고는 하나 이상의 스폰서 소식(예컨대, 소셜 네트워킹 시스템(160)의 뉴스-피드 또는 티커 아이템)일 수 있다. 스폰서 소식은 예컨대 소셜 행위를 사용자의 프로필 인터페이스나 다른 인터페이스의 기결정된 영역 내에 제시되게 하거나, 광고자와 관련된 추가 정보와 함께 제시되게 하거나, 다른 사용자들의 뉴스피드나 티커 내에 올리거나 하이라이팅되게 하거나, 홍보되게 함으로써, 광고자가 홍보하는 사용자에 의한 소셜 행위(가령, 인터페이스를 "좋아요" 하기, 인터페이스의 게시물을 "좋아요" 하거나 코멘트하기, 인터페이스와 관련된 이벤트에 대해 회답(RSVP)하기, 인터페이스에 게시된 질문에 투표하기, 한 장소로 체크인하기, 애플리케이션을 사용하거나 게임을 실행하기 또는 웹사이트를 "좋아요" 하거나 공유하기)일 수 있다. 광고자는 소셜 행위가 홍보되도록 지불할 수 있다. 예로서 제한 없이, 광고는 검색-결과 인터페이스의 검색 결과들 중에 포함될 수 있으며, 이때 스폰서 컨텐츠는 비-스폰서 컨텐츠보다 더 홍보된다. 특정 실시예로, 하나 이상의 광고는 상술한 네트워크-인지 제품 시판 기술을 사용하여 온라인 소셜 네트워크의 사용자의 하나 이상의 클러스터에 대해 테스트될 수 있다.
특정 실시예로, 광고는 소셜 네트워킹 시스템 웹 인터페이스, 제3자 웹 인터페이스 또는 다른 인터페이스 내에서 디스플레이하기 위해 요청될 수 있다. 광고는, 가령 인터페이스 상단의 배너 영역에서, 인터페이스 측면의 종렬에서, 인터페이스의 GUI에서, 팝-업창에서, 드롭-다운 메뉴에서, 인터페이스의 입력 필드에서, 인터페이스의 컨텐츠의 상단 위에서 또는 그 밖의 인터페이스의 어느 곳에서, 인터페이스의 전용 부분에 디스플레이될 수 있다. 추가로 또는 대안으로, 광고는 애플리케이션 내에 디스플레이될 수 있다. 광고는 사용자가 인터페이스에 접근하거나, 애플리케이션을 이용할 수 있기 전에 광고를 상호작용하거나 광고를 시청하도록 사용자에게 요구하는 전용 인터페이스 내에 디스플레이될 수 있다. 예컨대, 사용자는 웹 브라우저를 통해 광고를 열람할 수 있다.
사용자는 임의의 적절한 방식으로 광고와 상호작용할 수 있다. 사용자는 광고를 클릭하거나 선택할 수 있다. 광고를 선택함으로써, 사용자는 광고와 관련된 인터페이스로 (또는, 사용자가 사용하는 브라우저 또는 다른 애플리케이션)를 인도될 수 있다. 광고와 관련된 인터페이스에서, 사용자는 가령 광고와 관련된 제품이나 서비스를 구매하기, 광고와 관련된 정보를 수신하기 또는 광고와 관련된 뉴스레터를 구독하기와 같은 추가의 행위들을 행할 수 있다. 오디오 또는 비디오를 가진 광고는 광고의 컴포넌트를 선택("실행 버튼"을 좋아요)함으로써 실행될 수 있다. 대안으로, 광고를 선택함으로써, 소셜 네트워킹 시스템(160)은 사용자의 특정 행위를 실행하거나 수정할 수 있다.
또한, 광고는 사용자가 상호작용할 수 있는 소셜 네트워킹 시스템 기능을 포함할 수 있다. 예로서 제한 없이, 광고는 보증과 관련된 아이콘이나 링크를 선택하여 사용자가 광고를 "좋아요"하거나 보증하게 할 수 있다. 또 다른 예로서 제한 없이, 광고는 (예컨대, 질의를 실행하여) 사용자가 광고자에 관한 컨텐츠를 검색하게 할 수 있다. 마찬가지로, 사용자는 (예컨대, 소셜 네트워킹 시스템(160)을 통해) 다른 사용자와 광고를 공유할 수 있거나, (예컨대, 소셜 네트워킹 시스템(160)을 통해) 광고와 관련된 이벤트에 회답(RSVP)할 수 있다. 추가로 또는 대안으로, 광고는 사용자에 관한 소셜 네트워킹 시스템 컨텐츠를 포함할 수 있다. 예로서 제한 없이, 광고는 광고의 내용과 관련된 행위를 행했던 소셜 네트워킹 시스템(160) 내 사용자의 친구에 대한 정보를 디스플레이할 수 있다.
개인정보(Privacy)
특정 실시예로, 온라인 소셜 네트워크의 하나 이상의 컨텐츠 객체는 개인정보 설정과 관련될 수 있다. 객체에 대한 개인정보 설정(또는 "액세스 설정")은, 가령 예컨대 객체와 관련하여, 인증 서버에서 인덱스에, 또 다른 적절한 방식으로, 또는 이들의 임의의 조합과 같은 임의의 적절한 방식으로 저장될 수 있다. 객체의 개인정보 설정은 온라인 소셜 네트워크를 사용하여 어떻게 객체(또는 객체와 관련된 특정 정보)가 액세스(예컨대, 열람 또는 공유)될 수 있는지를 특정할 수 있다. 객체에 대한 개인정보 설정은 특정 사용자가 그 객체를 액세스할 수 있게 하며, 그 객체는 그 사용자와 관련하여 "가시적"인 것으로 기술될 수 있다. 예로서 제한 없이, 온라인 소셜 네트워크의 사용자는, 사용자 프로필 인터페이스에서 이력 정보에 액세스할 수 있는 사용자들의 세트를 식별하도록 사용자 프로필 인터페이스의 개인정보 설정을 특정할 수 있고, 그럼으로써 다른 사용자들이 그 정보에 액세스하는 것을 배제할 수 있다. 특정 실시예로, 개인정보 설정은 객체와 관련된 특정 정보에 액세스하는 것이 허용되지 않는 사용자들의 "차단 리스트"를 특정할 수 있다. 즉, 차단 리스트는 객체가 가시적이지 않은 한 명 이상의 사용자들 또는 엔티티들을 특정할 수 있다. 예로서 제한 없이, 사용자는 사용자와 관련된 사진 앨범을 액세스할 수 없는 사용자들의 세트를 특정할 수 있고, 그럼으로써 그 사용자들이 사진 앨범에 액세스하는 것을 배제하는 (한편, 가능하다면 사용자들의 세트 내에 있지 않은 특정 사용자들이 사진 앨범에 액세스하는 것을 허용할 수 있다). 특정 실시예로, 개인정보 설정은 특정 소셜 그래프 요소와 관련될 수 있다. 가령 노드 또는 에지와 같은 소셜 그래프 요소의 개인정보 설정은 소셜 그래프 요소, 소셜 그래프 요소와 관련된 정보, 또는 소셜 그래프 요소와 관련된 컨텐츠 객체가 온라인 소셜 네트워크를 사용하여 어떻게 액세스될 수 있는지를 특정할 수 있다. 예로서 제한 없이, 특정 사진에 상응하는 특정 컨셉 노드(204)는 사진이 오로지 사진에 태그된 사용자들 및 그들의 친구들에 의해서만 액세스될 수 있다고 특정하는 개인정보 설정을 가질 수 있다. 특정 실시예로, 개인정보 설정은 사용자들이, 소셜 네트워킹 시스템(160)에 의해 로그되거나 다른 시스템들(예컨대, 제3자 시스템(170))과 공유되는 그들의 행위에 참여하거나 참여하지 못하게 할 수 있다. 특정 실시예로, 객체와 관련된 개인정보 설정은 허용된 액세스 또는 액세스의 거부에 대한 임의의 적절한 입상도(granularity)를 특정할 수 있다. 예로서 제한 없이, 액세스 또는 액세스의 거부가 특정 사용자들(예컨대, 오로지 본인, 나의 룸메이트, 및 나의 상사), 특정 이격도 내의 사용자들(예컨대, 친구들 또는 친구의 친구들), 사용자 그룹(예컨대, 게임 클럽, 내 가족), 사용자 네트워크(예컨대, 특정 고용주의 고용인들, 특정 대학의 학생들 또는 졸업생들), 모든 사용자들("공개(public)"), 한 명의 사용자도 없는("개인(private)"), 제3자 시스템(170)의 사용자들, 특정 애플리케이션(예컨대, 제3자 애플리케이션, 외부 웹사이트), 다른 적절한 사용자들 또는 엔티티들, 또는 이들의 임의의 조합에 대해 특정될 수 있다. 본 명세서는 특정 방식으로 특정 개인정보 설정을 사용하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 임의의 적절한 개인정보 설정을 사용하는 것을 고려한다.
특정 실시예로, 하나 이상의 서버(162)는 개인정보 설정을 강제하기 위한 인증/개인정보 서버일 수 있다. 데이터 스토어(164)에 저장된 특정 객체에 대한 사용자 (또는 다른 엔티티)로부터의 요청에 응답하여, 소셜 네트워킹 시스템(160)은 객체에 대한 요청을 데이터 스토어(164)로 전송할 수 있다. 요청은, 요청과 관련된 사용자를 식별할 수 있고, 인증 서버가 객체와 관련된 개인정보 설정에 기반하여 사용자가 객체에 액세스하는 것이 인증된다고 결정하는 경우에만 요청이 사용자 (또는 사용자의 클라이언트 시스템(130))에게 전송될 수 있다. 요청하는 사용자가 객체에 액세스하는 것이 인증되지 않는다면, 인증 서버는 요청된 객체가 데이터 스토어(164)로부터 검색되는 것을 막거나, 요청된 객체가 사용자에게 전송되는 것을 막을 수 있다. 검색 질의 컨텍스트에서, 객체는 질의하는 사용자가 객체에 액세스하는 것이 인증되는 경우에만 검색 결과로 생성될 수 있다. 즉, 객체는 질의하는 사용자에게 가시적인 가시성(visibility)을 가져야만 한다. 객체가 사용자에게 가시적이지 않은 가시성을 가진다면, 객체는 검색 결과로부터 배제될 수 있다. 본 명세서는 특정 방식으로 개인정보 설정을 강제하는 것을 기술하지만, 본 명세서는 임의의 적절한 방식으로 개인정보 설정을 강제하는 것을 고려한다.
시스템 및 방법
도 10은 예시적인 컴퓨터 시스템(1000)을 도시한다. 특정 실시예로, 하나 이상의 컴퓨터 시스템들(1000)은 본 명세서에 기술되거나 도시된 하나 이상의 방법들의 하나 이상의 단계들을 수행한다. 특정 실시예로, 하나 이상의 컴퓨터 시스템들(1000)은 본 명세서에 기술되거나 도시된 기능을 제공한다. 특정 실시예로, 하나 이상의 컴퓨터 시스템들(1000)에서 실행하는 소프트웨어는 본 명세서에 기술되거나 도시된 하나 이상의 방법들의 하나 이상의 단계들을 수행하거나, 본 명세서에 기술되거나 도시된 기능을 제공한다. 특정 실시예는 하나 이상의 컴퓨터 시스템들(1000)의 하나 이상의 부분들을 포함한다. 본 명세서에서, 컴퓨터 시스템에 대한 레퍼런스는 적절한 경우 컴퓨팅 장치를 포함할 수 있다. 게다가, 컴퓨터 시스템에 대한 레퍼런스는 적절한 경우 하나 이상의 컴퓨터 시스템을 포함할 수 있다.
본 명세서는 임의의 적절한 수의 컴퓨터 시스템(1000)을 고려한다. 본 명세서는 임의의 적절한 물리적 형태를 취하는 컴퓨터 시스템(1000)을 고려한다. 예로서 제한 없이, 컴퓨터 시스템(1000)은 임베디드 컴퓨터 시스템, 시스템-온-칩(SOC), 단일-보드 컴퓨터 시스템(SBC)(예컨대, 컴퓨터-온-모듈(COM) 또는 시스템-온-모듈(SOM)), 데스크톱 컴퓨터 시스템, 랩톱 또는 노트북 컴퓨터 시스템, 상호작용형 키오스크(kiosk), 메인 프레임, 컴퓨터 시스템 메쉬(mesh), 모바일 전화, 개인 정보 단말기(PDA), 서버, 태블릿 컴퓨터 시스템 또는 이들의 2 이상의 조합일 수 있다. 적절한 경우, 컴퓨터 시스템(1000)은 하나 이상의 컴퓨터 시스템(1000)들을 포함할 수 있거나; 일체형 또는 분산형일 수 있거나; 다수의 위치에 걸쳐 있거나; 다수의 기계에 걸쳐 있거나; 다수의 데이터센터에 걸쳐 있거나; 하나 이상의 네트워크에 하나 이상의 클라우드 성분을 포함할 수 있는 클라우드에 상주할 수 있다. 적절한 경우, 하나 이상의 컴퓨터 시스템(1000)은 본 명세서에 기술되거나 도시되는 하나 이상의 방법의 하나 이상의 단계를 실질적으로 공간적 또는 시간적 제한 없이 실행할 수 있다. 예로서 제한 없이, 하나 이상의 컴퓨터 시스템(1000)은 본 명세서에 기술되거나 도시되는 하나 이상의 방법의 하나 이상의 단계를 실시간으로 또는 일괄 모드로 실행할 수 있다. 적절한 경우, 하나 이상의 컴퓨터 시스템(1000)은 본 명세서에 기술되거나 도시되는 하나 이상의 방법의 하나 이상의 단계를 다른 시기에 또는 다른 위치에서 실행할 수 있다.
특정 실시예로, 컴퓨터 시스템(1000)은 프로세서(1002), 메모리(1004), 저장소(1006), 입력/출력(I/O) 인터페이스(1008), 통신 인터페이스(1010) 및 버스(1012)를 포함한다. 본 명세서가 특정 배열로 특정한 수의 특정 구성요소를 갖는 특정 컴퓨터 시스템을 기술하고 도시하지만, 본 명세서는 임의의 적절한 구성으로 임의의 적절한 수의 임의의 적절한 구성요소를 갖는 임의의 적절한 컴퓨터 시스템을 고려한다.
특정 실시예로, 프로세서(1002)는 가령 컴퓨터 프로그램을 구성하는 명령어와 같은 명령어를 실행하기 위한 하드웨어를 포함한다. 예로서 제한 없이, 명령어를 실행하기 위해, 프로세서(1002)는 내부 레지스터, 내부 캐시, 메모리(1004) 또는 저장소(1006)로부터 명령어를 검색(또는 페치(fetch))할 수 있고; 명령어를 디코딩하고 실행한 후; 하나 이상의 결과를 내부 레지스터, 내부 캐시, 메모리(1004) 또는 저장소(1006)에 기록할 수 있다. 특정 실시예로, 프로세서(1002)는 데이터용, 명령어용 또는 주소용 하나 이상의 내부 캐시를 포함할 수 있다. 본 명세서는 적절한 경우 임의의 적절한 수의 임의의 적절한 내부 캐시들을 포함하는 프로세서(1002)를 고려한다. 예로서 제한 없이, 프로세서(1002)는 하나 이상의 명령어 캐시들, 하나 이상의 데이터 캐시들 및 하나 이상의 변환 색인 버퍼(translation lookaside buffers, TLBs)를 포함할 수 있다. 명령어 캐시 내 명령어들은 메모리(1004)나 저장소(1006) 내 명령어들의 사본일 수 있고, 명령어 캐시는 프로세서(1002)에 의한 이런 명령어들의 검색 속도를 높일 수 있다. 데이터 캐시 내 데이터는 프로세서(1002)에서 실행하는 다음 명령들에 의해 접근하거나 메모리(1004)나 저장소(1006)로 기록하기 위해 프로세서(1002)에서 실행되는 이전 명령들의 결과; 또는 다른 적절한 데이터를 동작하는데 프로세서(1002)에서 실행하는 명령어를 위한 메모리(1004)나 저장소(1006) 내의 데이터의 사본일 수 있다. 데이터 캐시는 프로세서(1002)에 의한 판독 또는 기록 동작의 속도를 높일 수 있다. TLB들은 프로세서(1002)에 의한 가상 주소 변환의 속도를 높일 수 있다. 특정 실시예로, 프로세서(1002)는 데이터용, 명령어용 또는 주소용 하나 이상의 내부 레지스터를 포함할 수 있다. 본 명세서는 적절한 경우 임의의 적절한 수의 임의의 적절한 내부 레지스터들을 포함하는 프로세서(1002)를 고려한다. 적절한 경우, 프로세서(1002)는 하나 이상의 산술 논리 유닛(ALUs)을 포함할 수 있거나; 멀티-코어 프로세서일 수 있거나; 하나 이상이 프로세서들(1002)을 포함할 수 있다. 본 명세서가 특정 프로세서를 기술하고 도시하지만, 본 명세서는 임의의 적절한 프로세서를 고려한다.
특정 실시예로, 메모리(1004)는 프로세서(1002)가 실행하는 명령어 또는 프로세서(1002)가 운영하는 데이터를 저장하기 위한 메인 메모리를 포함한다. 예로서 제한 없이, 컴퓨터 시스템(1000)은 저장소(1006)나 또 다른 소스(가령, 예컨대 또 다른 컴퓨터 시스템(1000))에서 메모리(1004)로 명령어를 로딩할 수 있다. 이후, 프로세서(1002)는 메모리(1004)에서 내부 레지스터나 내부 캐시로 명령어를 로딩할 수 있다. 명령어를 실행하기 위해, 프로세서(1002)는 내부 레지스터나 내부 캐시로부터 명령어를 검색하고 이들을 디코딩할 수 있다. 명령어의 실행 중 또는 실행 후, 프로세서(1002)는 (중간 결과 또는 최종 결과일 수 있는) 하나 이상의 결과를 내부 레지스터나 내부 캐시로 기록할 수 있다. 이후, 프로세서(1002)는 하나 이상의 이런 결과를 메모리(1004)에 기록할 수 있다. 특정 실시예로, 프로세서(1002)는 (저장소(1006) 또는 다른 곳과는 대조적으로) 하나 이상의 내부 레지스터나 내부 캐시에서 또는 메모리(1004)에서 단지 명령어만을 실행하며, (저장소(1006) 또는 다른 곳과는 대조적으로) 하나 이상의 내부 레지스터나 내부 캐시에서 또는 메모리(1004)에서 단지 데이터만을 운영한다. (주소 버스 및 데이터 버스를 각각 포함할 수 있는) 하나 이상의 메모리 버스는 프로세서(1002)를 메모리(1004)로 연결할 수 있다. 하기에 기술되는 바와 같이, 버스(1012)는 하나 이상의 메모리 버스를 포함할 수 있다. 특정 실시예로, 하나 이상의 메모리 관리 유닛(MMUs)은 프로세서(1002)와 메모리(1004) 사이에 상주하며, 프로세서(1002)에 의해 요청되는 메모리(1004)로의 접근을 용이하게 한다. 특정 실시예로, 메모리(1004)는 랜덤 액세스 메모리(RAM)를 포함한다. 적절한 경우, 이런 RAM은 휘발성 메모리일 수 있다. 적절한 경우, 이런 RAM은 동적 RAM(DRAM) 또는 정적 RAM(SRAM)일 수 있다. 게다가, 적절한 경우, 이런 RAM은 단일 포트형 또는 다중-포트형 RAM일 수 있다. 본 명세서는 임의의 적절한 RAM을 고려한다. 적절한 경우, 메모리(1004)는 하나 이상의 메모리(1004)를 포함할 수 있다. 본 명세서가 특정 메모리를 기술하고 도시하지만, 본 명세서는 임의의 적절한 메모리를 고려한다.
특정 실시예로, 저장소(1006)는 데이터용 또는 명령어용 대용량 저장소를 포함한다. 예로서 제한 없이, 저장소(1006)는 하드 디스크 드라이브(HDD), 플로피 디스크 드라이브, 플래시 메모리, 광디스크, 자기-광학 디스크, 자기 테이프, 범용 직렬 버스(USB) 드라이브 또는 이들의 2 이상의 조합을 포함할 수 있다. 적절한 경우, 저장소(1006)는 착탈식 또는 비-착탈식(또는 고정) 매체를 포함할 수 있다. 적절한 경우, 저장소(1006)는 컴퓨터 시스템(1000)의 내부 또는 외부에 있을 수 있다. 특정 실시예로, 저장소(1006)는 비휘발성, 고체-상태(solid-state) 메모리이다. 특정 실시예로, 저장소(1006)는 읽기 전용 메모리(ROM)를 포함한다. 적절한 경우, 이런 ROM은 마스크-프로그램화된 ROM, 프로그램가능 ROM(PROM), 소거가능 PROM(EPROM), 전기적 소거가능 PROM(EEPROM), 전기적 변경가능 ROM(EAROM), 플래시 메모리 또는 이들의 2 이상의 조합일 수 있다. 본 명세서는 임의의 적절한 물리적 형태를 취하는 대용량 저장소(1006)를 고려한다. 적절한 경우, 저장소(1006)는 프로세서(1002)와 저장소(1006) 사이의 통신을 용이하게 하는 하나 이상의 저장소 제어 유닛을 포함할 수 있다. 적절한 경우, 저장소(1006)는 하나 이상의 저장소(1006)를 포함할 수 있다. 본 명세서가 특정 저장소를 기술하고 도시하지만, 본 명세서는 임의의 적절한 저장소를 고려한다.
특정 실시예로, I/O 인터페이스(1008)는 컴퓨터 시스템(1000)과 하나 이상의 I/O 장치 사이의 통신을 위한 하나 이상의 인터페이스를 제공하는 하드웨어, 소프트웨어 또는 이들 모두를 포함한다. 적절한 경우, 컴퓨터 시스템(1000)은 하나 이상의 이들 I/O 장치를 포함할 수 있다. 하나 이상의 이들 I/O 장치는 사람과 컴퓨터 시스템(1000) 사이의 통신을 가능하게 할 수 있다. 예로서 제한 없이, I/O 장치는 키보드, 키패드, 마이크로폰, 모니터, 마우스, 프린터, 스캐너, 스피커, 스틸 카메라(still camera), 스타일러스(stylus), 태블릿, 터치 스크린, 트랙볼(trackball), 비디오 카메라, 또 다른 적절한 I/O 장치 또는 이들의 2 이상의 조합을 포함할 수 있다. I/O 장치는 하나 이상의 센서를 포함할 수 있다. 본 명세서는 임의의 적절한 I/O 장치 및 이에 대한 적절한 I/O 인터페이스(1008)를 고려한다. 적절한 경우, I/O 인터페이스(1008)는 프로세서(1002)가 하나 이상의 이들 I/O 장치를 구동할 수 있도록 하는 하나 이상의 장치 또는 소프트웨어 드라이버를 포함할 수 있다. 적절한 경우, I/O 인터페이스(1008)는 하나 이상의 I/O 인터페이스(1008)를 포함할 수 있다. 본 명세서가 특정 I/O 인터페이스를 기술하고 도시하지만, 본 명세서는 임의의 적절한 I/O 인터페이스를 고려한다.
특정 실시예로, 통신 인터페이스(1010)는 컴퓨터 시스템(1000)과 하나 이상의 다른 컴퓨터 시스템(1000)이나 하나 이상의 네트워크 사이의 통신(가령, 예컨대 패킷-기반 통신)을 위한 하나 이상의 인터페이스를 제공하는 하드웨어, 소프트웨어 또는 이들 모두를 포함한다. 예로서 제한 없이, 통신 인터페이스(1010)는 이더넷이나 다른 유선-기반 네트워크로 통신하기 위한 네트워크 인터페이스 제어장치(NIC)나 네트워크 어댑터 또는 가령 WI-FI 네트워크와 같이 무선 네트워크로 통신하기 위한 무선 NIC(WNIC)나 무선 어댑터를 포함할 수 있다. 본 명세서는 임의의 적절한 네트워크 및 이에 대한 임의의 적절한 통신 인터페이스(1010)를 고려한다. 예로서 제한 없이, 컴퓨터 시스템(1000)은 애드 혹 네트워크(ad hoc network), 개인 영역 네트워크(PAN), 근거리 네트워크(LAN), 광역 네트워크(WAN), 대도시 네트워크(MAN), 인터넷의 하나 이상의 부분 또는 2 이상의 이런 네트워크들의 조합으로 통신할 수 있다. 하나 이상의 이런 네트워크의 하나 이상의 부분은 유선 또는 무선일 수 있다. 예로서, 컴퓨터 시스템(1000)은 무선 PAN(WPAN)(가령, 예컨대 BLUETOOTH WPAN), WI-FI 네트워크, WI-MAX 네트워크, 셀룰러폰 네트워크(가령, 예컨대 GSM(Global System for Mobile Communication) 네트워크), 다른 적절한 무선 네트워크 또는 2 이상의 이런 네트워크들의 조합으로 통신할 수 있다. 적절한 경우, 컴퓨터 시스템(1000)은 임의의 이들 네트워크에 대한 임의의 적절한 통신 인터페이스(1010)를 포함할 수 있다. 적절한 경우, 통신 인터페이스(1010)는 하나 이상의 통신 인터페이스(1010)를 포함할 수 있다. 본 명세서가 특정 통신 인터페이스를 기술하고 도시하지만, 본 명세서는 임의의 적절한 통신 인터페이스를 고려한다.
특정 실시예로, 버스(1012)는 컴퓨터 시스템(1000)의 구성요소를 서로 연결하는 하드웨어, 소프트웨어 또는 이들 모두를 포함한다. 예로서 제한 없이, 버스(1012)는 AGP(Accelerated Graphics Port)이나 다른 그래픽 버스, EISA(Enhanced Industry Standard Architecture) 버스, FSB(front-side bus), HT(HYPERTRANSPORT) 인터커넥트, ISA(Industry Standard Architecture) 버스, INFINIBAND 인터커넥트, LPC(low-pin-count) 버스, 메모리 버스, MCA(Micro Channel Architecture) 버스, PCI(Peripheral Component Interconnect) 버스, PCIe(PCI-Express) 버스, SATA(serial advanced technology attachment) 버스, VLB(Video Electronics Standard Association local) 버스, 또 다른 적절한 버스 또는 2 이상의 이런 버스의 조합을 포함할 수 있다. 적절한 경우, 버스(1012)는 하나 이상의 버스(1012)를 포함할 수 있다. 본 명세서가 특정 버스를 기술하고 도시하지만, 본 명세서는 임의의 적절한 버스나 인터커넥트를 고려한다.
본 명세서에서, 컴퓨터-판독가능한 비-일시적 저장매체 또는 저장매체들은 하나 이상의 반도체 기반 또는 다른 집적회로(ICs)(가령, 예컨대 FPGAs(field-programmable gate arrays) 또는 ASICs(application-specific ICs)), 하드 디스크 드라이브(HDDs), 하이브리드 하드 디스크(HHDs), 광학 디스크, 광학 디스크 드라이브(ODDs), 자기-광학 디스크, 자기-광학 드라이브, 플로피 디스크, 플로피 디스크 드라이브(FDDs), 자기 테이프, 고체-상태 드라이브(SSDs), RAM-드라이브, SECURE DIGITAL 카드나 드라이브, 임의의 다른 적절한 컴퓨터-판독가능한 비-일시적 저장매체 또는, 적절한 경우, 2 이상의 이들의 임의의 적절한 조합을 포함할 수 있다. 적절한 경우, 컴퓨터-판독가능한 비-일시적 저장매체는 휘발성, 비휘발성 또는 휘발성과 비휘발성의 조합일 수 있다.
기타
본 명세서에서, "또는"은 명시적으로 다르게 지시하거나 문맥상 달리 지시되지 않는 한, 포괄적인 것이며 배타적인 것이 아니다. 따라서, 본 명세서에서 "A 또는 B"는 명시적으로 다르게 지시하거나 문맥상 달리 지시되지 않는 한, "A, B 또는 둘 모두"를 의미한다. 게다가, "및"은 명시적으로 다르게 지시하거나 문맥상 달리 지시되지 않는 한, 공동 및 별개 모두이다. 따라서, 본 명세서에서 "A 및 B"는 명시적으로 다르게 지시하거나 문맥상 달리 지시되지 않는 한, "A 및 B가 공동이든 별개이든 상관없이 모두"를 의미한다.
본 명세서의 범위는 당업자가 이해할 수 있는 본 명세서에 기술되거나 도시된 예시적인 실시예들에 대한 모든 변화, 치환, 변형, 대체 및 변경을 포함한다. 본 명세서의 범위는 본 명세서에 기술되거나 도시된 예시적인 실시예들로 국한되지 않는다. 게다가, 본 명세서는 특정 컴포넌트, 구성요소, 특징, 기능, 동작 또는 단계를 포함하는 것으로 본 명세서의 각각의 실시예들을 기술하고 도시하지만, 임의의 이런 실시예들은 당업자가 이해할 수 있는 본 명세서에 어디든 기술되거나 도시되는 임의의 컴포넌트, 구성요소, 특징, 기능, 동작 또는 단계의 임의의 조합이나 치환을 포함할 수 있다. 게다가, 첨부된 청구범위에서 특정 기능을 수행하도록 설계되거나, 배치되거나, 할 수 있거나, 구성되거나, 할 수 있게 하거나, 동작할 수 있거나, 동작하는 장치나 시스템 또는 장치나 시스템의 구성요소에 대한 언급은 장치, 시스템 또는 구성요소가 그렇게 설계되거나, 배치되거나, 할 수 있거나, 구성되거나, 가능하거나, 동작할 수 있거나 동작하는 한, 장치, 시스템, 구성요소, 그 또는 그러한 특정 기능이 활성화되었는지, 턴온 되었는지, 잠금 해제되었는지 여부를 포함한다. 추가로, 비록 본 명세서는 특정 실시예가 특정 이점들을 제공하는 것으로 설명하거나 도시하지만, 특정 실시예는 이런 이점들의 일부 또는 전부를 제공하거나 어떤 이점들도 제공하지 않을 수 있다.

Claims (35)

  1. 컴퓨팅 장치에 의해:
    n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하는 단계;
    양자화기를 사용하여 질의를 표현하는 벡터를 양자화하는 단계;
    복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리(Hamming distance)를 계산하는 단계; 및
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃(approximate nearest neighbor)이라고 결정하는 단계를 포함하며,
    양자화된 벡터는 다의적 코드(polysemous code)에 대응하고,
    양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리(inter-centroid distance)를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝(machine learning)에 의해 훈련되는 방법.
  2. 제 1 항에 있어서,
    질의를 표현하는 복수의 서브-벡터로 질의를 표현하는 벡터를 분할하는 단계를 더 포함하며,
    상기 질의를 표현하는 벡터를 양자화하는 단계는 복수의 서브-양자화기를 사용하여 질의를 표현하는 복수의 서브-벡터 각각을 양자화하는 단계를 포함하고,
    각각의 양자화된 서브-벡터는 다의적 코드에 대응하며,
    각각의 서브-양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되고,
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리는 질의를 표현하는 각각의 개별적인 서브-벡터에 대응하는 각각의 다의적 코드와 컨텐츠 객체를 표현하는 각각의 양자화된 서브-벡터에 대응하는 복수의 개별적인 다의적 코드들 각각 사이의 복수의 해밍 거리에 기초하여 계산되는 방법.
  3. 제 2 항에 있어서,
    각각의 서브-양자화기는 복수의 서브-양자화기 중 각각의 다른 서브-양자화기와 구별되는 방법.
  4. 제 2 항에 있어서,
    컨텐츠 객체를 표현하는 복수의 양자화된 서브-벡터들 각각은 대응하는 서브-양자화기를 사용하여 양자화되는 방법.
  5. 제 1 항에 있어서,
    제1 다의적 코드와 제2 다의적 코드 사이의 해밍 거리는 제1 다의적 코드와 제2 다의적 코드 간에 차이가 있는 비트 수로서 계산되는 방법.
  6. 제 1 항에 있어서,
    제1 다의적 코드와 제2 다의적 코드 사이의 해밍 거리는 미리-생성된 룩업 테이블(lookup table)에 기초하여 계산되는 방법.
  7. 제 1 항에 있어서,
    상기 양자화기는 k-평균 클러스터링(k-means clustering)을 사용하는 방법.
  8. 제 1 항에 있어서,
    상기 목적 함수는
    Figure pct00073
    이며,
    Figure pct00074
    는 중심 인덱스(centroid indexes)의 세트이고,
    Figure pct00075
    는 중심
    Figure pct00076
    와 관련된 재생 값(reproduction value)이며,
    함수
    Figure pct00077
    는 단위 하이퍼큐브(unit hypercube)의 각각 다른 정점과 각각의 중심 인덱스를 맵핑하고,
    Figure pct00078
    Figure pct00079
    Figure pct00080
    사이의 해밍 거리이며,
    Figure pct00081
    Figure pct00082
    Figure pct00083
    사이의 거리이고,
    함수
    Figure pct00084
    Figure pct00085
    를 비교가능한 해밍 거리의 범위로 맵핑하는 단조 증가 함수(monotonously increasing function)인 방법.
  9. 제 8 항에 있어서,
    상기 함수
    Figure pct00086
    Figure pct00087
    이며,
    Figure pct00088
    Figure pct00089
    의 경험적으로 측정된 평균(empirically measured mean)이고,
    Figure pct00090
    Figure pct00091
    의 경험적으로 측정된 표준편차인 방법.
  10. 제 1 항에 있어서,
    상기 목적 함수는
    Figure pct00092
    이며,
    Figure pct00093
    는 중심 인덱스의 세트이고,
    Figure pct00094
    는 중심
    Figure pct00095
    와 관련된 재생 값이며,
    함수
    Figure pct00096
    는 단위 하이퍼큐브의 각각 다른 정점과 각각의 중심 인덱스를 맵핑하고,
    Figure pct00097
    Figure pct00098
    Figure pct00099
    사이의 해밍 거리이며,
    Figure pct00100
    Figure pct00101
    Figure pct00102
    사이의 거리이고,
    함수
    Figure pct00103
    Figure pct00104
    를 비교가능한 해밍 거리의 범위로 맵핑하는 단조 증가 함수이며,
    함수
    Figure pct00105
    는 함수
    Figure pct00106
    이고
    Figure pct00107
    인 방법.
  11. 제 1 항에 있어서,
    질의에 응답하여, 질의에 대한 근사 최근접 이웃이라고 결정된 하나 이상의 컨텐츠 객체를 제1 사용자에게 송신하는 단계를 더 포함하는 방법.
  12. 제 1 항에 있어서,
    각각의 컨텐츠 객체는 이미지를 포함하는 방법.
  13. 제 1 항에 있어서,
    수신된 질의는 질의 이미지를 포함하며,
    상기 방법은: 질의 이미지를 표현하는 n-차원 벡터를 생성하는 단계를 더 포함하는 방법.
  14. 제 13 항에 있어서,
    질의는 질의 이미지와 유사한 이미지들에 대한 요청에 해당하는 방법.
  15. 제 1 항에 있어서,
    각각의 컨텐츠 객체는 비디오를 포함하는 방법.
  16. 제 1 항에 있어서,
    수신된 질의는 질의 비디오를 포함하며,
    상기 방법은: 질의 비디오를 표현하는 n-차원 벡터를 생성하는 단계를 더 포함하는 방법.
  17. 제 1 항에 있어서,
    복수의 노드 및 노드들을 연결하는 복수의 에지를 포함하는 소셜 그래프에 액세스하는 단계를 더 포함하며,
    2개의 노드 사이의 각각의 에지는 노드들 사이의 이격도 1도를 표현하고,
    상기 노드는:
    제1 사용자에 대응하는 제1 노드; 및
    복수의 컨텐츠 객체에 각각 대응하는 복수의 제2 노드를 포함하는 방법.
  18. n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하고;
    양자화기를 사용하여 질의를 표현하는 벡터를 양자화하며;
    복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하고;
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하도록 실행시 동작하는 소프트웨어를 수록한 하나 이상의 컴퓨터-판독가능 비-일시적 저장매체로서,
    양자화된 벡터는 다의적 코드에 대응하고,
    양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되는 컴퓨터-판독가능 비-일시적 저장매체.
  19. 제 18 항에 있어서,
    상기 소프트웨어는 질의를 표현하는 복수의 서브-벡터로 질의를 표현하는 벡터를 분할하도록 실행시 더 동작하며,
    상기 질의를 표현하는 벡터를 양자화하는 것은 복수의 서브-양자화기를 사용하여 질의를 표현하는 복수의 서브-벡터 각각을 양자화하는 것을 포함하고,
    각각의 양자화된 서브-벡터는 다의적 코드에 대응하며,
    각각의 서브-양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되고,
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리는 질의를 표현하는 각각의 개별적인 서브-벡터에 대응하는 각각의 다의적 코드와 컨텐츠 객체를 표현하는 각각의 양자화된 서브-벡터에 대응하는 복수의 개별적인 다의적 코드들 각각 사이의 복수의 해밍 거리에 기초하여 계산되는 컴퓨터-판독가능 비-일시적 저장매체.
  20. 하나 이상의 프로세서; 및
    프로세서와 연결되고 프로세서에 의해 실행가능한 명령어를 포함한 비-일시적 메모리를 포함하는 시스템으로서,
    상기 프로세서는:
    n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하고;
    양자화기를 사용하여 질의를 표현하는 벡터를 양자화하며;
    복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하고;
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하는 명령어를 실행시 동작하며,
    양자화된 벡터는 다의적 코드에 대응하고,
    양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되는 시스템.
  21. 컴퓨팅 장치에 의해:
    n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의, 특히 데이터베이스 내 하나 이상의 유사한 이미지들 및/또는 비디오들에 대한 질의를 수신하는 단계;
    양자화기를 사용하여 질의를 표현하는 벡터를 양자화하는 단계;
    복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하는 단계; 및
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하는 단계를 포함하며,
    양자화된 벡터는 다의적 코드에 대응하고,
    양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되는 방법.
  22. 제 21 항에 있어서,
    질의를 표현하는 복수의 서브-벡터로 질의를 표현하는 벡터를 분할하는 단계를 더 포함하며,
    상기 질의를 표현하는 벡터를 양자화하는 단계는 복수의 서브-양자화기를 사용하여 질의를 표현하는 복수의 서브-벡터 각각을 양자화하는 단계를 포함하고,
    각각의 양자화된 서브-벡터는 다의적 코드에 대응하며,
    각각의 서브-양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되고,
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리는 질의를 표현하는 각각의 개별적인 서브-벡터에 대응하는 각각의 다의적 코드와 컨텐츠 객체를 표현하는 각각의 양자화된 서브-벡터에 대응하는 복수의 개별적인 다의적 코드들 각각 사이의 복수의 해밍 거리에 기초하여 계산되며,
    선택적으로, 각각의 서브-양자화기는 복수의 서브-양자화기 중 각각의 다른 서브-양자화기와 구별되고/되거나;
    선택적으로, 컨텐츠 객체를 표현하는 복수의 양자화된 서브-벡터들 각각은 대응하는 서브-양자화기를 사용하여 양자화되는 방법.
  23. 제 21 항 또는 제 22 항에 있어서,
    제1 다의적 코드와 제2 다의적 코드 사이의 해밍 거리는 제1 다의적 코드와 제2 다의적 코드 간에 차이가 있는 비트 수로서 계산되고/되거나;
    제1 다의적 코드와 제2 다의적 코드 사이의 해밍 거리는 미리-생성된 룩업 테이블에 기초하여 계산되는 방법.
  24. 제 21 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 양자화기는 k-평균 클러스터링(k-means clustering)을 사용하는 방법.
  25. 제 21 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 목적 함수는
    Figure pct00108
    이며,
    Figure pct00109
    는 중심 인덱스(centroid indexes)의 세트이고,
    Figure pct00110
    는 중심
    Figure pct00111
    와 관련된 재생 값(reproduction value)이며,
    함수
    Figure pct00112
    는 단위 하이퍼큐브(unit hypercube)의 각각 다른 정점과 각각의 중심 인덱스를 맵핑하고,
    Figure pct00113
    Figure pct00114
    Figure pct00115
    사이의 해밍 거리이며,
    Figure pct00116
    Figure pct00117
    Figure pct00118
    사이의 거리이고,
    함수
    Figure pct00119
    Figure pct00120
    를 비교가능한 해밍 거리의 범위로 맵핑하는 단조 증가 함수이며,
    선택적으로, 상기 함수
    Figure pct00121
    Figure pct00122
    이며,
    Figure pct00123
    Figure pct00124
    의 경험적으로 측정된 평균이고,
    Figure pct00125
    Figure pct00126
    의 경험적으로 측정된 표준편차인 방법.
  26. 제 21 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 목적 함수는
    Figure pct00127
    이며,
    Figure pct00128
    는 중심 인덱스의 세트이고,
    Figure pct00129
    는 중심
    Figure pct00130
    와 관련된 재생 값이며,
    함수
    Figure pct00131
    는 단위 하이퍼큐브의 각각 다른 정점과 각각의 중심 인덱스를 맵핑하고,
    Figure pct00132
    Figure pct00133
    Figure pct00134
    사이의 해밍 거리이며,
    Figure pct00135
    Figure pct00136
    Figure pct00137
    사이의 거리이고,
    함수
    Figure pct00138
    Figure pct00139
    를 비교가능한 해밍 거리의 범위로 맵핑하는 단조 증가 함수이며,
    함수
    Figure pct00140
    는 함수
    Figure pct00141
    이고
    Figure pct00142
    인 방법.
  27. 제 21 항 내지 제 26 항 중 어느 한 항에 있어서,
    질의에 응답하여, 질의에 대한 근사 최근접 이웃이라고 결정된 하나 이상의 컨텐츠 객체를 제1 사용자에게 송신하는 단계를 더 포함하는 방법.
  28. 제 21 항 내지 제 27 항 중 어느 한 항에 있어서,
    각각의 컨텐츠 객체는 이미지를 포함하는 방법.
  29. 제 21 항 내지 제 28 항 중 어느 한 항에 있어서,
    수신된 질의는 질의 이미지를 포함하며,
    상기 방법은: 질의 이미지를 표현하는 n-차원 벡터를 생성하는 단계를 더 포함하고
    선택적으로, 질의는 질의 이미지와 유사한 이미지들에 대한 요청에 해당하는 방법.
  30. 제 21 항 내지 제 29 항 중 어느 한 항에 있어서,
    각각의 컨텐츠 객체는 비디오를 포함하는 방법.
  31. 제 21 항 내지 제 30 항 중 어느 한 항에 있어서,
    수신된 질의는 질의 비디오를 포함하며,
    상기 방법은: 질의 비디오를 표현하는 n-차원 벡터를 생성하는 단계를 더 포함하는 방법.
  32. 제 21 항 내지 제 31 항 중 어느 한 항에 있어서,
    복수의 노드 및 노드들을 연결하는 복수의 에지를 포함하는 소셜 그래프에 액세스하는 단계를 더 포함하며,
    2개의 노드 사이의 각각의 에지는 노드들 사이의 이격도 1도를 표현하고,
    상기 노드는:
    제1 사용자에 대응하는 제1 노드; 및
    복수의 컨텐츠 객체에 각각 대응하는 복수의 제2 노드를 포함하는 방법.
  33. n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하고;
    양자화기를 사용하여 질의를 표현하는 벡터를 양자화하며;
    복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하고;
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하도록 실행시 동작하는 소프트웨어를 수록한 하나 이상의 컴퓨터-판독가능 비-일시적 저장매체로서,
    양자화된 벡터는 다의적 코드에 대응하고,
    양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되는 컴퓨터-판독가능 비-일시적 저장매체.
  34. 제 1835 항에 있어서,
    상기 소프트웨어는 질의를 표현하는 복수의 서브-벡터로 질의를 표현하는 벡터를 분할하도록 실행시 더 동작하며,
    상기 질의를 표현하는 벡터를 양자화하는 것은 복수의 서브-양자화기를 사용하여 질의를 표현하는 복수의 서브-벡터 각각을 양자화하는 것을 포함하고,
    각각의 양자화된 서브-벡터는 다의적 코드에 대응하며,
    각각의 서브-양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되고,
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리는 질의를 표현하는 각각의 개별적인 서브-벡터에 대응하는 각각의 다의적 코드와 컨텐츠 객체를 표현하는 각각의 양자화된 서브-벡터에 대응하는 복수의 개별적인 다의적 코드들 각각 사이의 복수의 해밍 거리에 기초하여 계산되는 컴퓨터-판독가능 비-일시적 저장매체.
  35. 하나 이상의 프로세서; 및
    프로세서와 연결되고 프로세서에 의해 실행가능한 명령어를 포함한 비-일시적 메모리를 포함하는 시스템으로서,
    상기 프로세서는:
    n-차원 벡터 공간에서 n-차원 벡터로 표현되는 질의를 수신하고;
    양자화기를 사용하여 질의를 표현하는 벡터를 양자화하며;
    복수의 컨텐츠 객체들 각각에 대하여, 질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 해밍 거리를 계산하고;
    질의를 표현하는 벡터에 대응하는 다의적 코드와 컨텐츠 객체를 표현하는 양자화된 벡터에 대응하는 다의적 코드 사이의 계산된 해밍 거리가 임계량 미만이라고 결정함에 기반하여, 복수의 컨텐츠 객체 중 한 컨텐츠 객체가 질의에 대한 근사 최근접 이웃이라고 결정하는 명령어를 실행시 동작하며,
    양자화된 벡터는 다의적 코드에 대응하고,
    양자화기는 해밍 거리가 목적 함수를 사용하여 중심 간의 거리를 근사화하도록 다의적 코드를 결정하기 위해 머신 러닝에 의해 훈련되는 시스템.
KR1020197009570A 2016-09-07 2017-09-06 다의적 코드를 사용한 유사성 검색 KR20190043604A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662384421P 2016-09-07 2016-09-07
US62/384,421 2016-09-07
US15/393,926 US20180068023A1 (en) 2016-09-07 2016-12-29 Similarity Search Using Polysemous Codes
US15/393,926 2016-12-29
PCT/US2017/050211 WO2018048853A1 (en) 2016-09-07 2017-09-06 Similarity search using polysemous codes

Publications (1)

Publication Number Publication Date
KR20190043604A true KR20190043604A (ko) 2019-04-26

Family

ID=61280896

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197009570A KR20190043604A (ko) 2016-09-07 2017-09-06 다의적 코드를 사용한 유사성 검색

Country Status (9)

Country Link
US (1) US20180068023A1 (ko)
JP (1) JP2019532445A (ko)
KR (1) KR20190043604A (ko)
CN (1) CN109906451A (ko)
AU (1) AU2017324850A1 (ko)
BR (1) BR112019004335A2 (ko)
CA (1) CA3034323A1 (ko)
MX (1) MX2019002701A (ko)
WO (1) WO2018048853A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200144417A (ko) * 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법
KR20210077464A (ko) * 2019-12-17 2021-06-25 네이버 주식회사 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템
KR20220131039A (ko) * 2021-03-19 2022-09-27 (주)데이터코리아 변호사 스마트 매칭 시스템
US11631270B2 (en) 2019-12-11 2023-04-18 Naver Corporation Methods and systems for detecting duplicate document using document similarity measuring model based on deep learning

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11347751B2 (en) * 2016-12-07 2022-05-31 MyFitnessPal, Inc. System and method for associating user-entered text to database entries
US10817774B2 (en) * 2016-12-30 2020-10-27 Facebook, Inc. Systems and methods for providing content
US10489468B2 (en) * 2017-08-22 2019-11-26 Facebook, Inc. Similarity search using progressive inner products and bounds
US10191921B1 (en) * 2018-04-03 2019-01-29 Sas Institute Inc. System for expanding image search using attributes and associations
US10824592B2 (en) * 2018-06-14 2020-11-03 Microsoft Technology Licensing, Llc Database management using hyperloglog sketches
CN109635084B (zh) * 2018-11-30 2020-11-24 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN109740660A (zh) * 2018-12-27 2019-05-10 深圳云天励飞技术有限公司 图像处理方法及装置
CN109992716B (zh) * 2019-03-29 2023-01-17 电子科技大学 一种基于itq算法的印尼语相似新闻推荐方法
US10990424B2 (en) * 2019-05-07 2021-04-27 Bank Of America Corporation Computer architecture for emulating a node in conjunction with stimulus conditions in a correlithm object processing system
CN112446483B (zh) * 2019-08-30 2024-04-23 阿里巴巴集团控股有限公司 一种基于机器学习的计算方法和计算单元
CN112445943A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 数据处理的方法、装置和系统
US11494734B2 (en) * 2019-09-11 2022-11-08 Ila Design Group Llc Automatically determining inventory items that meet selection criteria in a high-dimensionality inventory dataset
US11354293B2 (en) 2020-01-28 2022-06-07 Here Global B.V. Method and apparatus for indexing multi-dimensional records based upon similarity of the records
CN111522975B (zh) * 2020-03-10 2022-04-08 浙江工业大学 等价连续变化的二值离散优化的非线性哈希图像检索方法
US11657080B2 (en) * 2020-04-09 2023-05-23 Rovi Guides, Inc. Methods and systems for generating and presenting content recommendations for new users
CN112487256B (zh) * 2020-12-10 2024-05-24 中国移动通信集团江苏有限公司 对象查询方法、装置、设备及存储介质
CN113032427B (zh) * 2021-04-12 2023-12-08 中国人民大学 一种用于cpu和gpu平台的向量化查询处理方法
US11860876B1 (en) * 2021-05-05 2024-01-02 Change Healthcare Holdings, Llc Systems and methods for integrating datasets
CN113177130B (zh) * 2021-06-09 2022-04-08 山东科技大学 基于二值语义嵌入的图像检索和识别方法和装置
US11886445B2 (en) * 2021-06-29 2024-01-30 United States Of America As Represented By The Secretary Of The Army Classification engineering using regional locality-sensitive hashing (LSH) searches
CN114329006A (zh) * 2021-09-24 2022-04-12 腾讯科技(深圳)有限公司 图像检索方法、装置、设备、计算机可读存储介质
CN113821622B (zh) * 2021-09-29 2023-09-15 平安银行股份有限公司 基于人工智能的答案检索方法、装置、电子设备及介质
CN116051917A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 一种训练图像量化模型的方法、检索图像的方法及装置
CN115169489B (zh) * 2022-07-25 2023-06-09 北京百度网讯科技有限公司 数据检索方法、装置、设备以及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
US8761512B1 (en) * 2009-12-03 2014-06-24 Google Inc. Query by image
US8239364B2 (en) * 2009-12-08 2012-08-07 Facebook, Inc. Search and retrieval of objects in a social networking system
WO2012121728A1 (en) * 2011-03-10 2012-09-13 Textwise Llc Method and system for unified information representation and applications thereof
US9054876B1 (en) * 2011-11-04 2015-06-09 Google Inc. Fast efficient vocabulary computation with hashed vocabularies applying hash functions to cluster centroids that determines most frequently used cluster centroid IDs
JP2013206187A (ja) * 2012-03-28 2013-10-07 Fujitsu Ltd 情報変換装置、情報検索装置、情報変換方法、情報検索方法、情報変換プログラム、情報検索プログラム
JP5563016B2 (ja) * 2012-05-30 2014-07-30 株式会社デンソーアイティーラボラトリ 情報検索装置、情報検索方法及びプログラム
US8935271B2 (en) * 2012-12-21 2015-01-13 Facebook, Inc. Extract operator
US20150169644A1 (en) * 2013-01-03 2015-06-18 Google Inc. Shape-Gain Sketches for Fast Image Similarity Search
US9336312B2 (en) * 2013-04-08 2016-05-10 Facebook, Inc. Vertical-based query optionalizing
IL226219A (en) * 2013-05-07 2016-10-31 Picscout (Israel) Ltd Efficient comparison of images for large groups of images
JP6208898B2 (ja) * 2014-02-10 2017-10-04 ジーニー ゲゼルシャフト ミット ベシュレンクテル ハフツング 画像特徴式認識のためのシステムおよび方法
CN104123375B (zh) * 2014-07-28 2018-01-23 清华大学 数据搜索方法及系统
US9754037B2 (en) * 2014-08-27 2017-09-05 Facebook, Inc. Blending by query classification on online social networks

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200144417A (ko) * 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법
US11631270B2 (en) 2019-12-11 2023-04-18 Naver Corporation Methods and systems for detecting duplicate document using document similarity measuring model based on deep learning
KR20210077464A (ko) * 2019-12-17 2021-06-25 네이버 주식회사 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템
US11550996B2 (en) 2019-12-17 2023-01-10 Naver Corporation Method and system for detecting duplicate document using vector quantization
KR20220131039A (ko) * 2021-03-19 2022-09-27 (주)데이터코리아 변호사 스마트 매칭 시스템

Also Published As

Publication number Publication date
CN109906451A (zh) 2019-06-18
US20180068023A1 (en) 2018-03-08
BR112019004335A2 (pt) 2019-05-28
MX2019002701A (es) 2019-06-06
WO2018048853A1 (en) 2018-03-15
CA3034323A1 (en) 2018-03-15
AU2017324850A1 (en) 2019-04-18
JP2019532445A (ja) 2019-11-07

Similar Documents

Publication Publication Date Title
KR20190043604A (ko) 다의적 코드를 사용한 유사성 검색
AU2017202634B2 (en) Search query interactions
US10831847B2 (en) Multimedia search using reshare text on online social networks
JP6290952B2 (ja) 構造化された検索クエリのための文法モデル
KR101648533B1 (ko) 온라인 소셜 네트워크에서 질의를 위한 검색 의도
JP6377807B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え
AU2014259935B2 (en) Using inverse operators for queries on online social networks
KR101997541B1 (ko) 온라인 소셜 네트워크에서 외부 컨텐츠의 순위화
KR101820893B1 (ko) 온라인 소셜 네트워크에서의 대규모 페이지 추천
US20180101540A1 (en) Diversifying Media Search Results on Online Social Networks
KR20170102968A (ko) 온라인 소셜 네트워크에서 뉴스-관련 컨텐츠를 검색하기 위한 제안형 키워드
KR20180099812A (ko) 딥러닝 모델을 사용한 엔티티의 식별
US20150046152A1 (en) Determining concept blocks based on context
KR101918659B1 (ko) 가변하는 검색 질의 버티컬 액세스
KR20170088944A (ko) 온라인 소셜 네트워크에서 오퍼 및 광고의 검색
EP3293696A1 (en) Similarity search using polysemous codes
EP3306555A1 (en) Diversifying media search results on online social networks
AU2016200901A1 (en) Using inverse operators for queries on online social networks

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application