KR101389148B1 - 오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제 - Google Patents

오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제 Download PDF

Info

Publication number
KR101389148B1
KR101389148B1 KR1020077028339A KR20077028339A KR101389148B1 KR 101389148 B1 KR101389148 B1 KR 101389148B1 KR 1020077028339 A KR1020077028339 A KR 1020077028339A KR 20077028339 A KR20077028339 A KR 20077028339A KR 101389148 B1 KR101389148 B1 KR 101389148B1
Authority
KR
South Korea
Prior art keywords
query
terms
alternative
original
compound word
Prior art date
Application number
KR1020077028339A
Other languages
English (en)
Other versions
KR20080008400A (ko
Inventor
쥔 우
데캉 린
저 췐
제 저우
Original Assignee
구글 잉크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 잉크. filed Critical 구글 잉크.
Publication of KR20080008400A publication Critical patent/KR20080008400A/ko
Application granted granted Critical
Publication of KR101389148B1 publication Critical patent/KR101389148B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

검색 질의와 같은 오리지널 유저 입력에 기초하여 변형/정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다. 이 방법은 로마계 언어 및/또는 중국어와 같은 비-로마계 언어에 대해 구현될 수도 있다. 일반적으로, 이 방법은 오리지널 유저 입력을 수신하고 그 내부의 핵심 용어를 식별하는 단계, 유사성 매트릭스에 따라서 오리지널 입력의 핵심 용어(들) 를 다른 용어로 대체함으로써 및/또는 하나의 단어 시퀀스가 다른 하나의 시퀀스의 서브스트링인 확대/축소 표에 따라서 오리지널 입력의 단어 시퀀스를 다른 단어 시퀀스로 대체함으로써 잠재 대안적인 입력을 결정하는 단계, 및 예를 들어, 대안적인 입력의 가능성이 적어도 오리지널 입력의 가능성인 소정의 기준에 따라서 가장 적절한 대안적인 입력을 선택하는 단계를 포함한다. 사전-컴퓨팅된 오리지널 유저 입력과 해당 대안적인 입력을 포함하는 캐시를 제공할 수도 있다.
오리지널 유저 입력, 대안적인 유저 입력, 잠재 대안적인 유저 입력

Description

오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제{SUGGESTING AND REFINING USER INPUT BASED ON ORIGINAL USER INPUT}
본 발명은, 일반적으로, 대안적인 유저 입력의 생성에 관한 것이다. 더욱 상세하게는, 검색 질의 (search query) 와 같은 오리지널 유저 입력에 기초하여 변형 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다.
수많은 유저들이 주어진 검색 세션 도중에 그들의 오리지널 검색 질의를 종종, 때때로 반복적으로 변형 또는 정제한다. 예를 들어, 유저는 오리지널 검색 질의를 더욱 구체적인 검색 질의, 더욱 광범위한 검색 질의, 및/또는 소정의 검색 결과가 생성될 때까지 대안적인 질의 용어를 이용하는 검색 질의로 변형할 수도 있다. 유저 검색 질의 정제는, 로마계 언어, 예를 들어, 영어로의 질의뿐만 아니라 비-로마계 언어, 예를 들어, 중국어, 일본어, 한국어 (CJK), 태국어 등으로의 질의로도 생성한다. 오리지널 검색 질의가 양호한 일련의 검색 결과를 산출하지 않았을 때, 예를 들어, 검색 질의가 너무 구체적이거나 또는 너무 광범위한 경우, 또는 부적절한 용어가 검색 질의에 이용된 경우, 유저는 그들의 검색 질의를 일반적으로 변형 또는 정제한다. 예를 들어, 하나 이상의 검색 용어가 모호하고, 반환된 도큐먼트의 일부가, 유저가 의도한 검색 용어의 의미와는 다른 모호한 검색 용어의 의미와 관련되는 경우, 및/또는 유저가 검색 용어의 수많은 양태 중에 주어진 검색 용어의 오직 하나의 양태에만 관련되는 경우에, 오리지널 유저 검색 질의는 너무 많은 부적절한 결과를 산출할 수도 있다. 또한, 오리지널 유저 검색 질의는, 유저가 소정의 검색 용어와 관련된 개념만을 검색할 때, 너무 많은 부적절한 결과를 산출할 수도 있다.
수많은 검색 엔진은 유저의 오리지널 검색 질의와 관련된 제안된 검색 질의의 목록을 제안한다. 예를 들어, 유저의 오리지널 검색 질의가 "Amazon" 이면, 검색 엔진은 "Amazon.com", "Amazon Rainforest", 및 "Amazon River" 와 같은 대안적인 관련 검색 질의를 제안할 수도 있다. 검색 질의 제안은 CJK 유저와 같은 비-로마계 언어 유저에 대해 특히 유용할 수도 있다. 구체적으로, 비-로마계 언어는 일반적으로 문자의 큰 세트를 가지고, 각각의 문자는 종래의 로마계 키보드를 사용하여 수개의 키스트로크 (keystroke) 를 요구할 수도 있기 때문에, 비-로마계 언어 유저들은 변형된 검색 질의를 타이핑함으로써 제안된 검색 질의를 클릭하거나 또는 선택하는 것을 선호할 수도 있다. 예를 들어, 수많은 중국어 유저들이 중국어 문자를 입력하기 위해 병음 (phonetic spelling) 을 이용한다. 통상, 종래의 병음 입력 시스템은 병음 입력을 변환하고, 유저가 중국어 문자의 의도된 세트를 선택할 수도 있는 후보 중국어 문자 세트의 목록을 제공한다. 명백하게, 복수의-단계 입력 프로세스는 지루할 수도 있고 시간을 낭비하는 것일 수도 있다.
또한, 검색 질의 제안은 로마계 언어 유저에 대해 유용할 수도 있다. Yahoo, Teoma, Alta Vista, Askjeeves, AllTheWeb, 및 Baidu 와 같은 수많은 검색 엔진은 관련 검색, 질의 정제, 또는 질의 클러스터링 형태의 피쳐 (feature) 를 제시한다.
검색 질의와 같이 오리지널 유저 입력에 기초하여 변형된 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다. 본 발명은, 프로세스, 장치, 시스템, 디바이스, 방법, 또는, 프로그램 명령이 광 또는 전자 통신선을 통해서 전송되는 컴퓨터 판독가능 저장 매체 또는 컴퓨터 네트워크와 같은 컴퓨터 판독가능 매체를 포함하는 수많은 방법으로 구현될 수 있다는 것이 명시된다. 일반적으로, 용어 컴퓨터는 개인 휴대용 정보 단말기 (PDA), 셀룰러폰, 및 네트워크 스위치와 같은 컴퓨팅 파워를 가지는 임의의 디바이스를 지칭한다. 본 발명의 몇몇 독창적인 실시형태가 이하 설명된다.
중국어와 같은 비-로마계 언어로의 질의에 대해 이 방법이 적용될 수도 있다. 일반적으로, 이 방법은 오리지널 유저 입력에서의 핵심 용어를 수신 및 식별하는 단계, 유사성 매트릭스에 따라서 오리지널 입력에서의 핵심 용어(들)을 다른 용어로 대체함으로써 잠재 대안적인 유저 입력을 결정하는 단계 및/또는 확대/축소 표에 따라서 일 시퀀스가 다른 시퀀스의 서브스트링인, 오리지널 입력에서 단어의 시퀀스를 단어의 다른 시퀀스로 대체하는 단계, 잠재 대안적인 유저 입력의 가능성을 컴퓨팅하는 단계, 예를 들어, 각각의 선택된 대안적인 유저 입력의 가능성이 적어도 오리지널 유저 입력의 가능성인, 소정의 기준에 따라서 가장 적절한 대안적인 유저 입력을 선택하는 단계를 포함한다. 또한, 이 방법은 오리지널 유저 입력이 제안된 대안적인 유저 입력의 사전-컴퓨팅된 캐시에 있는지의 여부를 결정하고, 만약 그렇다면, 사전-컴퓨팅된 캐시에 저장된 사전-컴퓨팅된 가장 적절한 대안적인 유저 입력을 출력하는 단계를 포함할 수도 있다.
유사성 매트릭스는, 코퍼스를 이용하여 생성될 수도 있고, 매우 높은 유사성을 가질 수도 있는 "New York" 및 "Los Angeles" 와 같은 관용어를 포함하는 2 개의 유사 용어들 사이에서, 각 쌍의 대응 용어 (New 와 Los 및 York 와 Angeles) 가 높은 유사성을 가지지 않더라도, 유사값을 가질 수도 있다. 일 실시형태에서, 유사성 매트릭스는 코퍼스에서 단어들에 대한 피쳐 벡터를 구성하고, 그 피쳐 벡터를 이용하여 2 개의 단어/관용어 사이에서 유사값을 결정함으로써 생성될 수 있다.
확대/축소 표는 유저 입력 데이터베이스로부터 생성될 수도 있고, 용어의 각 쌍의 시퀀스와 관련된 빈도값을 가질 수도 있다. 일 실시형태에서, 확대/축소 표는 빈도수가 높은 단어 시퀀스를 결정하고, 비-관용구 (non-phrasal) 단어 시퀀스를 필터링하고, 빈도수로서 각 시퀀스의 용어와 카운트를 조합함으로써 생성될 수도 있다. 설명을 위해, 확대/축소 표에서 엔트리의 예는 "The United States of America" 및 "United States" 일 수도 있다.
잠재 대안적인 유저 입력의 가능성은: (a) 오리지널 유저 입력과 잠재 대안적인 유저 입력 사이의 관련성, (b) 잠재 대안적인 유저 입력이 유저에 의해 선택될 확률, 및 (c) 잠재 대안적인 유저 입력에 대한 위치의 스코어 중 하나 이상을 결정함으로써 컴퓨팅될 수도 있다. 특히, 오리지널 유저 입력과 잠재 대안적인 유저 입력 사이의 관련성이 오리지널 유저 입력과 잠재 대안적인 유저 입력의 정렬된 용어들 사이에서 상관값을 이용하여 결정될 수도 있다.
다른 실시형태에서, 대안적인 유저 입력을 제안하기 위한 시스템은 일반적으로 하나 이상의 핵심 용어를 가지는 오리지널 유저 입력을 수신하고, 오리지널 유저 입력의 핵심 용어를 식별하고, (a) 2 개의 용어 사이에서 유사값을 갖는 유사성 매트릭스에 따라서 대안적인 용어와 오리지널 유저 입력의 하나 이상의 핵심 용어를 대체하는 단계 및 (b) 하나의 시퀀스는 대안적인 시퀀스의 서브스트링이고, 용어의 각각의 시퀀스와 조합된 빈도값을 갖는 확대/축소 표에 따라서 단어의 대안적인 시퀀스를 갖는 오리지널 유저 입력의 단어의 시퀀스를 대체시키는 단계, 중 하나 이상의 단계를 수행함으로써 잠재 대안적인 유저 입력을 결정하고, 잠재 대안적인 유저 입력의 가능성을 컴퓨팅하고, 소정의 기준에 따라서 가장 적절한 대안적인 유저 입력을 선택 및 출력하도록 구성된 제안/정제 서버를 포함한다.
다른 실시형태에서, 대안적인 유저 입력을 제안하기 위한 컴퓨터 프로그램 제품은 컴퓨터 시스템과 관련되어 이용되고, 컴퓨터 프로세서상에서 실행가능한 명령이 저장된 컴퓨터 판독가능 저장 매체를 포함한다. 이 명령은, 오리지널 유저 입력의 핵심 용어를 수신 및 식별하는 기능, 유사성 매트릭스에 따른 대안적인 용어와 오리지널 입력의 핵심 용어(들)을 대체함으로써 잠재 대안적인 유저 입력을 결정하는 기능 및/또는 확대/축소 표에 따라서, 일 시퀀스는 대안적인 시퀀스의 서브스트링인, 단어의 대안적인 시퀀스와 오리지널 입력의 단어의 시퀀스를 대체하는 기능, 잠재 대안적인 유저 입력의 가능성을 컴퓨팅하고 부가적으로 잠재 대안적인 유저 입력과 예측된 유저 충족을 컴퓨팅하는 기능, 예를 들어, 각각의 선택된 대안적인 유저 입력의 가능성은 적어도 오리지널 유저 입력의 가능성인 소정의 기준에 따라 가장 적절한 대안적인 유저 입력을 선택하는 기능을 일반적으로 포함할 수도 있다.
시스템 및 방법을 구현하는 어플리케이션은 검색 엔진 상에서와 같이 서버 사이트 상에서 구현될 수도 있고, 또는, 유저의 컴퓨터와 같은 클라이언트 사이트 상에서 구현되어, 예를 들어, 다운로드되어, 제안된 대안적인 입력을 제공하고 또는 검색 엔진과 같은 원격 서버와 상호작용할 수도 있다.
본 발명이 이러한 특징 및 다른 특징과 이점은 본 발명의 예시 원리의 방법으로 설명하는 이하의 상세한 설명 및 첨부된 도면에서 더욱 상세하게 설명된다.
본 발명은 첨부된 도면과 관련하여 이하 상세한 설명으로 용이하게 이해되며, 동일한 참조 수치는 동일한 구조 엘리먼트를 지칭한다.
도 1a 는 유저 검색 질의와 같은 제안된 변형/정제된 유저 입력을 생성시키기 위한 예시적인 시스템의 블록도이다.
도 1b 는 제안-정제 서버의 유사 단어 추출기에 의해 유사성 매트릭스를 생성시키기 위한 프로세스를 도시하는 블록도이다.
도 1c 는 제안-정제 서버의 확대/축소 표 생성기에 의해 확대/축소 표를 생성시키기 위한 프로세스를 도시하는 블록도이다.
도 1d 는 제안-정제 서버의 세션 파서 (session parser) 에 의해 초기의 변형/정제 캐시를 생성시키기 위한 프로세스를 도시하는 블록도이다.
도 2a 는 도 1a 에 도시된 시스템에 의해 구현될 수도 있는 변형/정제 유저 입력을 생성시키기 위한 예시적인 프로세스를 도시하는 플로우차트이다.
도 2b 는 도 1a 에 도시된 시스템에 의해 구현될 수도 있는 유저 질의와 같은 제안된 변형/정제된 제어 입력을 생성시키기 위한 예시적인 프로세스를 도시하는 플로우차트이다.
도 3 은 오리지널 유저 질의를 파싱하여 생성된 예시적인 질의 래티스 도면이다.
도 4 는 질의 용어의 대체에 의해 제안된 변형/정제된 질의를 생성하는데 이용하기 위한 유사성 매트릭스를 구성하기 위한 예시적인 프로세스를 도시하는 플로우차트이다.
도 5 는 예시적인 텍스트에서 생성된 용어 "communities" 에 대한 표 목록 피쳐 및 해당 카운트이다.
도 6 은 코퍼스로부터 생성된 용어 "communities" 에 대한 표 목록 예시 피쳐 및 해당 카운트이다.
도 7 은 제안된 변형/정제 질의를 생성시키기 위해 용어를 대체하는데 이용하기 위한 예시적인 유사성 매트릭스이다.
도 8 은 질의의 복합어를 대체함으로써 제안된 변형/정제 질의를 생성시키기 위해 이용되는 복합어 쌍의 추출/축소 표를 구성하기 위한 예시적인 프로세스를 도시하는 플로우차트이다.
도 9 는 제안된 변형/정제 질의를 생성시키기 위해 질의의 복합어를 대체하 는데 이용하는 확대/축소 표의 몇몇 예시적인 엔트리를 도시하는 표이다.
도 10 은 제안된 변형/정제 질의의 스코어를 결정하기 위한 예시적인 프로세스를 도시하는 플로우차트이다.
도 11 은 용어 2 개의 질의 Q 및 Q' 의 정렬 매핑의 예를 도시하는 도면이다.
도 12 는 검출된 신규의 엔티티에 대한 상관값을 생성시키기 위한 예시적인 프로세스를 도시하는 플로우차트이다.
검색 질의와 같은 오리지널 유저 입력에 기초하여 변형 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다. 단지 명료함을 목적으로, 본 명세서에 설명된 예는 중국어 질의 입력의 용어로만 일반적으로 표현된다는 것이 명시된다. 그러나, 정제/변형 유저 입력을 제안하기 위한 시스템 및 방법은 일본어, 한국어, 태국어 등과 같은 대안적인 비-로마계 언어뿐만 아니라 로마계 언어에 대해 유사하게 적용가능할 수도 있다. 또한, 정제/변형된 유저 입력을 제안하기 위한 시스템 및 방법은 다른 비-질의 유저 입력에 대해 유사하게 적용가능할 수도 있다. 이하의 설명은 당업자가 본 발명을 구성하고 이용하도록 표현된다. 구체적인 실시형태 및 어플리케이션의 설명이 예로서만 제공되고, 당업자에게는 다양한 변형이 용이하게 명백하다. 본 발명에 정의된 일반적인 원리는 본 발명의 취지 및 범위를 벗어나지 않고 다른 실시형태 및 어플리케이션에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 개시된 원리 및 특징과 일관되는 수많은 대안, 변형 및 등가물을 포함하는 가장 넓은 범위에 따른다. 명백함을 위해, 본 발명에 관련된 기술적 분야에 알려진 기술적인 재료에 관련된 설명은 본 발명을 불필요하게 모호하게 하지 않기 위해 상세하게 설명되지 않는다.
이 시스템 및 방법은 유저 질의의 용어들 사이의 유저의 질의 히스토리 및 관계에 기초하여, 질의와 같이 오리지널 유저 입력에 기초한 변형 또는 정제된 유저 입력을 생성하기 위한 것이다. 시스템 및 방법은 신규의 명칭 엔티티 (예를 들어, 적절한 명칭, 영화, 노래 및 제품 등의 명칭) 및 용어들 사이의 관계를 포함하는 신규의 용어를 추출하기 위한 시스템 및 방법을 포함할 수도 있다. 본 명세서에 설명된 시스템 및 방법은 질의 (또는 대안적인 유저 입력) 정제를 생성하는데 이용 적절하지만, 뉴스 기사 분류, 스펠링 정정, 매체 검색 및 분절 (segmentation) 과 같은 많은 대안적인 어플리케이션에 적합할 수도 있다. 수많은 유저에 대해, 초기 검색 질의는 종종 가장 적절한 검색 질의가 아니고, 따라서 유저는 주어진 검색 세션 도중에 검색 질의를, 종종 여러번, 변형 또는 정제한다.
도 1a 는 유저 검색 질의 (22) 와 같은 오리지널 유저 입력으로부터 제안된 변형/정제 입력 (26) 을 생성시키기 위한 예시적인 시스템 (20) 의 블록도이다. 일반적으로, 시스템 (20) 은 다양한 데이터 소스로부터 유래될 수도 있는 확률을 이용하여 제안된 변형/정제된 질의 (26) 를 생성하는 제안/정제 서버 (24) 를 포함한다. 다양한 데이터 소스의 예는 사전-컴퓨팅된 질의 제안 또는 정제의 캐시를 저장하는 부가적인 제안/정제 캐시 (36) 를 포함한다. 제안/정제 캐시 (36) 는 제안/정제 서버 (24) 의 세션 파서 (24C) 에 의해 초기에 생성될 수도 있다. 다른 데이터 소스로는 제안/정제 서버 (24) 의 유사 단어 추출기 (24A) 에 의해 생성될 수도 있는 유사성 매트릭스 (38) 및 확대/축소 표 생성기 (24B) 에 의해 생성될 수도 있는 확대/축소 표 (39) 일 수도 있다. 유사성 매트릭스 (38) 및 확대/축소 표 (39) 는 일반적으로 용어들 사이 및/또는 용어의 시퀀스 사이의 관계와 대략 비슷하다. 시스템 (20) 은 유사성 매트릭스 (38) 및/또는 확대/축소 표 (39) 를 주기적으로 업데이트 및/또는 재생성시킬 수도 있다. 제안/정제 서버 (24) 의 유사 단어 추출기 (24A), 확대/축소 표 생성기 (24B), 및 세션 파서 (24C) 는 각각 도 1b 내지 도 1d 을 참조하여 이하 상세하게 설명된다.
도 1b 는 유사 단어 추출기 (24A) 에 의해 유사성 매트릭스 (38) 를 생성시키기 위한 프로세스를 도시하는 블록도이다. 도시된 바와 같이, 유사 단어 추출기 (24A) 는 유사성 매트릭스 (38) 를 생성시키기 위해 다양한 데이터 소스를 이용할 수도 있다. 유사 단어 추출기 (24A) 에 의해 이용된 데이터 소스의 예는 웹 코퍼스 (30; 예를 들어, 뉴스, 웹 페이지, 및 앵커 (anchor) 텍스트 정보) 와 같은 코퍼스, 질의 및 질의 로그 (32) 에 저장된 것과 같은 관련 유저 선택, 및/또는 각각의 주어진 세션에 질의의 히스토리를 포함할 수도 있는 세션 데이터 (34) 를 포함한다. 또한, 웹 코퍼스 (30) 는 앵커 텍스트 정보를 포함할 수도 있다. 질의 로그 (32) 는 유저 질의의 로그만이 아니라 유저에 의해 이루어진 검색 결과 선택을 포함할 수도 있고, 또한, 유저가 예를 들어 검색 결과로 반환하기 전에 선택된 검색 결과에 머무른 기간도 포함할 수도 있다.
도 1c 는 확대/축소 표 생성기 (24B) 에 의해 확대/축소 표 (39) 를 생성시키기 위한 프로세스를 도시하는 블록도이다. 도시된 바와 같이, 확대/축소 표 생성기 (24B) 는 확대/축소 표 (39) 를 생성시키기 위한 데이터 소스로서 질의 로그 (32) 및/또는 세션 데이터 (34) 를 이용할 수도 있다. 도 1d 는 세션 파서 (24C) 에 의해 초기 변형/정제 캐시 (36a) 를 생성시키기 위한 프로세스를 도시하는 블록도이다. 도시된 바와 같이, 세션 파서 (24C) 는 초기 변형/정제 캐시 (36a) 를 생성시키기 위한 그 데이터 소스로서 세션 데이터 (34) 를 이용할 수도 있다.
도 2a 및 도 2b 는 제안/정제 서버 (24) 에 의해 수행될 수도 있는 예시적인 프로세스를 도시하는 플로우차트이다. 특히, 도 2a 는 도 1a 에 도시된 시스템 (20) 에 의해 구현될 수도 있는 변형/정제 유저 입력 캐시를 생성시키기 위한 예시적인 프로세스 (40) 를 도시하는 플로우차트이다. 블록 (41) 에서, 초기 변형/정제 캐시는 세션 파서를 사용하여 세션 데이터로부터 생성될 수 있다. 상술된 바와 같이, 세션 데이터는 질의 세션 또는 각각의 주어진 유저 입력의 질의 히스토리를 포함할 수도 있다. 다음으로, 프로세스 (40) 는, 블록 (42) 에서, 가장 공통적인 유저 입력, 예를 들어, 질의의 소정의 수의 각각에 대해 블록 (43 내지 48) 을 포함하는 루프로 진입한다. 특히, 블록 (43) 에서, 프로세스는 캐시의 제안된 변형/정제된 질의의 검색을 수행한다. 블록 (43) 에서의 검색은 제안 (1, 2,...M) 을 초래할 수도 있다.
변형/정제 캐시에서 각각의 유저 입력 또는 질의 엔트리는 제안된 질의의 소정의 수 N 의 목록을 포함한다. 따라서, 제안 M+1, M+2...N 을 생성시키기 위해, 즉, 각각의 질의에 대한 제안된 질의를 충족시키기 위해서는, 블록 (44 내지 47) 이 또한 수행될 수도 있다. 특히, 블록 (44 및 45) 에서, 부가적으로 제안된 변형/정제 (대안적인) 질의를 생성시키기 위해 확대된 질의 래티스가 (개념적으로) 구성될 수도 있다. 블록 (44) 은 용어 대체 질의 변형/정제 방법을 일반적으로 나타내고, 블록 (45) 는 확대/축소 질의 변형/정제 방법을 일반적으로 나타낸다. 구체적으로, 블록 (44) 에서, 확대된 질의 래티스는 유사 용어의 유사성 매트릭스를 사용하여 오리지널 질의 용어를 유사 용어로 대체함으로써 이루어질 수도 있다. 용어 대체는 유사 단어 또는 용어를 오리지널 질의의 단어 또는 (관용어를 포함하는) 용어로 대체한다. 유사 용어는 동의어 또는 근사 동의어 (예를 들어, 공동체와 이웃), 두문자어, 및/또는 동일한 구문/의미 카테고리 (예를 들어, Toyota 및 Honda, Dell 및 HP, DVD 및 디지털 카메라, 및 Nokia 및 Motorola) 를 포함할 수도 있다.
블록 (45) 에서, 확대된 질의 래티스는 복합어 쌍의 확대/축소 표를 이용하여 오리지널 질의의 용어를 추가/삭제함으로써 부가적으로 및/또는 대안적으로 구성할 수도 있다. 특히, 확대/축소 표의 각각의 엔트리는, 하나의 복합어가 대안적인 서브스트링인, 예를 들어, T1T2<=>T1T2T3, 및 T4T5T6<=>T4T5 인 복합어의 쌍이다. 중국어 복합어 쌍의 예는 상하이와 상하이 도시뿐만 아니라 텔레비전 및 텔레비전 세트를 포함한다. 복합어 쌍은 모호한 용어 및 그들의 명백한 콘텍스 트 (예를 들어, Amazon 및 Amazon rain forest 및/또는 Amazon.com), 개념 및 그 정의 (예를 들어, 셀과 스템 셀 및/또는 셀 폰), 용어와 그 속성 (예를 들어, 컴퓨터 및 메모리, 하드 디스크 드라이브, 및/또는 DVD 드라이브), 및 명칭 (예를 들어, 사람들, 회사 등의 명칭) 및 이들에 해당하는 액티비티, 직업, 제품 등 (예를 들어, 톰 행크스와 포레스트 검프와 같은 영화배우-영화, 애플사와 아이팟과 같은 회사-제품, 빌 게이츠와 마이크로소프트 또는 CEO 와 같은, 사람-회사 또는 직함, 저자-북, 가수-노래 등) 을 포함할 수도 있다.
확대된 질의 래티스가 다양한 대안적인 패스를 포함하도록 구성된 후, 확대된 질의 래티스에서의 소정의 수의 가장 좋은 질의에 대한 패스와 스코어는 블록 (46) 에서 잠재 제안된 질의로서 식별된다. 블록 (47) 에서, 오리지널 공통 유저 질의의 스코어가 컴퓨팅되어, 스코어가 적어도 오리지널 공통 유저 질의의 스코어인 잠재 제안된 질의만이 제안된 변형/정제된 질의로서 제공된다. 스코어는 유저에 의해 선택되거나 의도된 질의인 소정의 질의 (오리지널 또는 잠재 제안된 질의) 의 가능성을 나타낼 수도 있다. 스코어가 적어도 오리지널 공통 유저 질의의 스코어인 질의가 변형/정제 캐시에 제안 목록 엔트리를 채우기 위해 제안된 변형/정제된 질의로서 제공될 수 있다. 그 결과의 제안된 질의는 사전-컴퓨팅된 변형/정제 질의 캐시에 저장될 수도 있다. 프로세스 (40) 또는 루프가 블록 (42 내지 49) 을 포함한다는 것은 변형/정제 캐시를 업데이트하기 위해 주기적으로 반복될 수도 있다는 것을 나타낸다.
도 2b 는, 도 1a 에 도시된 시스템 (20) 에 의해 구현될 수도 있는 것과 같이, 유저 질의와 같은 제안된 변형/정제 유저 입력을 생성시키기 위한 예시적인 프로세스 (50) 를 도시하는 플로우차트이다. 블록 (51) 에서, 유저 질의와 같은 유저 입력이 수신된다. 판별 블록 (52) 에서, 블록 (51) 에서 수신된 오리지널 유저 입력은 부가적인 사전-컴퓨팅된 변형/정제 캐시의 엔트리와 비교될 수도 있다. 판별 블록 (52) 에서, 오리지널 유저 질의가 제안/정제 캐시에 있는 것으로 결정되면, 블록 (53) 에서, 사이즈 N 의 질의 제안 목록은 사전-컴퓨팅된 변형/정제 캐시로부터 N 사전-컴퓨팅된 질의 제안에 대해 적어도 부분적으로 채워진다. 판별 블록 (54) 에서, 제안 목록이 채워져 있다고 결정되면, 프로세스 (50) 는 종료된다. 제안 목록이 사전에 정의된 사이즈 N, 예를 들어, 10 개의 제안 또는 단일의 가장 좋은 제안일 수도 있다는 것이 명시된다. 이와 다르게, 판별 블록 (54) 에서, 제안 목록이 채워지지 않다고 결정되면, 다음으로, 프로세스 (50) 는 블록 (55 및 56) 으로 계속된다. 유사하게, 판별 블록 (52) 에서, 오리지널 유저 질의가 제안/정제 캐시 내에 있지 않다고 결정되면, 프로세스는 블록 (55 및 56) 으로 또한 계속된다. 블록 (55 내지 58) 은 도 2a 를 참조하여 설명된 것과 같이 블록 (44 내지 47) 과 유사하다는 것이 명시된다. 따라서, 유사한 내용에 대한 설명은 명백함을 목적으로 본 명세서에 반복되지 않는다.
블록 (55 및 56) 에서, 확대된 질의 래티스는 제안된 변형/정제된 (대안적인) 질의를 생성시키기 위해 (개념적으로) 구성된다. 확대된 질의 래티스가 다양한 대안적인 패스를 포함하도록 구성된 후, 확대된 질의 래티스의 가장 좋은 질의의 소정의 수에 대한 패스 및 스코어는 블록 (57) 에서의 잠재 제안된 질의로서 식별된다. 블록 (58) 에서, 오리지널 유저 질의의 스코어가 컴퓨팅되어, 스코어가 적어도 오리지널 유저 질의의 스코어인 잠재 제안된 질의만이 제안된 변형/정제된 질의로서 제공된다. 스코어가 적어도 오리지널 유저 질의의 스코어인 질의는 제안된 변형/정제된 질의로서 유저에게 제공되어 제안 목록 및 제안 목록의 나머지를 채울 수 있다. 도시되지 않았지만, 단일의 가장 좋은 질의가 이와 다르게 제공될 수도 있다. 또한, 오리지널 유저 질의 및 그 결과물인 제안된 질의는 사전-컴퓨팅된 변형/정제된 질의 캐시에 부가적으로 저장될 수도 있다.
제안된 변형/정제된 유저 입력을 생성시키기 위해 도 2a 및 도 2b 를 참조하여 상기 도시되고 설명된 것과 같은 프로세스 (40 및 50) 의 다양한 블록들은 이하 상세하게 설명된다.
도 3 은 예시적인 확대된 질의 래티스 도면을 도시한다. 도시된 바와 같이, 오리지널 질의는 다양한 핵심 단어 또는 용어 T1, T2, T3, T4 및 비-핵심 단어 또는 용어 s1, s2, s3 을 포함할 수도 있다. 예를 들어, 중국어 질의 "sina (중국의 포털 사이트) 의 URL" 에서, 핵심 용어 또는 엔티티는 "URL" 이기보다는 "sina" 이다. 일반적으로, 비-핵심 용어는 중지 단어를 또한 포함한다. 비-중지 단어는 일반적으로 예를 들어, 웹 코퍼스와 같은 코퍼스에서 30 개의 가장 자주 발생하는 중국어 단어 또는 100 개의 가장 자주 발생하는 영어 단어로서 정의될 수도 있다.
오리지널 질의의 핵심 엔티티가 식별된 후에, 하나 이상의 질의 변형 또는 정제 방법, 예를 들어, 용어 대체 및/또는 확대/축소가 확대된 질의 래티스를 구축하도록 적용될 수 있다. 전술된 바와 같이, 용어 대체는 핵심 엔티티 (core entity) 와 유사한 단어 및/또는 용어 (예를 들어, 동의어 또는 근사 동의어) 및 예를 들어, 유사성 매트릭스를 이용하여 식별될 수도 있는 단어 및/또는 용어의 대체를 지칭한다. 설명을 위해, 도 3 은 확대된 질의 래티스가 용어 T1 을 T1' 또는 T1'' 로 대체하고 및/또는 용어 T4 를 T4' 로 대체함으로써 구축될 수도 있다는 것을 설명한다.
전술한 바와 같이, 확대/축소는, 예를 들어, 복합어의 확대/축소 표를 이용하여 오리지널 질의로부터 핵심 엔티티의 일부를 삭제하거나 핵심 엔티티를 추가하는 것을 지칭한다. 설명을 위해, 복합어의 확대/축소 표는 복합어 T1T2 및 T1T2T5 의 쌍에 대한 표 엔트리를 포함할 수도 있어서, 도 3 의 오리지널 질의의 복합어 T1T2 는 복합어 T1T2T5 (즉, 신규 용어 T5 의 추가) 로 대체되어 확대된 질의 래티스상에 더 구축될 수도 있다. 유사하게, 복합어의 확대/축소 표는 복합어 T2T3T4 및 T3T4 의 쌍에 대한 표 엔트리를 포함할 수도 있어서, 도 3 의 오리지널 질의의 복합어 T2T3T4 는 복합어 T3T4 (즉, 핵심 엔티티 T2 의 삭제) 와 대체되어 확대된 질의 래티스상에 더 구축될 수도 있다.
유사 용어의 유사성 매트릭스를 생성시키기 위한 일 예시적인 방법이 도 4 내지 도 7 을 참조하여 상세하게 설명된다. 도 4 는 질의 용어의 대체로 인해 제안된 변형/정제된 질의를 생성하는데 이용하는 유사성 매트릭스를 구성하기 위한 예시적인 프로세스 (60) 를 도시하는 플로우차트이다. 유사성 매트릭스는 단어 또는 용어 w 의 각각의 쌍 사이의 분포 단어 유사성의 매트릭스일 수도 있다. 각각의 단어 w 에 대한 분포 단어 유사성은 코퍼스, 예를 들어, 웹 페이지에서의 각각의 단어 w 에 대한 피쳐 벡터를 구성하고, 각각의 피쳐 벡터 사이의 각도의 코사인으로서 단어의 각 쌍들 사이의 유사성을 결정함으로써 획득될 수도 있다. 단어 또는 용어의 피쳐는 단어 또는 용어의 모든 생성시에 주변 단어를 포함할 수도 있다.
피쳐 벡터와 유사성 매트릭스의 구성의 일 예가 도 4 를 참조하여 나타나고, 다양한 다른 피쳐 벡터와 유사성 매트릭스 구성 방법이 유사하게 사용될 수도 있다. 특히, 블록 (62) 에서, 피쳐 벡터에서의 각각의 피쳐 f 에 대한 카운트와 함께, 웹 코퍼스와 같은 코퍼스의 각각의 단어/용어 w 에 대한 피쳐 벡터가 구성된다. 단어/용어 w 의 피쳐는 제 1 비-중지 단어까지 단어/용어 w 이전 및 이후에 생성하는 단어를 포함할 수도 있다. 설명을 목적으로, "Because communities assess at different percentages of fair market value, the only way to compare tax rates among communities is by using equalized rates" 라는 문장이 주어지고, 단어 communities 의 피쳐 및 그 해당 공동-생성 카운트가 도 5 의 표에 리스트된다. 주어진 단어의 대안적인 형태, 예를 들어, "community" 및 "communities" 와 같은 단수와 복수 또는 "walk", "walking" 및 "walked" 와 같은 서로 대안적인 시제를 가지는 언어에서, 시스템은, 분리된 단어이지만 일반적으로 유사한 용어로서 단어의 상이한 형태를 처리할 수도 있다는 것이 명시된다. 주어진 단어의 상이한 형태의 이러한 처리는 통상적으로 예를 들어, 중국어의 경우에서와 같이 이러한 차이를 가지지 않는 언어에 대해서는 적절하지 않을 수도 있다. 또한, 접두사 "L:" 또는 "R:" 를 가지는 피쳐는 단어 w 의 좌측 또는 우측에 각각 나타나는 단어이다. 이 실시형태에서, 단어 w 의 주어진 순간의 각각의 좌측 및 우측의 하나 이상의 피쳐의 카운트의 합계는 1 이다. 예를 들어, 단어 "communities" 의 제 1 순간에, 좌측 및 우측 피쳐 각각은 카운트 1 이 할당된다. 또한, 단어 "communities" 에 인접하는 하나 이상의 중지 단어 예를 들어 "between", "is", 및 "by" 가 있을 때, 단어 "communities" 의 주어진 순간의 각 측에 대한 피쳐의 카운트는 동일하게 분할되고 이에 따라 조각으로서 컴퓨팅될 수 있다. 단어 "communities" 의 제 2 순간에서, 2 개의 좌측 피쳐가 있고, 각각의 좌측 피쳐는 카운트 0.5 가 할당된다. 유사하게, 단어 "communities" 의 제 2 순간에서, 2 개의 우측 피쳐가 있어서, 각각의 우측 피쳐는 0.33 의 카운트가 할당된다.
다시 도 4 를 참조하여, 블록 (64) 에서, 피쳐 벡터의 각각의 피쳐 f 의 값은 단어 w 와 피쳐 f 사이의 포인트-와이즈 상호 정보 MI 로서 결정될 수도 있다. 포인트-와이즈 상호 정보 MI 의 값이 이용되기 때문에, 예를 들어, 중지 단어와 같이 자주 생성하는 단어는 더욱 높은 카운트를 가지는 경향이 있고, 이러한 단어는 의미적으로 무의미한 단어이다. 따라서, 피쳐의 카운트가 피쳐의 중요성의 우수한 표시자가 아닐 수도 있기 때문에, 단어 w 와 피쳐 f 사이의 포인트-와이즈 상호 정보 MI (w, f) 가 피쳐 f 의 값으로서 이용될 수도 있다. 포인트-와이즈 상호 정보 MI (w, f) 는 w 와 f 의 관찰된 결합 확률 사이의 비율인, P(w,f), w 의 기대 확률인 P(w), f 의 기대확률인 P(f) 대수로서 정의될 수도 있고, 이들이 독립적인 경우에는,
Figure 112007087357517-pct00001
에서와 같이 동시에 생성할 수도 있는데, 피쳐 P(f) 와 단어 P(w) 의 확률 (예를 들어, 상대적인 빈도) 이 예를 들어 코퍼스의 그들의 각각의 확률을 이용하여 결정될 수도 있다. 예로서, 도 6 은 예시적인 피쳐 및 웹 포커스로부터 생성된 용어 "communities" 에 대한 해당 확률을 나열한 표이다. 도 6 에 도시된 피쳐 벡터 표는 단어 "communities" 의 피쳐의 서브세트 뿐만 아니라 피쳐와 단어 "communities" 사이의 상호 정보 및 확률을 리스팅한다. 피쳐 벡터는 공정하게 클 수 있다는 것이 명시된다. 예를 들어, 코퍼스로부터 추출된 단어 communities 의 피쳐의 풀 세트는 대략 2,000 엘리먼트를 포함한다.
도 4 를 다시 참조하여, 블록 (66) 에서, 2 개의 단어와 관용구 w1 및 w2 사이의 유사성 측정 또는 값 sim 은 피쳐 벡터의 피쳐의 값을 이용하여 이들의 피쳐 벡터 사이의 각도의 코사인으로서 결정될 수도 있다. 특히, 2 개의 용어 또는 단어 w1 및 w2 사이의 유사값 sim 은
Figure 112007087357517-pct00002
로서 정의될 수 있고, 여기서, w1 및 w2 의 피쳐 벡터는 각각 (f11, f12..., f1n) 및 (f21, f22..., f2n) 로 표현된다.
블록 (68) 에서, 유사성 매트릭스가 용어의 단어의 각 쌍에 대한 유사값으로부터 구성되고, 질의 용어를 유사 용어와 대체함으로써 제안된 변형/정제된 질의를 생성하는데 이용될 수도 있다. 특히, 유사값은 예를 들어 잠재 제안 질의에 대한 스코어를 결정하는데 이용될 수도 있다. 유사성 매트릭스는 주기적으로 재컴퓨팅될 수도 있고, 및/또는 용어, 예를 들어, 신규로 식별된 용어에 대한 유사값은 이 매트릭스에 추가될 수도 있다. 도 7 은 제안된 변형/정제된 질의를 생성시키기 위한 유사 용어를 대체하는데 이용될 수도 있는 예시적으로 유사성 매트릭스이다.
나타난 용어 대체 질의 변형/정제 방법에 적용되는 유사성 매트릭스를 생성시키기 위한 예시적인 방법, 확대/축소 질의 변형/정제 방법에 적용되는 복합어 쌍의 확대/축소 표를 생성시키기 위한 예시적인 방법이 이하 도 8 내지 도 11 을 참조하여 더욱 상세하게 설명된다. 도 8 은 복합어의 쌍의 추출/축소 표를 구성하기 위한 예시적인 프로세스 (70) 를 설명하는 플로우차트이다. 전술한 바와 같이, 확대/축소 표의 각각의 엔트리는 복합어 쌍이고, 하나의 복합어는 대안적인 하나의 서브스트링이며, 질의가 확대/축소 표의 엔트리에서 하나의 복합어 쌍인 복합어를 포함하는 경우에, 이 복합어는 래티스를 확대하는 복합어 쌍 엔트리의 다른 복합어에 의해 대체될 수도 있다. 이상적으로, 추출/축소 표의 각각의 복합어는 의미있는 관용어일 수도 있다. 예로서, 복합어 쌍은 Shanghai 와 Shanghai City 또는 television 과 television set 일 수도 있다. 전술한 바와 같이, 복합어 쌍은, 예를 들어, 모호한 용어와 그 명백한 콘텍스트 (예를 들어, Amazon 과 Amazon rain forest), 사람들의 이름과 그 해당 액티비티, 용어의 속성, 개념의 정제, 배우, 작가, 제품, 사람-위치 등을 포함할 수도 있다.
블록 (71) 에서, 질의 로그의 질의 (또는 유저 입력의 대안적인 데이터베이스) 는 그 질의에 대한 전반적인 확률을 최대화하는 단어 시퀀스로 세분화될 수도 있다. 특히, 중국어 단어는 스페이스 또는 그 외 브레이크로 명백하게 묘사될 필요가 없기 때문에, 질의는 브레이크를 갖지 않은 중국어 문자의 스트링일 수도 있고, 분절이 문자의 시퀀스를 단어의 시퀀스로 분할하도록 이용될 수도 있다. 단어의 시퀀스는, 단어의 확률의 제품이 문자의 시퀀스의 모든 가능한 분할들 중에서 최대가 될 수도 있다. 명백하게, 블록 (71) 은 인접하는 단어들 사이의 묘사가 있는 영어와 같은 특정 언어에 대해서는 수행할 필요가 없다.
복합어/관용어를 식별하기 위해, 빈도수가 높은 단어 시퀀스 또는 n-그램 (n 시퀀스의 시퀀스) 가 블록 (72) 에서 식별된다. 블록 (72) 에서, 단어 시퀀스에서 단어의 모든 인접하는 쌍이 빈도수가 높은 n-그램인 단어 시퀀스의 카운트는 임의의 길이의 빈도수가 높은 단어 시퀀스를 식별하도록 구성된다. 빈도수가 높은 단어 시퀀스는 복합어일 수도 있고 복합어가 아닐 수도 있다는 것이 명시된다. 예를 들어, 빈도수가 높은 단어 시퀀스의 일부가 복합어이고, 다른 시퀀스들은 비-관용어 또는 비-복합어 시퀀스일 수도 있다.
블록 (73) 에서, 비-관용어 시퀀스는 (동일한 질의일 필요는 없는) 질의의 최소수의 시작뿐만 아니라 종료시에 나타나도록 복합어/관용어를 요구함으로써 식별된다. 질의의 최소수는 1 이상의 임의의 수일 수도 있지만, 통상적으로 1 보다 훨씬 큰, 예를 들어, 50 또는 100 이다.
블록 (74) 에서, 웹 코퍼스와 같은 코퍼스에서 각각의 n-그램에 대한 피쳐 벡터는 피쳐 벡터의 각각의 피쳐 f 에 대한 카운트와 함께 구성된다. 블록 (75) 에서, 피쳐 벡터의 각각의 피쳐 f 의 값은 n-그램과 피쳐 f 사이의 포인트-와이즈 상호 정보 MI 로서 결정될 수도 있다. 블록 (76) 에서, 2 개의 n-그램 사이의 유사성 측정 또는 값 sim 은 피쳐 벡터에서 피쳐의 값을 사용하여 그 피쳐 벡터들 사이의 값의 코사인으로서 결정될 수도 있다. 도 4 를 참조하여 전술된 바와 같이, 블록 (74, 75 및 76) 은 프로세스 (60) 의 각각의 블록 (62, 64 및 66) 과 유사하다는 것이 명시된다. 따라서, 유사한 내용에 대한 설명은 명료성을 위해 반복되지 않는다.
그 후, 확대/축소 표는 복합어 쌍으로서 구성될 수도 있고, 여기서 일 복합어는 블록 (77) 에서 다른 복합어의 서브스트링이다. 또한, 복합어의 카운트는 확대/축소 표에서 결정되고 저장될 수 있다.
도 9 는 제안된 변형/정제 질의를 생성시키기 위해 질의에서 복합어를 대체하는데 이용되는 확대/축소 표의 몇몇 예시적인 엔트리를 설명하는 표이다. 도시된 바와 같이, 확대/축소 표의 각각의 로우는 2 개의 복합어 또는, 하나의 복합어가 다른 복합어의 서브스트링인 단어 시퀀스를 포함한다. 또한, 각각의 복합어는, 예를 들어, 질의 로그 또는 몇몇 대안적인 유저 입력 데이터베이스로부터 결정될 수도 있는 카운트 (또는 대안적인 빈도값) 와 조합된다. 카운트는 데이터베이스의 크기를 감소시키기 위해 컷-오프로서 이용될 수도 있고 및/또는 예를 들어, 로그 (카운트) 를 이용함으로써, 용어 또는 복합어에 대한 비중을 결정하기 위해 적어도 일부에서 이용될 수도 있다. 도 2a 및 도 2b 를 참조하여 전술된 바와 같이, 질의 래티스가 용어를 대체함으로써 및 또는 오리지널 질의에 용어를 추가/삭제함으로써 확대되고, N 가장 적절한 질의의 패스 및 스코어는 잠재 제안된 질의로서 확대된 래티스로부터 결정된다. 도 10 은, 예를 들어, 확대된 질의 래티스에서의 패스와 같은 제안된 변형/정제된 질의의 스코어를 결정하기 위한 예시적인 프로세스 (80) 를 도시하는 플로우차트이다.
질의 제안의 결정은 현재 질의 세션에서 사전의 질의에 기초하여 예측 문제로서 처리될 수 있다. 현재 검색 세션에서 질의의 히스토리 Q1, Q2,..., Qn-1 가 주어지면, 유저가 어떤 다음 질의 Qn 를 선택할 가능성이 가장 높은지에 대한 예측이 이루어질 수도 있다. 제안된 또는 예측된 다음 질의 Qn 는 현재 세션의 질의 질의의 히스토리 Q1, Q2,..., Qn-1 에 관련되어야할 뿐만 아니라 우수한 검색 결과를 산출해야만 한다. 검색 결과가 얼마나 우수한지를 측정하는 방법은, 예를 들어, 클릭 위치 (유저가 선택하는 검색 결과의 위치) 및 클릭 기간 (얼마나 오래 유저가 선택된 검색 결과 페이지에서 머무르는지의 기간) 의 함수일 수도 있다.
일 실시형태에서, 각각의 잠재 제안된 질의에 대한 스코어는 오브젝트 함수 F 의 값으로서 결정될 수 있는데,
F(Q, Q1,..., Qn -1)=Rel(Q, Q1,..., Qn -1)*Click(Q)*Position(Q) 이고;
여기서, Rel(Q, Q1,..., Qn -1) 는 질의의 히스토리 Q, Q1,..., Qn -1 와 후보 제안된 질의 Q 사이의 관련성이고;
Click(Q) 는, 후보 제안된 질의 Q 가 유저에 의해 선택될 확률이고; 및
Position(Q) 는 클릭될 질의 Q 가 제안된 캔디데이트에 대한 검색 결과의 위치이다.
도 2 를 참조하여 전술한 바와 같이, 하나 이상의 제안된 또는 예측된 다음 질의 Q 가 유저에게 제공될 수 있다. 따라서, 가장 적절한 N 제안 다음 질의 (예를 들어, 확대된 질의 래티스에서의 패스) 는 가장 높은 오브젝트 함수값을 가지는 N 질의이고, 가장 적절하게 (예를 들어, 가장 가능성이 높게) 제안된 다음 질의는 오브젝트 함수 F:
Qn=ArgMax_Q{F(Q, Q1,...,Qn -1)}
의 값을 최대화하는 질의로서 표현될 수 있다.
각각의 잠재 제안된 또는 예측된 다음 질의 Q (90) 에 대한 스코어의 결정은 도 10 의 플로우차트에 도시된다. 블록 (82) 에서, 예측된 질의 Q 와 현재 세션의 유저 질의의 히스토리 Q1,...,Qn-1 사이의 관련성 Rel (Q, Q1,...,Qn-1) 이 질의의 정렬된 용어의 상관관계를 이용하여 결정된다. 특히, 관련성 함수 Rel 을 추정하기 위해, 오리지널 질의 Q 의 용어 또는 핵심 엔티티가 식별된다. 핵심 엔티티 사이의 상관관계를 이용하여, 2 개의 질의 Q 와 Q' 사이의 관련성 Rel (Q, Q') 은 그 핵심 엔티티의 상광관계로부터 유래될 수 있다. 특히, 관련성 Rel (Q, Q') 은:
Rel(Q, Q')=Max_fProd_{i=1}^kCor(Ti,Ti')*w(Ti)
로서 표현될 수 있고, 여기서:
정렬 함수 f=f(T1, T2,...Tk, T1', T2',...,Tk') 는, 관련 질의 Q 와 Q' 의 용어를 매핑하고, 예를 들어, {T1,...Tk, e} 와 {T1',...,Tk'} 사이의 매핑, 도 11 에 도시된 일 예는;
Cor(Ti, Ti') 는 용어 Ti, Ti' 사이의 상관관계이고, 실제 수의 벡터이며;
Q=T1, T2,...Tk (임의의 용어 T1 가 무의미한 용어 (empty term) e 일 수도 있는 질의 Q 의 핵심 엔티티);
Q'=T1', T2',...,Tk' (임의의 용어 Ti' 가 엠티 용어 e 일 수도 있는 질의 Q' 의 핵심 엔티티); 및
w(Ti) 는 용어 Ti 의 중요성, 예를 들어, Ti 에 대한 TF/IDF 이고, 여기서 TF 는 용어 출현 빈도 (용어의 카운트) 를 나타내고, IDF 는 전환된 도큐먼트 빈도를 나타낸다.
다음으로, 블록 (84) 에서, 질의 Q 가 유저에 의해 선택될 확률, Click(Q) 이 예를 들어, 클릭 기간 또는 표준화된 클릭 기간으로부터 결정된다. 블록 (86) 에서, 예측된 질의 Q 에 대한 위치 스코어, Position(Q) 은 예를 들어, 클릭 위치, 표준화된 클릭 위치, 또는 전환된 클릭 위치로부터 결정된다. 마지막으로, 블록 (88) 에서, 잠재 제안된 또는 예측된 다음 질의 Q 에 대한 오브젝트 함수 F 의 값은 전술한 바와 같이 블록 (82, 84, 및 86) 의 결과로부터 결정된다.
2 개의 질의 사이의 관련성을 결정하는데 이용된 상관값 Cor(Ti, Ti') 의 결정은 도 12 를 참조하여 더욱 상세하게 설명된다. 특히, 도 12 는 용어의 쌍 또는 코어 엔티티 T, T' 사이의 상관값을 생성시키기 위한 예시적인 프로세스 (90) 를 설명하는 플로우차트이다. 블록 (92) 에서, 신규의 코어 엔티티는 상호 정보를 이용하여 코퍼스, 예를 들어, 웹 페이지 및 유저 질의로부터 식별될 수도 있다. 블록 (92) 의 일 도시적인 구현에서, Motorola 가 엔티티이고, "Motorola announced", "Motorola cell phone", 및 "buy Motorola" 뿐만 아니라 "Nokia announced", "Nokia cell phone" 및 "buy Nokia" 가 코퍼스 내에 있으면, 다음으로, Nokia 도 또한 엔티티로서 식별된다. 오프-더-쉘프 사전이 종래의 핵심 엔티티를 제공할 수 있지만, 수많은 신규의 핵심 엔티티가 어휘에 종종 소개된다는 것이 명시된다. 신규의 핵심 엔티티의 예는 적절한 명칭, 예를 들어, 사람들 및 회사 명칭, 제품 모델, 영화 및 음악 제목 등과 같은 다양한 다른 신규의 단어 및 관용어를 포함한다.
블록 (94) 에서, 핵심 엔티티 T, T' 쌍 사이의 상관값은 예를 들어, 질의 로그, 웹 페이지 및 앵커 텍스트를 이용하여 결정될 수 있다. 2 개의 코어 엔티티 T1 및 T2 사이의 상관관계는 실수의 벡터의 함수로서 정의될 수도 있다:
Cor(T1, T2)=f(w1, w2,...,wn)
여기서, w1, w2,...,wn 는 특정의 사전-결정된 관계의 비중이다. 사전-결정된 관계의 예는 (1) 동의어, 두문자어 및 반의어, (2) Shanghai 대 Shanghai City, television 대 television machine 와 같은 복합 관용어, (3) 예를 들어, Toyota 와 Honda 와 같은 동일한 구문/의미 카테고리의 용어, (4) 모호한 용어와 그의 명백한 콘텍스트, (5) 예를 들어, Oprah 와 토크 쇼 호스트와 같은 사람 이름과 그 해당 활동, (6) 예를 들어, 컴퓨터와 메모리와 같은 용어의 속성, (7) 예를 들어, Amazon 과 Amazon River, Amazon Rain Forrest, 및 Amazon.com 과 같은 개념의 정제, (8) 예를 들어, 톰 행크스와 포레스트 검프 및 빌 게이츠와 CEO 와 같은 영화 배우, 책-저자, 회사-제품, 개인-위치 등을 포함한다.
블록 (96) 에서, 상관 벡터 Cor(T1, T2) 의 값은 [0-1] 로 표준화될 수도 있다.
변형된 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 유저가 선택할 가능성이 높은 상위 결과를 생성하고 및/또는 유저가 이용할 가능성이 높은 질의를 제안할 수 있다. 이 시스템 및 방법은 2 개의 질의 사이에서 상관관계를 양에 대해 측정한다. 명백하게, 2 개의 질의가 임의의 공통 용어 또는 동의어를 가질 필요는 없다. 예를 들어, 노래 "Now and Forever" 의 mp3 파일에 대한 "Now and Forever' mp3" 의 오리지널 질의 (예를 들어, 중국어로) 는 예를 들 어, 동일한 아티스트에 의한 다른 노래 또는 앨범뿐만 아니라 "CoCoLee" (이 노래의 가수) 를 포함할 수도 있다. 따라서, 제안된 질의는, 단순히 오리지널 질의의 확장이 아닐 수도 있지만, 예를 들어, 유저가 선택할 가능성이 있는 검색 결과와 같은 더 나은 검색 결과를 가지는 질의일 수도 있다. 일 예에서, 제안된 질의는 오리지널 질의가 짧고 모호한 질의 센스 명확성을 달성하는 질의를 포함할 수도 있다. 다른 예로서, 제안된 질의는, 오리지널 질의가 길 수도 있고 및/또는 상호배타적인 용어를 포함할 수도 있는 더욱 짧은 질의로 오리지널 질의를 분리하는 질의를 포함할 수도 있다.
본 발명의 예시적인 실시형태가 본 명세서에 설명되고 도시되며, 이들은 설명을 위한 것이며 본 발명의 취지 및 범위를 벗어나지 않고 변형이 이루어질 수 있다는 것이 명시된다. 따라서, 본 발명의 범위는 수정될 수도 있고, 본 발명의 실시형태로서 구체적인 실시형태의 설명으로 통합되는 각각의 특허청구범위를 가지는 이하의 특허청구범위의 용어로만 정의되도록 의도록 의도된다.

Claims (29)

  1. 컴퓨터로 구현되는 방법으로서,
    오리지널 질의를 수신하는 단계;
    상기 오리지널 질의에서의 제 1 용어에 대한 제 1 피쳐 벡터를 생성하는 단계;
    용어들의 컬렉션에서의 하나 이상의 상이한 용어들 각각에 대한 각각의 피쳐 벡터를 생성하는 단계;
    상기 하나 이상의 상이한 용어들 각각과 각각의 유사성 값을 연관시키는 단계로서, 상기 유사성 값은 상기 제 1 용어에 대한 상기 제 1 피쳐 벡터와 상기 하나 이상의 상이한 용어들 각각에 대한 각각의 피쳐 벡터 사이의 유사성 측정에 적어도 부분적으로 기초하는, 상기 각각의 유사성 값을 연관시키는 단계;
    상기 하나 이상의 상이한 용어들 각각과 연관된 상기 각각의 유사성 값에 기초하여 상기 하나 이상의 상이한 용어들로부터 하나 이상의 유사한 용어들을 식별하는 단계;
    각각의 식별된 유사한 용어로 상기 오리지널 질의에서의 상기 제 1 용어를 대체함으로써 식별된 상기 하나 이상의 유사한 용어들 각각에 대한 대안적인 질의를 생성하는 단계;
    각각의 상기 대안적인 질의 내에서, 식별된 유사한 용어와 연관된 상기 유사성 값에 기초하여 각각의 대안적인 질의에 대한 스코어를 컴퓨팅하는 단계; 및
    각각의 대안적인 질의에 대하여 컴퓨팅된 상기 스코어에 적어도 부분적으로 기초하여 상기 오리지널 질의에 대한 질의 제안으로서 하나 이상의 상기 대안적인 질의들을 식별하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  2. 제 1 항에 있어서,
    상기 오리지널 질의는 검색 질의인, 컴퓨터로 구현되는 방법.
  3. 제 1 항에 있어서,
    상기 오리지널 질의는 비-로마계 언어인, 컴퓨터로 구현되는 방법.
  4. 제 1 항에 있어서,
    상기 오리지널 질의 및 상기 하나 이상의 대안적인 질의들을 캐시 내에 저장하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
  5. 제 1 항에 있어서,
    상기 유사성 측정들은 유사성 매트릭스 내에 저장되고,
    상기 유사성 매트릭스는, 코퍼스 (corpus), 유저 입력 로그, 및 유저 세션 데이터 중 적어도 하나에서의 용어들의 컬렉션에서의 각각의 용어들에 대한 피쳐 벡터들을 생성하고, 대응하는 피쳐 벡터들을 이용하여 상기 용어들의 컬렉션에서의 상기 용어들의 쌍들 간의 각각의 유사성 측정을 결정함으로써 생성되는, 컴퓨터로 구현되는 방법.
  6. 제 1 항에 있어서,
    상기 스코어는, (a) 상기 오리지널 질의와 제 1 대안적인 질의 간의 관련성, (b) 상기 제 1 대안적인 질의가 선택될 확률, 또는 (c) 상기 제 1 대안적인 질의에 대한 선택된 검색 결과의 위치의 스코어 중 적어도 하나를 결정하는 단계에 의해 계산되는, 컴퓨터로 구현되는 방법.
  7. 제 6 항에 있어서,
    상기 결정하는 단계는 상기 오리지널 질의와 상기 제 1 대안적인 질의 간의 상기 관련성을 결정하는 단계를 포함하고,
    상기 관련성을 결정하는 단계는,
    상기 제 1 대안적인 질의의 용어들과 상기 오리지널 질의의 용어들을 정렬하는 단계; 및
    상기 정렬된 용어들 간의 상관값들을 결정하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  8. 오리지널 질의를 수신하고, 동작들을 수행하도록 구성된 서버 디바이스를 포함하는 시스템으로서,
    상기 동작들은,
    상기 오리지널 질의에서의 제 1 용어에 대한 제 1 피쳐 벡터를 생성하는 것;
    용어들의 컬렉션에서의 하나 이상의 상이한 용어들 각각에 대하여 각각의 피쳐 벡터를 생성하는 것;
    상기 하나 이상의 상이한 용어들 각각과 각각의 유사성 값을 연관시키는 것으로서, 상기 유사성 값은 상기 제 1 용어에 대한 상기 제 1 피쳐 벡터와 상기 하나 이상의 상이한 용어들 각각에 대한 각각의 피쳐 벡터 사이의 유사성 측정에 적어도 부분적으로 기초하는, 상기 각각의 유사성 값을 연관시키는 것;
    상기 하나 이상의 상이한 용어들 각각과 연관된 상기 각각의 유사성 값에 기초하여 상기 하나 이상의 상이한 용어들로부터 하나 이상의 유사한 용어들을 식별하는 것;
    각각의 식별된 유사한 용어로 상기 오리지널 질의에서의 상기 제 1 용어를 대체함으로써 식별된 상기 하나 이상의 유사한 용어들 각각에 대한 대안적인 질의를 생성하는 것;
    각각의 상기 대안적인 질의 내에서, 식별된 유사한 용어와 연관된 상기 유사성 값에 기초하여 각각의 대안적인 질의에 대한 스코어를 컴퓨팅하는 것; 및
    각각의 대안적인 질의에 대하여 컴퓨팅된 상기 스코어에 적어도 부분적으로 기초하여 상기 오리지널 질의에 대한 질의 제안으로서 하나 이상의 상기 대안적인 질의들을 식별하는 것을 포함하는, 시스템.
  9. 제 8 항에 있어서,
    상기 오리지널 질의는 검색 질의인, 시스템.
  10. 제 8 항에 있어서,
    상기 오리지널 질의는 비-로마계 언어인, 시스템.
  11. 제 8 항에 있어서,
    상기 하나 이상의 대안적인 질의들의 사전-컴퓨팅된 캐시를 더 포함하고,
    상기 서버 디바이스는,
    상기 오리지널 질의가 상기 사전-컴퓨팅된 캐시 내에 있는지 여부를 결정하고, 상기 오리지널 질의가 상기 사전-컴퓨팅된 캐시 내에 있다고 결정되는 경우, 적어도 하나의 사전-컴퓨팅된 대안적인 질의를 출력하도록 또한 구성되는, 시스템.
  12. 제 8 항에 있어서,
    상기 유사성 측정들은 유사성 매트릭스 내에 저장되고,
    상기 서버 디바이스는, 코퍼스 (corpus), 유저 입력 로그, 및 유저 세션 데이터 중 적어도 하나에서의 용어들의 컬렉션에서의 각각의 용어들에 대한 피쳐 벡터들을 생성하고, 대응하는 피쳐 벡터들을 이용하여 상기 용어들의 컬렉션에서의 상기 용어들의 쌍들 간의 각각의 유사성 측정을 결정함으로써 상기 유사성 매트릭스를 생성하도록 또한 구성되는, 시스템.
  13. 제 8 항에 있어서,
    상기 서버 디바이스는, (a) 상기 오리지널 질의와 제 1 대안적인 질의 간의 관련성, (b) 상기 제 1 대안적인 질의가 선택될 확률, 또는 (c) 상기 제 1 대안적인 질의에 대한 선택된 검색 결과의 위치의 스코어 중 적어도 하나를 결정함으로써 상기 스코어를 컴퓨팅하도록 또한 구성되는, 시스템.
  14. 제 13 항에 있어서,
    상기 서버 디바이스는, 상기 오리지널 질의와 상기 제 1 대안적인 질의 간의 상기 관련성을 결정하도록 또한 구성되고,
    상기 관련성을 결정하는 것은,
    상기 제 1 대안적인 질의의 용어들과 상기 오리지널 질의의 용어들을 정렬하는 것; 및
    상기 정렬된 용어들 간의 상관값들을 결정하는 것을 포함하는, 시스템.
  15. 컴퓨터 시스템과 관련되어 이용되는 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 판독가능 저장 매체는 컴퓨터 프로세서상에서 실행가능한 명령들을 저장하고,
    상기 명령들은,
    오리지널 질의를 수신하는 명령;
    상기 오리지널 질의에서의 제 1 용어에 대한 각각의 벡터를 생성하는 명령;
    용어들의 컬렉션에서의 하나 이상의 상이한 용어들 각각에 대한 제 1 피쳐 벡터를 생성하는 명령;
    상기 하나 이상의 상이한 용어들 각각과 각각의 유사성 값을 연관시키는 명령으로서, 상기 유사성 값은 상기 제 1 용어에 대한 상기 제 1 피쳐 벡터와 상기 하나 이상의 상이한 용어들 각각에 대한 각각의 피쳐 벡터 사이의 유사성 측정에 적어도 부분적으로 기초하는, 상기 각각의 유사성 값을 연관시키는 명령;
    상기 하나 이상의 상이한 용어들 각각과 연관된 상기 각각의 유사성 값에 기초하여 상기 하나 이상의 상이한 용어들로부터 하나 이상의 유사한 용어들을 식별하는 명령;
    각각의 식별된 유사한 용어로 상기 오리지널 질의에서의 상기 제 1 용어를 대체함으로써 식별된 상기 하나 이상의 유사한 용어들 각각에 대하여 대안적인 질의를 생성하는 명령;
    각각의 상기 대안적인 질의 내에서, 식별된 유사한 용어와 연관된 상기 유사성 값에 기초하여 각각의 대안적인 질의에 대한 스코어를 컴퓨팅하는 명령; 및
    각각의 대안적인 질의에 대하여 컴퓨팅된 상기 스코어에 적어도 부분적으로 기초하여 상기 오리지널 질의에 대한 질의 제안으로서 하나 이상의 상기 대안적인 질의들을 식별하는 명령을 포함하는, 컴퓨터 판독가능 저장 매체.
  16. 제 15 항에 있어서,
    상기 명령들은,
    상기 오리지널 질의 및 각각의 상기 하나 이상의 대안적인 질의들을 캐시 내에 저장하는 명령을 더 포함하는, 컴퓨터 판독가능 저장 매체.
  17. 제 15 항에 있어서,
    상기 유사성 측정들은 유사성 매트릭스 내에 저장되고,
    상기 유사성 매트릭스는, 코퍼스 (corpus), 유저 입력 로그, 및 유저 세션 데이터 중 적어도 하나에서의 용어들의 컬렉션에서의 각각의 용어들에 대한 피쳐 벡터들을 생성하고, 대응하는 피쳐 벡터들을 이용하여 상기 용어들의 컬렉션에서의 상기 용어들의 쌍들 간의 각각의 유사성 측정을 결정함으로써 생성되는, 컴퓨터 판독가능 저장 매체.
  18. 제 15 항에 있어서,
    상기 스코어는, (a) 상기 오리지널 질의와 제 1 대안적인 질의 간의 관련성, (b) 상기 제 1 대안적인 질의가 선택될 확률, 또는 (c) 상기 제 1 대안적인 질의에 대한 선택된 검색 결과의 위치의 스코어 중 적어도 하나를 결정함으로써 계산되는, 컴퓨터 판독가능 저장 매체.
  19. 제 18 항에 있어서,
    상기 명령들은 상기 오리지널 질의와 상기 제 1 대안적인 질의 간의 상기 관련성을 결정하는 명령을 포함하고,
    상기 관련성을 결정하는 명령은,
    상기 제 1 대안적인 질의의 용어들과 상기 오리지널 질의의 용어들을 정렬하는 명령; 및
    상기 정렬된 용어들 간의 상관값들을 결정하는 명령을 포함하는, 컴퓨터 판독가능 저장 매체.
  20. 컴퓨터로 구현되는 방법으로서,
    오리지널 질의를 수신하는 단계;
    상기 오리지널 질의에서의 하나 이상의 용어들의 제 1 시퀀스를 포함하는 제 1 복합어를 식별하는 단계;
    하나 이상의 용어들의 상이한 제 2 시퀀스를 포함하는 제 2 복합어를 식별하는 단계로서, 상기 제 2 복합어는 상기 제 1 복합어의 확대 또는 축소인, 상기 제 2 복합어를 식별하는 단계;
    상기 제 1 복합어의 확대 또는 축소로서 식별된 상기 제 2 복합어로 상기 오리지널 질의에서의 상기 제 1 복합어를 대체함으로써 대안적인 질의를 생성하는 단계;
    상기 대안적인 질의와 하나 이상의 미리 수신된 질의들의 히스토리 사이의 관련성에 적어도 부분적으로 기초하여 상기 대안적인 질의에 대한 스코어를 컴퓨팅하는 단계; 및
    상기 대안적인 질의에 대하여 컴퓨팅된 상기 스코어에 적어도 부분적으로 기초하여 상기 오리지널 질의에 대한 질의 제안으로서 상기 대안적인 질의를 식별하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  21. 제 20 항에 있어서,
    상기 제 1 복합어 및 상기 제 2 복합어는 유저 입력 로그 및 유저 입력 데이터베이스 중 적어도 하나로부터 생성된 확대/축소 표 내에 저장되고,
    상기 확대/축소 표는 단어들의 시퀀스들의 발생들을 나타내는 빈도 값들을 포함하는, 컴퓨터로 구현되는 방법.
  22. 제 21 항에 있어서,
    상기 확대/축소 표는 빈번한 단어 시퀀스들을 결정하고, 비-관용구 (non-phrasal) 단어 시퀀스들을 필터링하며, 상기 빈도 값들로서 용어들의 시퀀스들과 카운트들을 연관시킴으로써 생성되는, 컴퓨터로 구현되는 방법.
  23. 컴퓨터 시스템과 관련되어 이용되는 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 판독가능 저장 매체는 컴퓨터 프로세서상에서 실행가능한 명령들을 저장하고,
    상기 명령들은,
    오리지널 질의를 수신하는 명령;
    상기 오리지널 질의에서의 하나 이상의 용어들을 포함하는 제 1 복합어를 식별하는 명령;
    하나 이상의 용어들의 상이한 제 2 시퀀스를 포함하는 제 2 복합어를 식별하는 명령으로서, 상기 제 2 복합어는 상기 제 1 복합어의 확대 또는 축소인, 상기 제 2 복합어를 식별하는 명령;
    상기 제 1 복합어의 확대 또는 축소로서 식별된 상기 제 2 복합어로 상기 오리지널 질의에서의 상기 제 1 복합어를 대체함으로써 대안적인 질의를 생성하는 명령;
    상기 대안적인 질의와 하나 이상의 미리 수신된 질의들의 히스토리 사이의 관련성에 적어도 부분적으로 기초하여 상기 대안적인 질의에 대한 스코어를 컴퓨팅하는 명령; 및
    상기 대안적인 질의에 대하여 컴퓨팅된 상기 스코어에 적어도 부분적으로 기초하여 상기 오리지널 질의에 대한 질의 제안으로서 상기 대안적인 질의를 식별하는 명령을 포함하는, 컴퓨터 판독가능 저장 매체.
  24. 오리지널 질의를 수신하고, 동작들을 수행하도록 구성된 서버를 포함하는 시스템으로서,
    상기 동작들은,
    상기 오리지널 질의에서의 하나 이상의 용어들의 제 1 시퀀스를 포함하는 제 1 복합어를 식별하는 것;
    하나 이상의 용어들의 상이한 제 2 시퀀스를 포함하는 제 2 복합어를 식별하는 것으로서, 상기 제 2 복합어는 상기 제 1 복합어의 확대 또는 축소인, 상기 제 2 복합어를 식별하는 것;
    상기 제 1 복합어의 확대 또는 축소로서 식별된 상기 제 2 복합어로 상기 오리지널 질의에서의 상기 제 1 복합어를 대체함으로써 대안적인 질의를 생성하는 것;
    상기 대안적인 질의와 하나 이상의 미리 수신된 질의들의 히스토리 사이의 관련성에 적어도 부분적으로 기초하여 상기 대안적인 질의에 대한 스코어를 컴퓨팅하는 것; 및
    상기 대안적인 질의에 대하여 컴퓨팅된 상기 스코어에 적어도 부분적으로 기초하여 상기 오리지널 질의에 대한 질의 제안으로서 상기 대안적인 질의를 식별하는 것을 포함하는, 시스템.
  25. 제 24 항에 있어서,
    상기 제 1 복합어 및 상기 제 2 복합어는 유저 입력 로그 및 유저 입력 데이터베이스 중 적어로 하나로부터 생성된 확대/축소 표 내에 저장되고,
    상기 확대/축소 표는 단어들의 시퀀스들의 발생들을 나타내는 빈도 값들을 포함하는, 시스템.
  26. 제 25 항에 있어서,
    상기 확대/축소 표는 빈번한 단어 시퀀스들을 결정하고, 비-관용구 (non-phrasal) 단어 시퀀스들을 필터링하며, 상기 빈도 값들로서 용어들의 시퀀스들과 카운트들을 연관시킴으로써 생성되는, 시스템.
  27. 제 23 항에 있어서,
    상기 제 1 복합어 및 상기 제 2 복합어는 유저 입력 로그 및 유저 입력 데이터베이스 중 적어도 하나로부터 생성된 확대/축소 표 내에 저장되고,
    상기 확대/축소 표는 단어들의 시퀀스들의 발생들을 나타내는 빈도 값들을 포함하는, 컴퓨터 판독가능 저장 매체.
  28. 제 27 항에 있어서,
    상기 확대/축소 표는 빈번한 단어 시퀀스들을 결정하고, 비-관용구 (non-phrasal) 단어 시퀀스들을 필터링하며, 상기 빈도 값들로서 용어들의 시퀀스들과 카운트들을 연관시킴으로써 생성되는, 컴퓨터 판독가능 저장 매체.
  29. 삭제
KR1020077028339A 2005-05-04 2006-05-04 오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제 KR101389148B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/122,873 2005-05-04
US11/122,873 US8438142B2 (en) 2005-05-04 2005-05-04 Suggesting and refining user input based on original user input
PCT/US2006/016787 WO2006121702A1 (en) 2005-05-04 2006-05-04 Suggesting and refining user input based on original user input

Publications (2)

Publication Number Publication Date
KR20080008400A KR20080008400A (ko) 2008-01-23
KR101389148B1 true KR101389148B1 (ko) 2014-04-24

Family

ID=36781555

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077028339A KR101389148B1 (ko) 2005-05-04 2006-05-04 오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제

Country Status (6)

Country Link
US (3) US8438142B2 (ko)
EP (1) EP1877939A1 (ko)
JP (1) JP5203934B2 (ko)
KR (1) KR101389148B1 (ko)
CN (2) CN102945237B (ko)
WO (1) WO2006121702A1 (ko)

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US8612208B2 (en) 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US8082264B2 (en) * 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US7747601B2 (en) 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US7865495B1 (en) * 2004-10-06 2011-01-04 Shopzilla, Inc. Word deletion for searches
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7647312B2 (en) * 2005-05-12 2010-01-12 Microsoft Corporation System and method for automatic generation of suggested inline search terms
US7634462B2 (en) * 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
US7752220B2 (en) * 2005-08-10 2010-07-06 Yahoo! Inc. Alternative search query processing in a term bidding system
US8290810B2 (en) 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US8195133B2 (en) 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US9076175B2 (en) 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US7860871B2 (en) 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US8156128B2 (en) 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US8311888B2 (en) 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
US8615719B2 (en) 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US8364521B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US8666376B2 (en) 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US10592930B2 (en) 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US8660891B2 (en) 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US9471925B2 (en) 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US10038756B2 (en) 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US8532633B2 (en) 2005-09-14 2013-09-10 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US20070198485A1 (en) * 2005-09-14 2007-08-23 Jorey Ramer Mobile search service discovery
US7769764B2 (en) 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
US9201979B2 (en) 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US8027879B2 (en) 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US8131271B2 (en) 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US9058406B2 (en) 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US8989718B2 (en) 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US8503995B2 (en) 2005-09-14 2013-08-06 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US8364540B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US8903810B2 (en) 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US20080126079A1 (en) * 2006-01-20 2008-05-29 Research In Motion Limited Handheld electronic device with automatic text generation
US7676460B2 (en) * 2006-03-03 2010-03-09 International Business Machines Corporation Techniques for providing suggestions for creating a search query
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US8781813B2 (en) 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
US7921154B2 (en) * 2006-08-17 2011-04-05 Flash Widgets, L.L.C. System and method of live data search on a mobile device
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US7747607B2 (en) * 2006-09-21 2010-06-29 Yahoo! Inc. Determining logically-related sub-strings of a string
US9037581B1 (en) * 2006-09-29 2015-05-19 Google Inc. Personalized search result ranking
US8442972B2 (en) 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US7739264B2 (en) * 2006-11-15 2010-06-15 Yahoo! Inc. System and method for generating substitutable queries on the basis of one or more features
US8095476B2 (en) * 2006-11-27 2012-01-10 Inquira, Inc. Automated support scheme for electronic forms
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US20080228700A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
US7917528B1 (en) * 2007-04-02 2011-03-29 Google Inc. Contextual display of query refinements
US8074234B2 (en) * 2007-04-16 2011-12-06 Microsoft Corporation Web service platform for keyword technologies
KR20080096005A (ko) * 2007-04-26 2008-10-30 엔에이치엔(주) 키워드 제공 범위에 따라 키워드 제공 방법 및 그 시스템
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体
US8086441B1 (en) * 2007-07-27 2011-12-27 Sonicwall, Inc. Efficient string search
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US7822732B2 (en) * 2007-08-13 2010-10-26 Chandra Bodapati Method and system to enable domain specific search
CN101159967B (zh) * 2007-10-29 2011-08-31 中国移动通信集团设计院有限公司 一种将路测数据用于传播模型校正的方法及装置
US7945525B2 (en) * 2007-11-09 2011-05-17 International Business Machines Corporation Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree
US8725756B1 (en) 2007-11-12 2014-05-13 Google Inc. Session-based query suggestions
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US7953746B1 (en) * 2007-12-07 2011-05-31 Google Inc. Contextual query revision
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8224845B2 (en) * 2008-01-21 2012-07-17 International Business Machines Corporation Transaction prediction modeling method
US20090187540A1 (en) * 2008-01-22 2009-07-23 Microsoft Corporation Prediction of informational interests
US8122011B1 (en) 2008-03-12 2012-02-21 Google Inc. Identifying sibling queries
US7958136B1 (en) * 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
US8832135B2 (en) * 2008-05-02 2014-09-09 Verint Systems, Ltd. Method and system for database query term suggestion
JP2010003015A (ja) 2008-06-18 2010-01-07 Hitachi Software Eng Co Ltd 文書検索システム
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
US8521731B2 (en) 2008-07-09 2013-08-27 Yahoo! Inc. Systems and methods for query expansion in sponsored search
US8200509B2 (en) 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US7917438B2 (en) * 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US8612202B2 (en) * 2008-09-25 2013-12-17 Nec Corporation Correlation of linguistic expressions in electronic documents with time information
US8156111B2 (en) * 2008-11-24 2012-04-10 Yahoo! Inc. Identifying and expanding implicitly temporally qualified queries
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
US20100169262A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Mobile Device for Pangenetic Web
US8386519B2 (en) 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
US9659257B2 (en) * 2009-01-12 2017-05-23 Alphatrac, Inc. Predictive cueing
US9330165B2 (en) * 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
JP5129194B2 (ja) * 2009-05-20 2013-01-23 ヤフー株式会社 商品検索装置
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
WO2011090036A1 (ja) * 2010-01-19 2011-07-28 日本電気株式会社 動向情報検索装置、動向情報検索方法および記録媒体
CN102193939B (zh) * 2010-03-10 2016-04-06 阿里巴巴集团控股有限公司 信息导航的实现方法、信息导航服务器和信息处理系统
US9165065B2 (en) * 2010-03-26 2015-10-20 Paypal Inc. Terminology management database
US20110258212A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic query suggestion generation using sub-queries
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
US8751520B1 (en) * 2010-06-23 2014-06-10 Google Inc. Query suggestions with high utility
US8560562B2 (en) * 2010-07-22 2013-10-15 Google Inc. Predictive query suggestion caching
EP2423830A1 (de) * 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
CN102385577A (zh) * 2010-08-27 2012-03-21 腾讯科技(深圳)有限公司 搜索方法和系统
US8838453B2 (en) * 2010-08-31 2014-09-16 Red Hat, Inc. Interactive input method
EP2622457A4 (en) * 2010-09-27 2018-02-21 Exxonmobil Upstream Research Company Simultaneous source encoding and source separation as a practical solution for full wavefield inversion
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
JP5740003B2 (ja) * 2010-10-21 2015-06-24 クアルコム,インコーポレイテッド モバイルコンピューティングデバイスを用いた複数のデータソースの検索
US8448089B2 (en) 2010-10-26 2013-05-21 Microsoft Corporation Context-aware user input prediction
US8606565B2 (en) 2010-11-10 2013-12-10 Rakuten, Inc. Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium
US9098569B1 (en) * 2010-12-10 2015-08-04 Amazon Technologies, Inc. Generating suggested search queries
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
US20120179705A1 (en) * 2011-01-11 2012-07-12 Microsoft Corporation Query reformulation in association with a search box
US20120185332A1 (en) * 2011-01-14 2012-07-19 Google Inc. Serving Advertisements Based on Article Availability
US20120233140A1 (en) * 2011-03-09 2012-09-13 Microsoft Corporation Context-aware query alteration
US8983995B2 (en) 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
WO2012143839A1 (en) * 2011-04-19 2012-10-26 Greyling Abraham Carel A computerized system and a method for processing and building search strings
US9646108B2 (en) * 2011-05-10 2017-05-09 Uber Technologies, Inc. Systems and methods for performing geo-search and retrieval of electronic documents using a big index
US8972240B2 (en) * 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
CN103547981A (zh) * 2011-05-20 2014-01-29 微软公司 显示键拼音
CN102262660B (zh) * 2011-07-15 2013-05-29 北京百度网讯科技有限公司 一种计算机实现的用于获取搜索结果的方法与设备
US9058362B2 (en) 2011-07-26 2015-06-16 24/7 Customer, Inc. Method and apparatus for predictive enrichment of search in an enterprise
CN102306171B (zh) * 2011-08-22 2016-07-06 百度在线网络技术(北京)有限公司 一种用于提供网络访问建议和网络搜索建议的方法与设备
US20130054632A1 (en) * 2011-08-30 2013-02-28 Google Inc. Caching Input Suggestions
EP2720156B1 (en) * 2011-09-29 2016-12-21 Rakuten, Inc. Information processing device, information processing method, program for information processing device, and recording medium
US8930393B1 (en) * 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
CN102368262B (zh) * 2011-10-14 2013-05-29 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
US9189550B2 (en) * 2011-11-17 2015-11-17 Microsoft Technology Licensing, Llc Query refinement in a browser toolbar
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
CN102419776A (zh) * 2011-12-31 2012-04-18 北京百度网讯科技有限公司 一种满足用户多维度搜索需求的方法和设备
US9152698B1 (en) 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
US9141672B1 (en) 2012-01-25 2015-09-22 Google Inc. Click or skip evaluation of query term optionalization rule
JP5890539B2 (ja) * 2012-02-22 2016-03-22 ノキア テクノロジーズ オーユー 予測に基づくサービスへのアクセス
CN104246756B (zh) * 2012-02-22 2019-05-28 诺基亚技术有限公司 用于提供用于控制系统的预测的系统和方法
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US20130238636A1 (en) * 2012-03-06 2013-09-12 Salesforce.Com, Inc. Suggesting access-controlled related queries
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
CN103577401A (zh) * 2012-07-18 2014-02-12 腾讯科技(深圳)有限公司 一种移动终端搜索方法及系统
CN103577416B (zh) * 2012-07-20 2017-09-22 阿里巴巴集团控股有限公司 扩展查询方法及系统
US9128915B2 (en) * 2012-08-03 2015-09-08 Oracle International Corporation System and method for utilizing multiple encodings to identify similar language characters
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US9146966B1 (en) 2012-10-04 2015-09-29 Google Inc. Click or skip evaluation of proximity rules
US9471881B2 (en) * 2013-01-21 2016-10-18 International Business Machines Corporation Transductive feature selection with maximum-relevancy and minimum-redundancy criteria
US10102333B2 (en) 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US9218420B1 (en) 2013-02-26 2015-12-22 Google Inc. Detecting new businesses with unrecognized query terms
US9619046B2 (en) 2013-02-27 2017-04-11 Facebook, Inc. Determining phrase objects based on received user input context information
US9122376B1 (en) * 2013-04-18 2015-09-01 Google Inc. System for improving autocompletion of text input
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
KR101332757B1 (ko) * 2013-05-16 2013-11-25 주식회사 큐키 삭제키 입력 없이 단어 또는 문자열을 수정하는 방법 및 이를 구현한 장치
US9256687B2 (en) 2013-06-28 2016-02-09 International Business Machines Corporation Augmenting search results with interactive search matrix
US9342592B2 (en) * 2013-07-29 2016-05-17 Workday, Inc. Method for systematic mass normalization of titles
US9886950B2 (en) * 2013-09-08 2018-02-06 Intel Corporation Automatic generation of domain models for virtual personal assistants
US11210705B1 (en) * 2013-10-18 2021-12-28 United Services Automobile Association (Usaa) System and method for transmitting direct advertising information to an augmented reality device
CA2932401A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for in-memory database search
US10176256B1 (en) 2013-12-23 2019-01-08 BroadbandTV, Corp Title rating and improvement process and system
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
CN104899214B (zh) * 2014-03-06 2018-05-22 阿里巴巴集团控股有限公司 一种建立输入建议的数据处理方法和系统
US10546336B2 (en) * 2014-03-07 2020-01-28 Rakuten, Inc. Search device, search method, program, and storage medium
CN104978314B (zh) * 2014-04-01 2019-05-14 深圳市腾讯计算机系统有限公司 媒体内容推荐方法及装置
WO2015162719A1 (ja) * 2014-04-23 2015-10-29 楽天株式会社 情報提供装置、情報提供方法、プログラム、及び記録媒体
CN104090963A (zh) * 2014-07-14 2014-10-08 百度在线网络技术(北京)有限公司 查询信息推荐方法和装置
US9798801B2 (en) 2014-07-16 2017-10-24 Microsoft Technology Licensing, Llc Observation-based query interpretation model modification
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
CN104361010A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种纠正新闻分类的自动分类方法
CN104462595B (zh) * 2014-12-29 2019-03-19 北京奇虎科技有限公司 搜索引擎系统及在搜索结果项中嵌入多媒体元素的方法
US10339165B2 (en) * 2015-02-27 2019-07-02 Walmart Apollo, Llc System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
CN104991656B (zh) * 2015-06-11 2018-12-21 浦江开丰广告设计有限公司 一种输入汉语词组的方法
US11836169B2 (en) * 2015-10-05 2023-12-05 Yahoo Assets Llc Methods, systems and techniques for providing search query suggestions based on non-personal data and user personal data according to availability of user personal data
US11899728B2 (en) 2015-10-05 2024-02-13 Yahoo Assets Llc Methods, systems and techniques for ranking personalized and generic search query suggestions
WO2017091985A1 (zh) * 2015-12-01 2017-06-08 华为技术有限公司 停用词识别方法与装置
US11379538B1 (en) 2016-05-19 2022-07-05 Artemis Intelligence Llc Systems and methods for automatically identifying unmet technical needs and/or technical problems
US10474704B2 (en) 2016-06-27 2019-11-12 International Business Machines Corporation Recommending documents sets based on a similar set of correlated features
CN106126758B (zh) * 2016-08-30 2021-01-05 西安航空学院 用于信息处理和信息评估的云系统
US20180068232A1 (en) * 2016-09-07 2018-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Expert-assisted online-learning for media similarity
TWI645303B (zh) * 2016-12-21 2018-12-21 財團法人工業技術研究院 字串驗證方法、字串擴充方法與驗證模型訓練方法
US11392651B1 (en) 2017-04-14 2022-07-19 Artemis Intelligence Llc Systems and methods for automatically identifying unmet technical needs and/or technical problems
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
US11100169B2 (en) 2017-10-06 2021-08-24 Target Brands, Inc. Alternative query suggestion in electronic searching
US11416503B2 (en) 2018-02-09 2022-08-16 Microsoft Technology Licensing, Llc Mining data for generating consumable collaboration events
JP7059727B2 (ja) * 2018-03-19 2022-04-26 株式会社リコー 電子機器、検索方法、および、プログラム
US11042711B2 (en) 2018-03-19 2021-06-22 Daniel L. Coffing Processing natural language arguments and propositions
US10853332B2 (en) * 2018-04-19 2020-12-01 Microsoft Technology Licensing, Llc Discovering schema using anchor attributes
EP3579125A1 (en) * 2018-06-05 2019-12-11 Sap Se System, computer-implemented method and computer program product for information retrieval
US10860631B1 (en) * 2018-06-21 2020-12-08 Intuit Inc. Searching and scoring using phrases and/or multiple words
US10943059B2 (en) * 2018-06-27 2021-03-09 Microsoft Technology Licensing, Llc Document editing models and management
US11429794B2 (en) 2018-09-06 2022-08-30 Daniel L. Coffing System for providing dialogue guidance
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
WO2020056409A1 (en) 2018-09-14 2020-03-19 Coffing Daniel L Fact management system
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
US11144560B2 (en) 2019-08-23 2021-10-12 International Business Machines Corporation Utilizing unsumbitted user input data for improved task performance
US11829716B2 (en) 2019-09-06 2023-11-28 International Business Machines Corporation Suggestion of an output candidate
CN111222058B (zh) * 2020-01-06 2021-04-16 百度在线网络技术(北京)有限公司 查询自动补全的方法、装置、设备和计算机存储介质
JP2021192142A (ja) * 2020-06-05 2021-12-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11762916B1 (en) 2020-08-17 2023-09-19 Artemis Intelligence Llc User interface for identifying unmet technical needs and/or technical problems
US11416554B2 (en) * 2020-09-10 2022-08-16 Coupang Corp. Generating context relevant search results

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
US20030149704A1 (en) * 2002-02-05 2003-08-07 Hitachi, Inc. Similarity-based search method by relevance feedback

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5331554A (en) * 1992-12-10 1994-07-19 Ricoh Corporation Method and apparatus for semantic pattern matching for text retrieval
WO1996041281A1 (en) 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6182066B1 (en) * 1997-11-26 2001-01-30 International Business Machines Corp. Category processing of query topics and electronic document content topics
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
US6411950B1 (en) * 1998-11-30 2002-06-25 Compaq Information Technologies Group, Lp Dynamic query expansion
JP2000276493A (ja) * 1999-01-29 2000-10-06 Canon Inc 電子的にアクセスできるリソースのブラウジング方法
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6571234B1 (en) * 1999-05-11 2003-05-27 Prophet Financial Systems, Inc. System and method for managing online message board
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US7089236B1 (en) * 1999-06-24 2006-08-08 Search 123.Com, Inc. Search engine interface
AU6200300A (en) 1999-06-24 2001-01-09 Simpli.Com Search engine interface
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
DE60017727T2 (de) * 2000-08-18 2005-12-29 Exalead Suchwerkzeug und Prozess zum Suchen unter Benutzung von Kategorien und Schlüsselwörtern
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US20020103798A1 (en) * 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
JP3918531B2 (ja) 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US6961719B1 (en) * 2002-01-07 2005-11-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Hybrid neural network and support vector machine method for optimization
WO2003085551A1 (en) * 2002-04-05 2003-10-16 Hyperwave Software Forschungs- Und Entwicklungs Gmbh Data visualization system
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
GB2388940A (en) * 2002-05-22 2003-11-26 Sharp Kk Method and apparatus for the correction or improvement of word usage
EP2109048A1 (en) 2002-08-30 2009-10-14 Sony Deutschland Gmbh Methods to create a user profile and to specify a suggestion for a next selection of a user
US20040086185A1 (en) * 2002-10-31 2004-05-06 Eastman Kodak Company Method and system for multiple cue integration
US7287025B2 (en) 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7563748B2 (en) 2003-06-23 2009-07-21 Cognis Ip Management Gmbh Alcohol alkoxylate carriers for pesticide active ingredients
US8856163B2 (en) * 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US8086619B2 (en) 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
JP4292922B2 (ja) * 2003-09-09 2009-07-08 株式会社日立製作所 文書検索システムおよび方法
US20050076003A1 (en) * 2003-10-06 2005-04-07 Dubose Paul A. Method and apparatus for delivering personalized search results
US7231375B2 (en) * 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US20050149496A1 (en) * 2003-12-22 2005-07-07 Verity, Inc. System and method for dynamic context-sensitive federated search of multiple information repositories
US7739262B2 (en) * 2004-03-19 2010-06-15 Microsoft Corporation Enforcing currency and consistency constraints in database query processing
US7689585B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US7428529B2 (en) 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
WO2006113597A2 (en) * 2005-04-14 2006-10-26 The Regents Of The University Of California Method for information retrieval
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7627564B2 (en) 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
JP4333745B2 (ja) * 2007-01-15 2009-09-16 株式会社デンソー 電子制御装置
US7603348B2 (en) 2007-01-26 2009-10-13 Yahoo! Inc. System for classifying a search query
US20080256056A1 (en) 2007-04-10 2008-10-16 Yahoo! Inc. System for building a data structure representing a network of users and advertisers
US8086504B1 (en) 2007-09-06 2011-12-27 Amazon Technologies, Inc. Tag suggestions based on item metadata
US8583670B2 (en) 2007-10-04 2013-11-12 Microsoft Corporation Query suggestions for no result web searches
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US20090171929A1 (en) 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US20090248510A1 (en) 2008-03-31 2009-10-01 Yahoo! Inc. Information retrieval using dynamic guided navigation
US20090248669A1 (en) 2008-04-01 2009-10-01 Nitin Mangesh Shetti Method and system for organizing information
US20100185644A1 (en) 2009-01-21 2010-07-22 Microsoft Corporatoin Automatic search suggestions from client-side, browser, history cache
US8452794B2 (en) 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US9330165B2 (en) 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
US8275759B2 (en) 2009-02-24 2012-09-25 Microsoft Corporation Contextual query suggestion in result pages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
US20030149704A1 (en) * 2002-02-05 2003-08-07 Hitachi, Inc. Similarity-based search method by relevance feedback

Also Published As

Publication number Publication date
US8438142B2 (en) 2013-05-07
CN102945237A (zh) 2013-02-27
CN101297291A (zh) 2008-10-29
KR20080008400A (ko) 2008-01-23
US20150220547A1 (en) 2015-08-06
US9020924B2 (en) 2015-04-28
JP2008541233A (ja) 2008-11-20
US20060253427A1 (en) 2006-11-09
EP1877939A1 (en) 2008-01-16
CN102945237B (zh) 2016-08-10
JP5203934B2 (ja) 2013-06-05
US20130103696A1 (en) 2013-04-25
US9411906B2 (en) 2016-08-09
WO2006121702A1 (en) 2006-11-16

Similar Documents

Publication Publication Date Title
KR101389148B1 (ko) 오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제
US9594850B2 (en) Method and system utilizing a personalized user model to develop a search request
CN103136352B (zh) 基于双层语义分析的全文检索系统
US8731901B2 (en) Context aware back-transliteration and translation of names and common phrases using web resources
CN110134760A (zh) 一种搜索方法、装置、设备及介质
US8126897B2 (en) Unified inverted index for video passage retrieval
US8280721B2 (en) Efficiently representing word sense probabilities
US20090089277A1 (en) System and method for semantic search
IL107482A (en) A method for solving questions in natural language from databases of full texts
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
Bian et al. Cross‐language information access to multilingual collections on the internet
US20200210491A1 (en) Computer-Implemented Method of Domain-Specific Full-Text Document Search
Liu et al. Information retrieval and Web search
KR20080085165A (ko) 입력 데이터 확장 시스템 및 방법, 및 와일드카드 삽입 및입력 데이터 확장 시스템
Liu et al. Generating keyword queries for natural language queries to alleviate lexical chasm problem
US20220121694A1 (en) Semantic search and response
Conover et al. Pangloss: Fast entity linking in noisy text environments
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Tang et al. A method of chinese and thai cross-lingual query expansion based on comparable corpus
Yoo et al. A Semantic Search Model Using Word Embedding, POS Tagging, and Named Entity Recognition
Song et al. Cross-Language Record Linkage by Exploiting Semantic Matching of Textual Metadata
Bai et al. Web-scale semantic ranking
Zhang et al. Fusion of multiple features and ranking SVM for web-based English-Chinese OOV term translation
CN114730318A (zh) 信息处理装置、信息处理方法以及信息处理程序
CN118519542A (zh) 应用于输入法中的基于“三级上屏”的句子推荐方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170411

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180404

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190409

Year of fee payment: 6