KR101077699B1 - 검색 질의로부터 개념 유닛을 발생하기 위한 시스템 및 방법 - Google Patents

검색 질의로부터 개념 유닛을 발생하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR101077699B1
KR101077699B1 KR1020057018930A KR20057018930A KR101077699B1 KR 101077699 B1 KR101077699 B1 KR 101077699B1 KR 1020057018930 A KR1020057018930 A KR 1020057018930A KR 20057018930 A KR20057018930 A KR 20057018930A KR 101077699 B1 KR101077699 B1 KR 101077699B1
Authority
KR
South Korea
Prior art keywords
unit
units
query
generating
queries
Prior art date
Application number
KR1020057018930A
Other languages
English (en)
Other versions
KR20060006798A (ko
Inventor
샴 카퍼
디파 조시
Original Assignee
야후! 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 야후! 인크. filed Critical 야후! 인크.
Publication of KR20060006798A publication Critical patent/KR20060006798A/ko
Application granted granted Critical
Publication of KR101077699B1 publication Critical patent/KR101077699B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

검색 기능성을 향상시키기 위한 시스템 및 방법이 사용자에게 제공된다. 어떤 특징에 따라서, 질의 처리 엔진은 자동으로 사용자가 관심가질 수 있는 개념에 관련되는 구성요소 유닛으로 질의를 분해한다. 질의 처리 엔진은 통계 방법을 사용하여 질의당 하나 이상의 구성 유닛으로 질의를 분해한다. 어떤 특징에 따라서, 어떤 실제적인 세상 지식도 유닛을 판단하는데 사용되지 않는다. 다른 특징에 따라서, 세상 및 콘텐트 지식의 특징은 예를 들어 하나 이상의 정보 엔지니어 팀을 이용하여 수동으로 성능을 향상 및 최적화시키도록 도입된다.
검색 기능성, 질의 처리 엔진, 통계 방법, 질의 분해

Description

검색 질의로부터 개념 유닛을 발생하기 위한 시스템 및 방법{SYSTEMS AND METHODS FOR GENERATING CONCEPT UNITS FROM SEARCH QUERIES}
본 출원은 예비출원이 아니며, 2003년 4월 4일자 출원된 미합중국 특허출원 제60/460,222호의 우선권을 주장하는 것으로서 그 내용 전체가 본 출원에 포함되어 있다.
본 발명은 망 및 인터넷 검색 및 인터페이스 시스템에 관한 것으로서, 특히, 향상된 검색 기능성을 제공하는 검색 시스템에 관한 것이다.
인터넷 및 월드 와이드 웹(web)상에서 사용자가 사용가능한 수많은 웹 페이지 및 매체 콘텐트의 등장으로, 사용자들에게 웹으로부터 소정의 정보를 필터하고 획득하기 위한 간소화된 방법을 제공할 필요가 있게 되었다. 검색 시스템 및 프로세스는 사용자들이 소정의 정보를 획득하기 위한 필요에 부응하도록 개발되었다. 그러한 기술의 예들은 야후!, 구글 및 다른 사이트들을 통해서 접할 수 있다. 일반적으로, 사용자는 질의를 입력하고 검색 프로세스는 그 질의와 관련된 하나 이상의 링크를 리턴하게 된다. 리턴된 링크는 사용자가 실제로 찾는 것과 매우 관련되거나 또는 이들은 전혀 관련이 없을 수 있다. 질의에 대한 결과의 "관련성"은 사용된 검색 시스템(근본적인 수집 시스템)의 견고성은 물론이고 부분적으로는 입력 된 실제 질의 기능이 될 수 있다.
사용자가 입력하는 질의들은 보통은 하나 이상의 단어들로 되어 있다. 예를 들어, "하와이(hawaii)"는 하나의 질의이고, "뉴욕 시(new york city)"도 하나의 질의이며, "뉴욕 시 법 시행(new york city law enforcement)"도 하나의 질의이다. 그와 같이, 질의는 전체적으로 인간의 뇌에 통합된 것이 아니다. 다시 말해서, 인간은 자연적으로 질의를 통해서 생각하지 않는다. 그것들은, 부분적으로는, 검색 엔진에게 질문하거나 도서관 카탈로그를 참조할 필요에 의해서, 우리들에게 부과된 인공적인 구조이다. 인간은 자연적으로 단순히 단어를 통해서도 생각하지 않는다. 인간이 생각하게 하는 것은 자연적인 개념이다. 예를 들어, "하와이" 및 "뉴욕 시"는 단어 수로 판정해 볼 때 길이의 관점에서는 매우 다른 질의이지만 이들은 한가지 중요한 특징을 공유하고 있는데, 이들은 둘 다 각자 하나의 개념으로 이루어져 있다. 그러나, 질의 "뉴욕 시 법 시행"은 다르다. 왜냐하면 그것은 두 개의 고유의 개념 "뉴욕 시" 및 "법 시행"으로 이루어져 있기 때문이다. 인간은 천성적으로, 단순히 여러 길이의 단일 단어들의 열이 아니라, 하나 이상의 자연스러운 개념들을 입력시킴으로써 질의를 만들어 낸다.
MSN, 구글 또는 다른 주요 검색 엔진 사이트 등의 주요 검색 제공자들 중 하나에서 이들을 포함하는 현재의 검색 엔진 기술은 인간이 질의를 만들어내는 방법으로 질의를 이해하지 않는다. 이것은 아마도 검색 제공자들이 사용자의 의도를 이해하지 못하고 질의하는 사용자들에게 최적의 검색 결과 및 콘텐트를 제공하지 못하는 가장 중요한 이유일 것이다.
이상으로부터 알 수 있듯이 사용자가 관심을 가질 수 있는 실제 개념과 더 일치하는 결과를 제공하는 개선된 검색 및 인터페이스 기술이 필요하게 된다.
본 발명은 사용자에게 제공된 검색 기능성을 향상시키는 시스템 및 방법을 제공한다. 본 발명의 어떤 특징에 따라서, 본 발명은, 사용자가 관심을 가질 수 있는 개념과 관련되는 구성 유닛들로 질의들을 자동으로 분해한다.
도 1은 본 발명의 일 실시예에 따른 정보 검색 및 통신 시스템에 대한 전체 개략도이다.
도 2는 본 발명의 일 실시예에 따른 통신 매체 콘텐트에 대한 정보 검색 및 통신망을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 질의 로그 파일을 처리하여 유닛 사전에 거주하도록 구성된 질의 처리 엔진을 포함하는 시스템을 도시한 도면이다.
도 4는 본 발명에 따른 질의 및 질의 로그를 처리하여 유닛을 발생하기 위한 방법론의 일례를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 질의 및 질의 로그를 처리하여 유닛을 발생하기 위한 방법론의 일례를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 제안 발생 방법론의 일례를 도시한 도면이다.
도 7 내지 10은 본 발명의 여러 특징에 따른 여러 유닛, 유닛 확장, 결합 및 대안를 표시한 도면이다.
도 1은 본 발명의 일 실시예에 따라, 클라이언트 시스템(20)을 포함하는 정보 검색 및 통신망(10)의 전체 개략도이다. 컴퓨터망(10)에서, 클라이언트 시스템(20)은 인터넷(40) 또는 다른 통신망, 예를 들면, 어떤 LAN 또는 WAN 접속을 통해서 서버 시스템(501 내지 50N)에 결합된다. 이하 설명되겠지만, 클라이언트 시스템(20)은 본 발명에 따라서 구성되어 서버 시스템(501 내지 50N) 중 하나와 통신하는데, 예를 들면, 매체 콘텐트 및 웹 페이지와 같은 다른 정보매체를 액세스, 수신, 검색 및 표시하게 된다.
도 1에 도시된 시스템 내의 여러 소자들은 종래의, 공지된 소자들을 포함하는데, 이들은 여기서는 상세히 설명할 필요가 없다. 예를 들면, 클라이언트 시스템(20)은 데스크톱 컴퓨터, 워크스테이션, 랩톱, PDA, 셀폰, 또는 WAP-인에이블드 장치 또는 인터넷에 직접 또는 간접적으로 인터페이싱이 가능한 임의의 다른 컴퓨팅 장치를 포함할 수 있다. 클라이언트 시스템(20)은 보통은 HTTP 클라이언트, 예를들면, 셀폰, PDA 또는 다른 무선 장치의 경우에 마이크로소프트의 인터넷 익스플로러TM 브라우저, 네스케이프 내비게이터TM 브라우저, 모질라TM 브라우저, 오페라 브라우저 또는 WAP-인에이블드 브라우저와 같은 브라우징 프로그램 등을 실행하여, 클라이언트 시스템(20)의 사용자가 인터넷(40)상에서 서버 시스템(501 내지 50N)으로부터 클라이언트 시스템에 사용가능한 정보 및 페이지를 액세스, 처리 및 볼 수 있도록 한다. 또한 클라이언트 시스템(20)은 보통은, 서버 시스템(501 내지 50N) 또는 다른 서버에 의해서 제공되는 페이지, 양식 및 다른 정보와 연결하여, 디프플레이(예를들면, 모니터 스크린, LCD 디스플레이 등)상에서 브라우저에 의해서 제공 되는 그래픽 사용자 인터페이스(GUI)와 인터페이스 하기 위한, 키보드, 마우스, 터치스크린, 펜 등의 하나 이상의 사용자 인터페이스를 포함한다. 본 발명은 인터넷에 사용하기에 적합한 것으로서, 이를 망의 특정 글로벌 인터네트워크(specific global internetwork)라고 한다. 그러나, 다른 망이, 인트라넷, 엑스트라넷, 가상 개인망(VPN), 넌-TCP/IP 기반 망, LAN 또는 WAN 등과 같은 것들이 인터넷 대신에 또는 인터넷에 더해서 사용될 수 있음을 이해할 수 있다.
본 발명의 일 실시예에 따라서, 클라이언트 시스템(20) 및 그 구성요소들 모두는, 인텔 펜티엄TM 프로세서, AMD 아트론TM 프로세서 등과 같은 중앙 처리 장치 또는 멀티플 프로세서를 이용하여 컴퓨터 코드를 포함하는 어플리케이션을 이용하여 운영자에 의해서 구성된다. 본원에 설명된 바와 같은 데이터 및 매체 콘텐트를 통신, 처리 및 표시하기 위한 클라이언트 시스템(20)을 동작 및 구성하기 위한 컴퓨터 코드는 바람직하게는 하드 디스크에 다운로드 및 저장되지만, 전체 프로그램 코드 또는 그 부분은, 잘 알려진 바와 같이 ROM 또는 RAM과 같은 임의의 다른 휘발성 또는 비휘발성 메모리 매체 또는 장치에 저장되거나, 또는 콤팩트 디스크(CD) 매체, 디브이디(DVD)매체, 프로피 디스크 등과 같은 프로그램 코드의 저장이 가능한 임의의 매체 상에 제공될 수 있다. 이에 더해서, 전체 프로그램 코드, 또는 그 부분은 하나의 소프트웨어 소스로부터 전송되어 다운로드될 수 있는데, 예를들면 잘 알려진 바와 같이 인터넷상에서 서버 시스템(501 내지 50N) 중 하나로부터 클라인언트 시스템(20)으로 전송되어 다운로드 될 수 있거나, 또는 공지된 임의의 통신 매체 및 프로토콜(예를들면, 익스트라넷, VPN, LAN 등)을 이용하여 잘 알려진 바와 같이 임의의 다른 종래의 망 접속에서 전송될 수 있다. 또한 본 발명의 특징들을 실행하기 위한 컴퓨터 코드는, C, C+, HTML, XML, 자바, 자바스크립트, VBScript와 같은 임의의 스크립팅 언어와 같은 클라이언트 시스템상에서 실행될 수 있는 임의의 프로그래밍 언어에서 수행될 수 있다. 일부 실시예에서, 클라이언트 시스템(20)에는 아무 코드도 다운로드되지 않거나, 필요한 코드는 서버에 의해서 실행되거나, 클라이언트 시스템(20)에 이미 존재하는 코드는 실행된다.
도 2는 본 발명의 일 실시예에 따른 데이터 및 매체 콘텐트를 통신하기 위한 또 다른 정보 검색 및 통신망(110)을 도시한다. 도시된 바와 같이, 망(110)은 클라이언트 시스템(120), 서버 시스템(150) 및 서버 시스템(160)을 포함한다. 망(110)에서, 클라이언트 시스템(120)은 인터넷(140) 또는 다른 통신망을 통해서 서버 시스템(150 및 160)으로 통신가능하게 결합된다. 전술된 바와 같이, 클라이언트 시스템(120) 및 그 구성요소는 인터넷(140) 또는 다른 통신망 상에서 서버 시스템(150 및 160) 및 다른 서버 시스템과 통신하도록 구성된다.
일 실시예에 따라서, 클라이언트 시스템(120)에서 실행되는 클라이언트 어플리케이션(모듈(125)로서 표시됨)은 클라이언트 시스템(120) 및 그 구성요소가 서버 시스템(150 및 160)과 통신하고 전술된 바와 같이 그로부터 수신된 데이터 콘텐트를 처리 및 표시하기 위한 명령을 포함한다. 바람직하게는 클라이언트 어플리케이 션(125)은, 클라이언트 어플리케이션 모듈(125)이 전술된 바와 같이 플로피 디스크, CD, DVD 등과 같은 임의의 소프트웨어 저장 매체 상에 제공될 수 있다 할지라도, 원격 서버 시스템(예를들면, 서버 시스템(150), 서버 시스템(160) 또는 다른 원격 서버 시스템)과 같은 소프트웨어 소스로부터 클라이언트 시스템(120)으로 전송 및 다운로드 된다. 예를 들어, 하나의 특징에서, 클라이언트 어플리케이션 모듈(125)은, 후술 되듯이 데이터를 조작하고 여러 객체, 프레임 및 윈도우내의 데이터를 변형하기 위해서, 예를 들어 내장된 자바스크립트 또는 액티브 X 제어와 같은 여러 제어를 포함하는 HTML 랩퍼에서, 인터넷(140)상에서 클라이언트 시스템(120)에 제공될 수 있다.
이에 더해서, 클라이언트 어플리케이션 모듈(125)은 데이터 및 매체 콘텐트를 처리하기 위한 여러 소프트웨어 모듈을 포함한다. 예를 들어, 어플리케이션 모듈(125)은 검색 요청 및 검색 결과 데이터를 처리하기 위한 하나 이상의 서치 모듈(126), 예를 들어 브라우저 윈도우 및 대화 박스와 같은 텍스트 및 데이터 프레임 및 액티브 윈도우내의 데이터 및 매체 콘텐트를 변형하기 위한 사용자 인터페이스 모듈(127), 및 클라이언트(120) 상에서 실행 되는 여러 어플리케이션들과 인터페이싱 및 통신하기 위한 어플리케이션 인터페이스 모듈(120)을 포함할 수 있다. 더욱이, 인터페이스 모듈(127)은 클라이언트 시스템(120) 또는 다른 브라우저에서 구성된 디폴트 브라우저와 같은 브라우저를 포함할 수 있다. 하나의 예로서, 본 실시예에 따른 클라이언트 어플리케이션 모듈(125)은 야후! 잉크(Yahoo! Inc.)로부터 유알엘 "http://help.yahoo.com/help/us/sbc/browser"을 사용하여 다운로드될 수 있 다.
도 2를 참조하면, 본 발명의 일 실시예에 따라서, 서버 시스템(160)은 서치 결과 데이터 및 매체 콘텐트를 클라이언트 시스템(120)에 제공하도록 구성되며, 각 서버 시스템(150)은 예를 들어 서버 시스템(160)에 의해서 제공된 서치 결과 페이지에서 선택된 링크에 응답하여, 클라이언트 시스템(120)에 웹 페이지와 같은 데이터 및 매체 콘텐트를 제공하도록 구성된다. 이하 더 상세히 기술되겠지만, 일 실시예의 서버 시스템(160)은 월드 와이드 웹으로부터 정보를 수집하기 위한 그리고 예를 들어 페이지, 페이지에 대한 링크 등을 갖는 인덱스를 거주시키기 위한 여러 수집 기술들을 참조한다. 그러한 수집 기술들은, 계층 구조 내에 웹 페이지를 분류하고 랭킹하기 위해 수동 또는 반자동 분류 알고리즘 및 인터페이스는 물론이고, 자동 웹 크로울러, 스파이더 등을 포함한다. 본 발명의 일부 특징들에서는, 서버(160)는 예를 들어 구글로부터의 페이지랭크(PageRank) 알고리즘과 같은 웹 페이지를 처리 및 랭킹하기 위한 검색 관련 알고리즘으로도 구성된다. 또한 서버(160)는 바람직하게는 질의 로그 파일의 형태로 사용자 질의 활동을 기록하도록 구성된다.
서버 시스템(160)은, 한가지 특징에서는, 특별한 검색 모듈(126)에서, 클라이언트 시스템으로부터 수신된 여러 검색 요청에 응답하는 데이터를 제공하도록 구성된다. 서버 시스템(150 및 160)은 단일 조직의 일부가 될 수 있는데, 예를 들어, 야후! 주식회사에 의해서 사용자에게 제공된 바와 같은 분산된 서버 시스템이 될 수 있거나, 또는 이들은 이종의 조직들의 일부가 될 수 있다. 서버 시스템(150) 및 서버 시스템(160)은 각각 적어도 하나의 서버 및 연관된 데이터베이스 시 스템을 포함하며, 다중 서버 및 연관된 데이터베이스 시스템을 포함할 수 있으며, 단일 블록으로 도시되었지만, 지리적으로 분산될 수 있다. 예를 들어, 서버 시스템(160)의 모든 서버들은 서로 근접하여 배치될 수 있거나(예를 들어, 단일 빌딩 또는 캠퍼스 내에 배치된 서버 팜 내에), 이들은 서로 원거리 장소에 분산될 수 있다(예를들면, A라는 시에 배치된 하나 이상의 서버들 및 B라는 시에 배치된 하나 이상의 서버들). 본원에 사용될 때, "서버 시스템"이라는 용어는 보통, 국부적으로 또는 하나 이상의 지리적 위치상에서 배치된 하나 이상의 논리 및/또는 물리적으로 접속된 서버들을 포함한다. 이에 더해서, "서버"라는 용어는 보통은 종래 기술에서 공지된 바와 같은 컴퓨터 시스템 및 연관된 저장 시스템 및 데이터베이스 어플리케이션을 포함한다. "서버" 및 "서버 시스템"이라는 용어는 본원에서는 상호교환하여 사용된다.
본 발명의 일 실시예에 따라서, 서버(60)는, 클라이언트 시스템(120 및 220)으로부터 수신된 검색 질의에 응답하여 사용자에게 검색 결과를 제공하기 위한 하나 이상의 페이지 인덱스(170)로 구성된다. 일부 특징들에서는, 서버 시스템(160)은, 본원에서 후에 더 상세히 설명되겠지만 클라이언트 시스템(120)으로부터의 검색 결과에 응답하여 신규의, 향상된 검색 질의 분석 및 카테고리화 기능성을 제공하기 위해서 부가적으로 구성된다. 그러한 질의 분석 및 카테고리화 기능성 및 다른 특징은, 2003년 10월 9일자 출원된 미합중국 특허 출원 제60/510,220호, 명칭 "SEARCH SYSTEMS AND METHODS WITH CONCEPTUAL CLUSTERING"(변리사 정리번호 제017887-011500US호), 및 동일자로 출원된 미합중국 특허 출원 제60/510,220호, 명 칭 "SYSTEMS AND METHODS FOR SEARCH QUERY PROCESSING USING TREND ANALYSIS" (변리사 정리번호 제017887-011400US호)에서 논의되는 것으로서 그 내용이 참고로서 본원에 포함된다.
본 발명의 일 실시예에서, 예를 들어, 서버(160)에서 실행되는 프로세스는 검색 질의 및/또는 검색 결과의 문맥상의 카테고리화 분석을 수행하며 문맥 내에서 그룹화된 검색 결과로 응답한다. 많은 검색 용어들이 의도된 문맥에 따라서 상이한 의미를 가질 수 있다. 예를 들어, 사용자가 "자바(Java)"라는 용어를 이용하여 검색을 수행하면, 의도된 문맥은 명확하지 않다. 사용자는 자바 컴퓨터 언어, 자바(Java), 또는 일상대화에서 자바라고 하는 커피에 관심을 가질 수 있다. 따라서 상이한 단어들이 상이한 단어 의미 및 문맥을 가질 수 있다. 본 발명의 한가지 특징에 따라서, 본 발명은 검색 질의 및/또는 결과를 유리하게 분석하고 그룹은 사용자의 컴퓨터(120)에서 표시하기 위해서 문맥을 일으킨다. 예를 들어, 검색 용어인 "자바"에 대한 상기 예에서, 서버(160)는 세개(또는 다른 문맥이 식별되면 그 이상)의 문맥 또는 단어 감지로 그룹화되는 검색 결과를 리턴하는데, 즉, 컴퓨터 언어에 대한 자바, 섬인 자바 및 커피인 자바이다. 시스템은 각각의 문맥과 연관하여 제공된 링크를 갖는 세트를 야기하거나, 시스템은 임의의 링크 없이도 문맥(사용자에게 문맥을 구별하기에 충분한 정보를 가짐)만을 표시하고 사용자가 소정의 문맥을 선택하도록 하여 연관된 링크를 표시하게 된다. 예를 들어, 야후! 망 시스템에서, 일련의 문맥들이 표시될 수 있는데, 각각의 문맥은 검색 인덱스로부터 페이지로 일련의 링크, 스폰서 된 매치와 연관된 링크, 디렉토리 매치와 연관된 링크 및 인사이드 야후! 매치와 연관된 링크를 갖는다.
"자바"와 같은, 모호한 의미를 갖는 단어 및 구에 더해서, 본 발명의 시스템은 일 실시예에서 결과를 반드시 모호하지는 않는 용어를 검색하기 위해서 문맥으로 그룹화하도록 구성된다. 일례는 "하와이"라는 용어를 검색하기 위해서 리턴된 결과이다. "하와이"라는 용어는 본질적으로 그리고 자연히 모호하지만, 그러한 용어에 대해서 리턴된 결과의 문자는 넓을 수 있는 것으로서, 문자적으로 "하와이"를 논하거나 언급하는 모든 것과 관련되어 있다. 사용자에게 더 유용한 결과를 제공하기 위해서, 본 발명의 시스템은 바람직하게는 결과가 실제로 관련되는 것의 지식을 강화함으로써 검색 결과를 문맥으로 조직한다. 예를 들어, 하와이에 대해서, 시스템은 "하와이: 여행", "하와이: 날씨", "하와이: 지리", "하와이: 문화", 등과 같은 여러 문맥 그룹핑 결과를 리턴한다. 예를 들어, 어떤 특징들에서, 문맥 식별자들이 인덱스 내의 페이지 링크와 연관되어 저장되어, 검색이 수행될 때 링크는 식별자들에 따라서 그룹화될 수 있다(도 2의 인텍스 테이블 162 참조). 위의 예에서, "여행", "날씨", "지리" 및 "문화"라는 용어는 문맥 식별자들을 표시한다. 페이지 링크는 다중 문맥 식별자들과 연관될 수 있으므로 다중 식별자들과 연관되어 표시될 수 있다. 그러한 식별자들은 사용자들이 관련된 검색을 수행함에 따라서 바람직하게는 자동으로 링크와 연관되지만, 식별자들은 수정되어 하나 이상의 관리자들에 용어에 의해서 상호 간에 링크될 수 있다. 이러한 방식으로, 여러 검색으로부터 모인 지식이 시스템으로 피드백되어 문맥을 정의 및 재정의함으로써 표시된 검색 결과가 요청한 사용자에게 더 가치있고 유용하게 한다.
본 발명의 일 실시예에서, 서버(160)상의 프로세스는 개념 발견 또는 검색 용어의 개념 분석을 수행하여 사용자에게 더 의미 있는 결과를 제공하게 된다. 예를 들어, "뉴욕 시"라는 검색 구에서, 사용자가 뉴욕 (주)내의 한 시와는 대조되는 뉴욕 시(시 또는 지역)에 관한 사이트에 관심 있는 것이 매우 분명하다. 유사하게, "뉴욕 시 법 시행"에서는, 사용자는 뉴욕시내의 법 시행(예를들면, 직업 구분)에 관련된 사이트에 관심 있는 것이 분명하다. 그러나, 대부분의 종래 검색 엔진들은 검색 구에서 사용될 때 용어의 순서에 관계없이 개별 용어 "뉴", "욕", "시", "법" 및 "시행"을 이용하여 단순히 검색한다. 본 발명은 유리하게 검색 구내의 용어를 분석하여 검색 질의를 구성하는 하나 이상의 개념들을 식별한다. 바람직한 특징들에서, 시스템은 검색 용어들이 표시되는 순서를 이용하여 개념들을 식별하고 검색 결과들을 카테고리화한다. 예를 들어, 검색 구로서 "뉴욕 시 법 시행"을 이용하여, 시스템은 예를들면, 해싱(hashing)에 의해서, "뉴욕 시" 및 "법 집행"을 검색 구에서 두 개의 개념으로서 식별하여 두 개의 개념에 대한 결과를 리턴한다. 동일 결과가 "뉴욕시내의 법 시행"에 대해서 리턴된다. 그러나, "뉴욕내의 시 법 시행"에 대해서는, 상이한 결과들이 "법 시행" 및 "뉴욕" 및 "시", 또는 "시 법 시행" 및 "뉴욕"이라는 개념에 기초하여 리턴된다. 마찬가지로, "뉴욕 시내의 법의 시행"은 "뉴욕 시", "법" 및 "시행"이라는 개념을 포함하는 것으로 식별된다. 따라서, 개념들의 순서는 개념을 구성하는 용어들의 순서만큼 중요하지 않다. 바람직한 특징들에서, 개념들은 페이지 인덱스 내에 포함되거나 또는 별도의 개념 인덱스가 시행될 수 있다. "법 시행"은 "법의 시행"과 같이 여겨지거나 또는 그 문맥 에 의존하지 않는 것으로 여겨짐은 알 수 있다.
유닛 추출 및 처리
본 발명의 일 실시예에 따라서, 질의 처리 엔진은 질의를 처리하고 질의를 구성요소 유닛으로 분해하기 위해서 제공된다. 질의가, 유닛이 발생되며, 이 설명의 나머지 부분이 초점을 맞추는 바람직한 문맥 콘텐트라고 할지라도, 유닛은, 앵커 텍스트, 문서, 이-메일 메시지, 웹 페이지, 웹 사이트 온라인 제품 카탈로그 등을 포함하는, 다른 문맥의 소스로부터도 발생될 수 있음을 이해할 수 있다. 유닛은 보통은 자연 개념에 잘 상응하며, 질의의 문맥 및 카테고리화 분석, 개념 발견, 트랜드 분석 및 다른 질의 분석 처리를 수행하는데 특히 유용하다. 유닛은 사용자 질의에서 나타나는 하나 이상의 단어의 열이다. 각각의 단어(및 따라서 유닛 역시)는, 키보드 또는 다른 사용자 인터페이스 장치로부터 제공하는데 가능한 것으로서 하나의 두문자어 또는 하나 이상의 알파뉴메릭 및 다른 문자의 임의의 다른 열을 포함할 수 있다. 일반적으로, 질의는 하나 이상의 유닛의 세트인데, 즉, 질의는 하나 이상의 유닛의 세트로 분해될 수 있다. 하나의 유닛 내의 단어 순서는 중요하지만, 질의 내의 유닛의 순서는 보통은 중요하지 않다.
본 발명의 질의 처리 엔진은 질의 처리 시스템에 대해서, 검색 질의에 응답하여 사용자에게 리턴된 결과의 질을 향상시키는 많은 다른 처리는 물론이고, 개념 발견 및 분석 처리 및 문맥 분석, 전술된 질의 카테고리화 및 전술된 명료함 처리를 수행하도록 한다. 본 발명에 따른 질의 처리 엔진은 독립 장치 또는 망에 접속된 시스템, 예를들면, 본원에서 논하는 여러 질의 처리 및 분석 알고리즘 및 처리 를 실행하는 컴퓨터 시스템에서 수행될 수 있거나, 또는 서버 시스템(160) 또는 다른 서버 시스템과 같은 검색 서버 시스템의 일부로서 포함될 수 있다.
도 3은 본 발명의 일 실시예에 따른 질의 처리 엔진(300)을 포함하는 시스템을 도시한다. 도시된 바와 같이, 엔진(300)은, 인터넷을 통해서 또는 예를들면, LAN, WAN, 직접 링크, 분산 매체(예를 들면, CD, DVD, 플로피 디스크) 등의 여러 망 접속을 통해서 여러 소스로부터 하나 이상의 질의 로그 파일(302)(및, 일부 특징들에서, 실시간 개별 질의들)을 수신한다. 망 소스의 예들은 검색 서버(160)(도 1), 또는 검색 서버들의 분산된 망 내의 다중 검색 서버(160), 및 하나 이상의 서버(150)를 포함한다. 질의 로그 파일 소스들은 보통은 동일 조직 또는 엔티티, 예를들면, 이에 제한되는 것은 아니지만 야후! 서버와 연관되어 있다. 질의 로그 파일(질의 로그)은 정보 이론에서 사용될 수 있는 통계 방법 또는 상호연관 정보와 같은 개념을 이용하여 유닛을 추출하기 위해서 질의 엔진(300)에 의해서 처리된다. 바람직한 특징들에서, 예를 들어, 시간, 주 등의 상이한 시간 기간에 대한 로그가 소정의 방법으로 사용될 수 있다 할지라도, 매일의 질의 로그가 사용된다. 질의 로그는 보통은 사용자들에 의해서 제출되는 실제 질의를 포함하며, 어떤 경우에는 질의 사용자의 지리적 위치, 타임스탬프, 클라이언트 시스템의 IP 어드레스, 쿠키, 클라이언트 유형(예를들면, 브라우저 유형) 등과 같은 부가적으로 유용한 메타-정보를 포함한다. 입력 질의 로그 파일의 일례는 <질의 스트링, 메타-정보>, 또는 <카운트, 질의 스트링>의 질의 리스트로서, 카운트는 특정 질의 스트링의 발생(빈도)의 수를 일컫는다. 질의 처리 엔진(300)은 여러 질의 로그(및 질의들)를 처리 하며 유닛 및 그로부터 연관된 통계를 발생한다. 유닛 및 발생 빈도, 랭크 등과 같은 연관된 통계는 메모리 또는 데이터베이스 파일(310)에 저장된다.
질의 및 본 발명에 따른 유닛을 발생하기 위한 질의 로그를 처리하기 위한 방법론의 일례가 도 5에 도시된다. 단계 500에서, 질의 로그 파일들은 사본 및 오드 심벌들을 제거하기 위해서 공인(canonical)된다. 예를들면, 공인 알고리즘 또는 프로세스가 적용되는데 이는 단어를 기본 의미로 줄인다. 예를들면, 접미사, 복수 명칭, 접두사 등을 제거한다. 단계 510에서, 단일의 통합된 질의 파일이 생성된다. 예를 들어, 다중 질의 로그 파일들에 대해서, 파일들은 특정 시간 기간 동안에 단일의 통합된 질의 파일로 합병된다. 예를 들어, 동일 질의의 다중 발생은 단일 질의로서 포함되며, 그 수는 합병된 파일들로부터 질의가 발생한 총 수와 같다. 바람직한 특징들에서, 통합된 파일에 대한 특정 시간 기간으로는 일주일 간의 기간이 바람직하다. 일주일 간에 합당한 질의들은 작업 주간(날마다 다름) 및 주말 동안에 준수되는 질의 내의 상이한 패턴들을 포착한다. 그러나, 상이한 시간 기간이 사용될 수 도 있음을 알 수 있다. 단계 520에서, 통합된 질의 파일이 판독되어 각각의 질의 엔트리가 표상된다. 예를 들어, 통합된 로그 파일 내의 각각의 라인은 질의 및 <질의 스트링, 메타-정보> 형태의 연관된 정보를 포함할 수 있다. 각각의 고유의 토큰 및 전체 파일 내의 각 토큰의 발생 수가 저장된다. 이러한 토큰들은 처리에 의해서 이 점에서 초기의 유닛 세트가 될 수 있다.
단계 530에서, 통합된 질의 파일은 스캔되어 각각의 질의가 현재의 유닛 세트에 기초한 하나 이상의 유닛으로 된 세트로 쪼개져서 들어간다. 예를 들어, 질 의는 자체가 단일 유닛이 되거나, 또는 여러 유닛을 포함할 수 있다. 가능한 새로운 유닛들이, 예를들면, 각각의 특정 질의에서 서로 인접하여 나타나는 유닛들을 결합시킴으로써 판단된다. 이들 가능한 새로운 유닛들도 물론 저장된다. 단계 540에서, 가능한 새로운 유닛들이 유효하게 된다. 예를 들어, 본 발명의 일 실시예에서, 통합된 질의 파일은 다시 스캔되어 이번에는 단계 530에서 가능한 유닛들이 분석되어 어떤 것이 실제로 정보인지를 판단한다(예를들면, 상호관련 정보 및 다른 매트릭스에 기초하여). 예를 들어, 어떤 가능한 유닛이 되어야 하는지를 결정하는 것은, 한가지 특징에서, 얼마나 자주 구성 유닛들이 서로 분리되어 나타나는지를 검출하고 이 수를 그들이 얼마나 자주 전체 질의 세트에서 서로 인접하여 나타나는지와 비교하는 것에 기초해 있다. 예를 들어, "뉴욕"은 하나의 유닛으로 검출된다. 왜냐하면 "뉴"가 여러 상이한 문맥들에 나타난다 할지라도 그 "욕"이 나타나는 여러 문맥들에서, "뉴" 역시 나타나기 때문이다. 단계 550에서, 유닛의 가중치가 조정되는데, 예를들면, 다른 유닛으로 흡수된 유닛의 가중치가 조정되며 가중치는 더 이상 유닛으로 간주되지 않는 유닛의 일부인 유닛에 다시 주어진다. 예를 들어, 가능한 유닛이 하나의 유닛이 되기로 결정되면, 새로운 유닛이 나타나는 질의의 통합 가중치/빈도는 구성요소 유닛의 가중치로부터 감산 되어 새로운 유닛의 가중치에 가산된다.
단계 560에서, 유닛의 충분한 수렴이 발생했는지에 대한 결정이 내려진다. 한가지 특징에서, 수렴은 하나의 점이 되도록 정의되는데, 이 점을 넘어서는 발생/삭제된 유닛 내의 변화가 일부 미리-정의된 임계값보다 더 작아지는 점이 되도록 정의된다. 예를 들어, 알고리즘의 런(run)이 백만개의 유닛을 발생했으면, 발생/삭제된 유닛이 단지 백 개인 후의 단계는 수렴이 중단 또는 만족되는 점이 되는 것으로 간주될 수 있다. 한가지 특징에서, 수렴의 만족 또는 중단이 검출된 후에도, 발생된 유닛이 일부 필수적인 선의의 기준을 만족시키도록 일부 조정이 내려질 수 있다. 수렴이 이루어지지 않았으면, 단계 530 내지 560이 반복된다. 수렴이 이루어졌으면, 최종 유닛 세트가 결정 및 저장되며, 처리는 단계 570 내지 590으로 진행되는데, 이는 임의의 순서로 수행될 수 있다.
단계 570에서, 최종 유닛의 세트에 대해서, 각 유닛에 대한 확장이 발생된다. 예를 들어, 한가지 특징에서, 확장은 최종 세트를 통해서 스캐닝하며 단어 스트링 중첩을 식별함으로써 발생된다. 유닛의 확장은 제 1 유닛 내의 모든 단어를 포함하는 더 큰 유닛이다. 예를 들어, "뉴욕 시"는 "뉴욕"의 확장이 될 수 있다. 한가지 특징에 따라서, 확장 발생은, 특별한 유닛이 임의의 다른 유닛에서 나타나는지를 찾기 위해서, MySQL 데이터베이스와 같은 데이터베이스 내의 유닛 테이블 상에서 풀 텍스트 검색을 수행함으로써 실행된다. 한가지 특징에서, 각 유닛에 대한 풀 텍스트 인덱스의 완전한 스캔이 수행된다. 그러나, 이것은 획득가능한 자원에 따른 매우 느린 처리가 될 수 있다. 그러므로, 또 다른 특징에서, 모든 유닛은 유닛 파일로부터 메모리 내의 해시 테이블에 적재된다. 그 후 한번에 하나의 유닛이 유닛 파일로부터 판독된다. 유닛은 분해되어 단어가 되며 이러한 단어의 열이 구성된다. 예를 들어, 주파수가 f인 유닛 u1을 고려해 본다. 유닛 u1은 세 개의 단어 w1, w2 및 w3로 이루어진다. u1내의 이러한 워드의 순서는 "w1 w2 w3"이다. 단어로부터의 다음 순서가 생성된다. 즉, w1 w2 w3 w1 w2 w3 및 w1 w2 w3. 열을 생성할 때 유닛 내의 단어의 순서는 변화하지 않는다. 그 후 각각의 열에서, 유닛의 해시 테이블 내의 룩업이 수행된다. 이 열이 하나의 유닛이 되면, u1이 열의 확장으로서 출력된다. 이 경우에 w3 및 "w1 w2"가 유닛이면, 다음 기록이 하나의 특징으로 출력된다.
fu1 w3 ; 및
ful "w1 w2".
풀 텍스트 인덱스의 완전한 스캔이 몇몇 해시 룩업과 교체되므로, 이러한 특징의 방법인 더 효율적이 될 수 있다.
단계 580에서, 최종 유닛의 세트에 대해서, 각각의 유닛에 대한 연관이 발생된다. 예를 들어, 하나의 특징에서, 연관은 어떤 유닛이 질의 내의 다른 유닛과 빈번하게 연관되는지에 기초하여 발생한다. 유닛의 연관은 제 1 유닛이 질의 내에서 나타나는 또 다른 유닛이다. 예를 들어, "시에틀 호텔"은 유닛 "시에틀" 및 유닛 "호텔"의 연관이 될 수 있다. 하나의 특징에서, 각 질의가 분해되어 유닛으로 들어가는 질의_유닛이 연관을 계산하는데 사용된다. 이러한 파일은, 하나의 특징에서, 세 개의 칼럼_질의 빈도를 포함하며, 유닛의 질의 및 리스트는 질의에 나타난다. 동일 질의 내에서 나타나는 모든 유닛은 연관에 기여한다. 빈도 f를 갖으며 유닛 u1, u2, u3를 포함하는 질의_유닛 파일 내의 질의 q를 고려해 본다. 이러한 질의에 대해서 다음 기록이 하나의 특징으로 출력된다.
u1 u2 f;
u2 u3 f; 및
u1 u3 f.
이어서 이 출력이 저장되며, 모든 가능한 질의에 의해서 각 쌍에 기여하는 빈도가 가산된다. 한가지 특징에서, 임계치 이하의 모든 연관은 이 단에서 버려진다. 유닛의 대안 형태(또는 단어의 임의의 열)가 원래의 표현의 선호된, 수정된 또는 심지어는 관련되기까지 한다. 예를 들어, "브리트니 스피어스"는 질의 로그에서 매우 일반적으로 찾아지는 수십 개의 대안 스펠링에 대한 대중 가수의 이름의 정확한 형태이다. 또 다른 예는 유닛 "벨지움"이 덜 대중적인 유닛 "벨지언"의 대안 형태라는 것이다. 연관, 확장 및 대안는 바람직하게는 별개의 "제안" 파일에 저장되지만, 이들은 파일(310)에 저장될 수도 있다. 하나의 특징에서, 대안안은 스트링들 사이의 편집 거리의 공지를 레버리징(leveraging)함으로써 발생된다. 예를 들어, 예를 들어, 삽입, 삭제, 교체 등과 같은 유형 이벤트의 d 단계가 하나의 스트링을 다른 것으로 변환하는데 요구되면 두 개의 스트링이 편집 거리 d 만큼 격리되는 것으로 알려진다. 1 또는 2 와 같은 작은 수인, 임계값보다 작은 편집 거리만큼 격리된 두 개의 유닛이 후보 대안 형태가 되는 것으로 간주된다. 이들이 진정한 대안 형태인지 여부는, 한가지 특징에서, 그들의 상대적인 빈도와 편집 거리에서 근접한 다른 유닛들의 빈도를 비교함으로써, 결정된다. 빈도 정보는 유사한 스트링 중 어느 것이 수정 형태와 가장 유사한지를 결정하도록 한다. 예를 들어, "브리트니 스피어스"는 질의에서 매우 다양한 방식으로 철자가 오기될 수도 있다. 한가지 특징에서, 정확한 형태는 여러 형태의 빈도를 비교하고 가장 높은 빈도의 형태를 정확한 형태인 최상의 후보로서 선택함으로써 식별된다.
어떤 특징에서는, 질의 처리 엔진(300)이 서버 시스템(160)에서 수행될 수 있다. 예를 들어, 질의 처리를 수행하기 위한 소프트웨어, 유닛 분해, 유닛 사전 거주 및 통계적 분석이, 사용자 및 페이지 인덱스(170)와 인터페이스 하는 검색 응답 프로세스에 더해서 서버 시스템(160)에서 수행될 수 있다. 다른 특징에서, 질의 처리 엔진(300), 또는 질의 처리 엔진(300)의 일부는 도 4에 도시된 바와 같은 별개의 시스템에서 실행될 수 있다. 예를 들어, 하나의 특징에서, 사용자 시스템(120)으로부터의 질의에 응답하여, 서버 시스템(160)은, 유닛 및 통계가 리턴되거나 제안이 리턴되도록 요청하는 서버 시스템(180)에 질의를 전달할 수 있다. 서버(160)는 시스템(180)으로부터 수신된 리턴 및 통계를 처리하며 제안 및 다른 정보와 함께 사용자에게 사용자 질의에 응답하는 결과를 리턴한다. 제안은 리턴된 유닛 및 통계를 사용하여 서버(160)에 의해서 발생될 수 있거나 제안은 시스템(180)에 의해서 발생될 수 있다. 어떤 특징에서, 제안은 사용자가 검색 시스템과 연속해서 대화하도록 하는 방법이다. 제안은 사용자가, 유닛 및 확장, 연관 및 대안에서 포착된 바와 같은 사용자 필요의 매우 복잡한 이해에 기초하여 다음에 조사하고 싶은 것이 무엇인지에 대한 힌트 및 팁이다.
한가지 특징에서, 유닛 사전(310)은 유리하게, 실제 검색 결과에 더해서 또는 그 대신에 사용자에게 전달하기 위한 제안을 발생하는데 사용된다. 예를 들어, 검색 서버(160) 또는 다른 검색 지능 모듈은 예를 들어 도 4의 서버(180)와 같은 특화된 서버에 질의를 전달할 수 있어서, 유닛 사전을 제어하거나, 또는 유닛 사전 의 경우는 검색 서버(160)에 저장될 수 있다. 일 실시예에서, 단일 사용자 질의가 처리되어 단일 질의의 유닛(들)에 대한 연관 및 확장을 이용하여 제안을 결정하며, 이는 "질의 제안" 파일과 같은 단일 파일로 합병된다. 일부 부가적인 필터링이 수행되어 매우 유사한 제안들이 반복되지 않는다. 예를 들어, 더 대중적인 말하자면, 세 개의 제안 "스페인 지도들", "스페인 지도" 및 "스페인의 지도"가 포함되거나 도시될 수 있다.
사전(310)내의 확장, 연관 및 대안(예를들면, 도 5에 도시된 바와 같은 유닛을 발생하기 위한 방법론에 의해서 판단됨)를 이용하여, 본 발명의 일 실시예에 따른 제안을 발생하기 위한 방법론의 일례가 도 6에 도시된다. 단계 610에서, 필터링 및 매핑 데이터가 시스템으로 판독된다. 그러한 필터링 및 매핑 데이터, 예를들면, 리스트의 형태인 데이터는 수동 또는 자동으로 제공될 수 있다. 그러한 데이터는 시간상 주기적으로 연속 방식으로 시스템에 제공될 수 있거나 또는 단일 파일 또는 일련의 파일에 제공될 수 있다. 그러한 데이터는 바람직하게는 제안을 공인 및 필터 하도록 사용되며, 예를들면, 매핑(동의어, 바람직한 형태의 변형 등)은 물론이고 단어 리스트(성인 단어 리스트, 스톱워드, 등)를 포함한다. 단계 620에서, 하나 이상의 유닛이 식별된다. 예를들면, 유닛은, 질의에 토큰(token) 함으로써 그리고 결과적인 토큰(들)을 이용하여 유닛 사전 내의 룩-업을 수행함으로써 단일 사용자 질의에 응답하여, 검색 서버(160) 또는 시스템(180)에 의해서 선택될 수 있다. 단계 630에서, 식별된 유닛은 각 유닛에 대해서 제안이 발생되어야 하는지 여부를 판단하기 위해서 처리된다. 제안 발생 프로세스는 이어서 임의의 연관 및 확장이 유닛에 대한 제안 파일에 존재하는지 여부를 판단하기 위해서 각각의 식별된 유닛을 처리한다. 단계 640에서, 유닛에 대한 확장 및 연관이 검색된다. 일부 이유로 적합하지 않은 이러한 확장 및 연관은 걸러진다. 예를 들어, 유닛이 한 단어 길이이면, 세 개의 여분의 문맥 단어를 포함하는 제안은 적합하지 않을 것이며 따라서 바람직하게는 선택되지 않는다. 한가지 특징에서, 이들을 위한 연관 및/또는 확장이 있으면 제안은 유닛에 대해서 발생된다. 어떤 상황하에서, 제안은 유닛을 위한 연관 또는 확장이 있다 할지라도 특정 유닛에 대해서 발생하지 않을 수 있다. 예를 들어, 한가지 특징에서, 제안은 불법 개념인 유닛에 대해서는 발생하지 않는다. 그와 같이, 제안은, 공지된 스펠링 에러이거나, 또는 너무 짧은 등의 유닛에 대해서는 발생하지 않을 수 있다. 확장 또는 연관이 모두 제안이 되기에 합당한 것으로 간주되지는 않는다. 한가지 특징에서, 발생된 제안이 질의로 나타나는지가 판단된다. 그러한 질의도 원래의 유닛에 더해지는 부분이 자체적으로 다른 유닛이 아니면 제안이 되기에 적합한 것으로 간주되지 않는다. 또한, 유사한 기술을 이용하여 다중-유닛 질의에 대해서 제안이 발생될 수 있다.
단계 650에서, 검색된 확장 및 연관이 결합되어 제안의 초기 설정을 형성한다. 단계 660에서, 제안의 초기 설정은 유사한 제안을 제거하기 위해서 공인되어, 바람직하게는 제거된 제안의 가중치가 보유된 제안(들)의 가중치에 가산되도록 한다. 공인은 단수 및 복수의 형태, 공통 동의어, 오식 등을 다루는 것을 포함한다. 또한 어떤 이유로 적합하지 않은 제안이 제거된다. 단계 630 내지 660은 바람직하게는 일련의 유닛에서 유닛 각각에 대해서 반복된다. 한가지 특징에서, 발생된 제 안을 이용하여, 페이지 인덱스(170)(도 2)로부터의 링크가 검색되어 사용자에게 표시된다.
도 5 및 6에 나타난 모든 단계가 필요한 것은 아니며 대안 및/또는 부가 단계들이 포함될 수도 있음을 알 수 있다. 어떤 특징에서, 본원에 논의되는 그러한 질의 및 질의 로그 파일 처리는 Perl에서 수행된다.
도 7 내지 10은 본 발명의 특징에 따른 특정 입력 질의에 대한 확장, 연관 및 대안의 표시를 도시한다. 그러한 표시는 모니터 또는 프린터와 같은 표시 소자를 이용하여 이용자에게 제공되며 시스템 관리자 또는 최종 사용자와 같은, 사용자가 질의 또는 다른 콘텐트 소스로부터 발생된 여러 유닛, 연관, 확장 및 대안를 식별 및 분석하도록 하는데 유용하다.
도 7은 입력 질의 "새"에 응답하여 제공된 표시 페이지를 도시한다. 일반적으로, 입력 질의는 단어 또는 단어들이 될 수 있다. 확장 룩업에서, 와일드카드 문자 "*" 역시 지원되는데, 입력 질의의 단어(들) 전후에 지원된다. 도 8은 사용자가 질의를 입력하고, 랜덤 질의를 선택하고 한가지 특징에 따른 입력 질의와 연관된 파라메터를 조절하도록 하기 위해 질의 입력 GUI 형태를 포함하는 상이한 표시 페이지를 도시한다. 예를 들어, GUI 형태로 R 버튼에서 클릭하는 것은 랜덤 유닛에 대한 결과를 발생하며, T 버튼을 클릭하는 것은 제안 그래프를 통한 랜덤 횡단으로 유도한다. 사용자는 확장 및/또는 연관을 결과로서 보도록 선택할 수 있다. 제 1 라인 필드의 값을 변경함으로써, 사용자는 확장 및 연관 스트림을 사용자가 가고 싶은 만큼 하향 진보할 수 있다. 사용자는 또한 성인 필터 설정을 변경 하여 성인 용어를 보거나 보지 못하게 될 수 있다. GUI 형태 이하의 표시 부분은 입력 질의 "우드"에 대한 결과를 도시한다.
도 7 및 8에 도시된 바와 같이, 연관은 동일 질의에 대해서 얼마나 자주 동시 발생하는지에 기초한 상이한 유닛들 사이의 관계를 말한다. 한편, 확장은, 하나의 유닛에 나타나는 모든 단어가 동일 열에서 제 2 유닛에 나타나는 유닛들 사이의 관계를 말한다. 예를 들어, "이국 새"는 "새"의 연관이지만 "새의 기도"는 확장이다. 간단히 하기 위해서 단지 6 확장 및 6 연관만이 도시되지만, 임의의 수가 도시될 수 있음을 알 수 있다.
연관 및 확장 칼럼 내의 괄호 내 숫자는 질의에 대한 확장/연관의 총 수를 측정한 것이다. 적당한 컬럼 헤더를 클릭함으로써, 출력이 알파벳으로 또는 확장/연관의 빈도에 기초하여 분류될 수 있다.
처음 두 개의 출력 컬럼은, 괄호 내에 얼마나 많은 확장/연관을 갖는지를 표시하는 랭크 및 확장/연관을 포함한다. 연관의 경우에, 원래의 질의는 도시된 바와 같이 생략부호 ("...")로 교체된다. 또한, 확장을 클릭한 결과는 확장이 이어서 그 특정 확장에 대해서 조사되는 것이다. 한편, 연관을 클릭하는 것은 연관된 유닛에 대한 연관을 리턴시킨다. 도 7의 결과 칼럼 내의 "링크" 링크를 선택하는 것은 별개의 윈도우에 검색 결과를 준다. 확장/연관 수로서의 빈도는 한가지 특징에 따라서, 한 주 동안에 완전한 질의 로그에 기초해 있다. 각각의 그리고 모든 질의, (한 주에 한 번만 나타날 수 있는 이들 질의를 포함함)는 이러한 계산에 고려된다.
도 9 및 10은 입력 검색 질의에 응답하는 온라인 사용자에게 제공된 표시의 예들을 도시한다. 특히, 도 9 및 10은, 질의 "우드" 및 "새"를 각각 입력할 때 사용자에게 리턴될 수 있는 검색 결과 페이지의 예를 표시한다. 간략하게 하기 위해서 그러한 예의 표시 페이지의 일부만이 도시된다.
본 발명이 예를 통해서 그리고 특정 실시예들에 따라서 기술되었지만, 본 발명은 개시된 실시예에 제한되는 것은 아님을 알 수 있다. 오히려, 당업자라면 잘 알 수 있듯이 여러 변형 및 유사한 장치를 망라하고자 하는 것이다. 그러므로, 첨부된 청구범위는 그러한 모든 변형 및 유사한 장치를 모두 망라하는 것으로서 가장 넓은 해석과 일치해야 한다.

Claims (37)

  1. 사용자 검색 질의로부터 개념 유닛을 발생하는 컴퓨터로 수행하는 방법으로서,
    하나 이상의 단어의 열을 포함하는 복수의 질의를 수신하는 단계;
    각 질의에 대해서 하나 이상의 토큰을 발생하기 위한 각각의 질의 열을 토큰하는 단계로서, 상기 질의에 대한 상기 토큰은 초기 유닛 세트를 형성하는, 단계;
    제2 유닛 세트를 형성하기 위해 하나의 질의내에서 서로 인접하여 나타나는 초기 유닛 세트로부터의 유닛을 결합하는 단계;
    상기 제2 유닛 세트를 유효화하는 단계;
    수렴 조건이 만족할 때까지 초기 유닛 세트 대신에 상기 제2 유닛 세트를 이용하여 한번 이상 결합 및 유효화하는 단계를 반복하는 단계로서, 최종 유닛 세트는 상기 수렴 조건이 만족되면 형성되는, 단계; 및
    상기 최종 유닛 세트를 메모리에 저장하는 단계를 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 수신 단계에서는 하나 이상의 질의 로그 파일이 수신되며, 각각의 질의 로그 파일은 복수의 질의를 포함하는, 방법.
  3. 제 2 항에 있어서,
    하나 이상의 질의 로그 파일로부터 단일의 통합된 질의 파일로 복수의 질의를 통합하는 단계를 더 포함하는, 방법.
  4. 제 3 항에 있어서,
    상기 통합 단계는 질의의 사본을 제거하며 개별 질의의 사본이 제거될 때마다 상기 각각의 개별 질의와 연관된 계수를 증가시키며, 상기 통합된 파일은 개별 질의의 리스트 및 그와 연관된 계수를 포함하는, 방법.
  5. 제 3 항에 있어서,
    상기 수신된 질의 로그 파일은 일주일의 각 날에 대한 질의 로그 파일을 포함하며, 통합 단계는 상기 일주일에 대한 질의를 포함하는 단일의 통합된 질의를 형성하는 단계를 포함하는, 방법.
  6. 제 1 항에 있어서,
    최종 유닛 세트를 이용하여 유닛 확장자를 발생하는 단계를 더 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 유닛 확장자를 발생하는 단계는 다른 유닛의 서브세트인 유닛을 식별하는 단계를 포함하는, 방법.
  8. 제 6 항에 있어서,
    상기 유닛 확장자를 상기 메모리에 저장하는 단계를 더 포함하는, 방법.
  9. 제 1 항에 있어서,
    최종 유닛 세트를 이용하여 유닛 연관자를 발생하는 단계를 더 포함하는, 방법.
  10. 제 9 항에 있어서,
    상기 유닛 연관자를 발생하는 단계는 다른 유닛과 연관된 유닛을 식별하는 단계를 포함하는, 방법.
  11. 제 10 항에 있어서,
    상기 유닛 연관자를 상기 메모리에 저장하는 단계를 더 포함하는, 방법.
  12. 제 10 항에 있어서,
    상기 연관된 유닛을 식별하는 단계는 어떤 유닛이 다른 유닛을 갖는 질의내에서 나타나는지를 판단하는 단계를 포함하는, 방법.
  13. 제 1 항에 있어서,
    상기 수렴 조건이 만족된 후에 유닛 대안을 발생하는 단계를 더 포함하는, 방법.
  14. 제 13 항에 있어서,
    유닛 대안을 발생하는 단계는 최종 유닛 세트내의 두 개의 유닛 사이의 편집 간격이 임계값보다 작은지 여부를 판단하며, 만일 작으면, 두 개의 유닛의 상대적인 빈도를 비교하는 단계를 포함하는, 방법.
  15. 제 1 항에 있어서,
    상기 최종 유닛 세트를 이용하여 유닛 확장자를 발생하는 단계;
    상기 최종 유닛 세트를 이용하여 유닛 연관자를 발생하는 단계; 및
    상기 최종 유닛 세트를 이용하여 유닛 대안을 발생하는 단계를 더 포함하는, 방법.
  16. 제 15 항에 있어서,
    유닛 확장자, 유닛 연관자 및 유닛 대안을 상기 메모리에 저장하는 단계를 더 포함하는, 방법.
  17. 제 15 항에 있어서,
    유닛 확장자를 발생하는 단계는 다른 유닛의 서브세트인 유닛을 식별하는 단계를 포함하며, 유닛 연관자를 발생하는 단계는 다른 유닛과 연관되는 유닛을 식별하는 단계를 포함하며, 유닛 대안을 발생하는 단계는 상기 최종 유닛 세트 내의 두 개의 유닛 사이의 편집 간격이 임계값보다 작은지를 판단하고, 만일 작으면 상기 두 개의 유닛의 상대적인 빈도를 비교하는 단계를 포함하는, 방법.
  18. 제 1 항에 있어서,
    유효화하는 단계는, 제2 유닛 세트내의 각각의 결합된 유닛에 대해서, 상기 결합된 유닛의 발생 빈도를 상기 결합된 유닛내의 각 구성요소의 발생 빈도와 비교하는 단계를 포함하는, 방법.
  19. 제 1 항에 있어서,
    상기 수렴 조건은 임계값을 포함하며, 상기 수렴 조건은, 연속되는 결합 및 유효화 단계 사이에서 상기 제2 유닛 세트내의 유닛 수의 변화가 상기 임계값보다 작거나 그와 같을 때 만족되는 것인, 방법.
  20. 제 1 항에 있어서,
    사용자로부터 개별 질의를 수신하는 단계;
    개별 질의내의 하나 이상의 유닛을 식별하는 단계; 및
    상기 개별 질의내에서 식별되는 하나 이상의 유닛과 연관하여 상기 메모리내에 저장된 유닛 확장자들, 유닛 연관자들 및 유닛 대안들 중 하나 이상을 이용하여 질의에 응답하여 사용자에게 제공하도록 하나 이상의 제안을 판단하는 단계를 더 포함하는, 방법.
  21. 사용자 검색 질의로부터 개념 유닛을 발생하는 시스템에 있어서,
    메모리 유닛; 및
    하나 이상의 질의 로그 파일을 수신하도록 구성되는 처리 모듈로서, 각각의 질의 로그 파일은 복수의 질의를 포함하며, 각각의 질의는 하나 이상의 단어의 열을 포함하며,
    상기 처리 모듈은,
    초기 유닛 세트를 생성하기 위해서 상기 질의 로그 파일로부터 각각의 질의를 토큰하며 그후 수렴 조건이 만족될 때까지 반복하며;
    제2 유닛 세트를 형성하기 위해서 질의 내에서 서로 인접하여 나타나는 상기 초기 유닛 세트로부터의 유닛들을 결합하며;
    상기 제2 유닛 세트를 유효화하며 - 상기 제2 유닛 세트는 각각의 반복을 위해서 사용됨 -;
    상기 수렴 조건이 만족되면, 상기 메모리 유닛에 최종 유닛 세트를 저장하도록 구성되는, 시스템.
  22. 제 21 항에 있어서,
    상기 질의 로그 파일을 제공하기 위한 하나 이상의 질의 로그 파일 소스를 더 포함하는, 시스템.
  23. 제 21 항에 있어서,
    상기 처리 모듈은,
    상기 최종 유닛 세트를 이용하여 유닛 확장자를 발생하며;
    상기 최종 유닛 세트를 이용하여 유닛 연관자를 발생하며;
    상기 최종 유닛 세트를 이용하여 유닛 대안을 발생하며;
    상기 최종 유닛 세트와 연관하여 상기 메모리 유닛에 유닛 확장자, 유닛 연관자 및 유닛 대안을 저장하도록 더 구성되는, 시스템.
  24. 제 21 항에 있어서,
    상기 수신된 질의 로그 파일은 일주일의 각 날에 대한 질의 로그 파일을 포함하며, 상기 처리 모듈은 상기 질의 로그 파일을 상기 일주일에 대한 질의로 구성되는 단일의 통합된 질의로 통합하도록 구성되는, 시스템.
  25. 제 24 항에 있어서,
    상기 처리 모듈은 질의들의 사본들을 제거하며 각각의 개별 질의와 연관된 계수를 상기 개별 질의의 사본이 제거될 때마다 증가시킴으로써 통합하며, 상기 통합된 파일은 개별 질의들의 리스트와 그와 연관된 계수들을 포함하는, 시스템.
  26. 제 25 항에 있어서,
    상기 처리 모듈은 상기 질의에 연관된 계수를 이용하여 각 유닛에 대한 발생 빈도를 판단하며, 상기 처리 모듈은 상기 최종 유닛 세트와 연관되어 상기 메모리 유닛에 상기 유닛 빈도를 저장하는 것인, 시스템.
  27. 제 21 항에 있어서,
    상기 메모리 유닛 및 처리 모듈은 망내의 검색 서버 장치내에서 수행되는 것인, 시스템.
  28. 하나의 프로세서가 복수의 사용자 검색 질의로부터 개념 유닛을 발생하도록하기 위한 코드를 포함하는 컴퓨터 판독가능 기록 매체로서, 각 질의는 하나 이상의 단어의 열을 포함하고, 상기 코드는,
    a) 각각의 질의에 대해 하나 이상의 토큰을 생성하기 위해 각각의 질의 열을 토큰하되, 상기 각 질의에 대한 상기 토큰은 초기 유닛 세트를 형성하며;
    b) 제2 유닛 세트를 형성하기 위해서 하나의 질의 내에서 서로 인접하여 나타나는 초기 유닛 세트로부터의 유닛을 결합하며;
    c) 상기 제2 유닛 세트를 유효화하며;
    d) 수렴 조건이 만족할 때까지 상기 초기 유닛 세트 대신에 제2 유닛 세트를 이용하여 일회 이상 b) 및 c)를 반복하되, 최종 유닛 세트는 상기 수렴 조건이 만족되면 형성되며;
    상기 최종 유닛 세트를 메모리 모듈에 저장하기 위한 명령을 포함하는, 컴퓨터 판독가능 기록 매체.
  29. 제 28 항에 있어서,
    상기 코드는,
    상기 최종 유닛 세트를 이용하여 유닛 확장자를 발생하며;
    상기 최종 유닛 세트를 이용하여 유닛 연관자를 발생하며;
    상기 최종 유닛 세트를 이용하여 유닛 대안을 발생하며;
    상기 최종 유닛 세트와 연관하여 상기 메모리 모듈에 유닛 확장자, 유닛 연관자 및 유닛 대안을 저장하기 위한 명령을 포함하는, 컴퓨터 판독가능 기록 매체.
  30. 제 29 항에 있어서,
    유닛 확장자를 발생하기 위한 상기 명령은 다른 유닛의 서브세트인 유닛을 식별하기 위한 명령을 포함하며, 유닛 연관자를 발생하기 위한 상기 명령은 다른 유닛에 연관된 유닛을 식별하기 위한 명령을 포함하며, 유닛 대안을 발생하기 위한 상기 명령은 최종 유닛 세트내의 두 개의 유닛 사이의 편집 간격이 임계값보다 작은지를 판단하며 만약 작다면 상기 두 개의 유닛의 상대 빈도를 비교하기 위한 명령을 포함하는, 컴퓨터 판독가능 기록 매체.
  31. 제 1 항에 있어서,
    각각의 단어는 하나 또는 복수의 알파뉴메릭 문자를 포함하는, 방법.
  32. 제 1 항에 있어서, 상기 최종 유닛 세트를 메모리에 저장하는 단계는 상기 최종 유닛 세트를 유닛 사전에 저장하는 단계를 포함하는, 방법.
  33. 제21항에 있어서, 상기 메모리 유닛은 유닛 사전을 포함하고, 상기 최종 유닛 세트를 상기 메모리 유닛에 저장하는 단계는 상기 최종 유닛 세트를 상기 유닛 사전에 저장하는 단계를 포함하는, 시스템.
  34. 제 28 항에 있어서, 상기 최종 유닛 세트를 메모리 모듈에 저장하는 단계는 상기 최종 유닛 세트를 유닛 사전에 저장하는 단계를 포함하는, 컴퓨터 판독가능 기록 매체.
  35. 제 1 항에 있어서,
    상기 제2 유닛 세트는 복수의 유닛을 포함하고,
    상기 제2 유닛 세트를 유효화하는 단계는,
    (a) 상기 복수의 유닛 각각이 상기 복수의 유닛의 다른 유닛들과 분리하여 자체적으로 나타나는 빈도를 감지하는 단계와;
    (b) 상기 복수의 유닛 중 두 개 이상의 유닛이 전체 질의 세트를 통틀어 서로 인접하게 나타나는 빈도를 감지하는 단계와;
    (a)의 결과와 (b)의 결과를 비교하는 단계를 포함하는, 방법.
  36. 제 21 항에 있어서,
    상기 제2 유닛 세트는 복수의 유닛을 포함하고,
    상기 처리 모듈은, (a) 상기 복수의 유닛 각각이 상기 복수의 유닛의 다른 유닛들과 분리하여 자체적으로 나타나는 빈도를 감지하고, (b) 상기 복수의 유닛 중 두 개 이상의 유닛이 전체 질의 세트를 통틀어 서로 인접하게 나타나는 빈도를 감지하고, (a)의 결과와 (b)의 결과를 비교하는 것을 포함하는 동작들을 수행하여 상기 제2 유닛 세트를 유효화하도록 추가적으로 구성되는, 시스템.
  37. 제 28 항에 있어서,
    상기 제2 유닛 세트는 복수의 유닛을 포함하고,
    상기 제2 유닛 세트를 유효화하는 것은,
    (a) 상기 복수의 유닛 각각이 상기 복수의 유닛의 다른 유닛들과 분리하여 자체적으로 나타나는 빈도를 감지하고;
    (b) 상기 복수의 유닛 중 두 개 이상의 유닛이 전체 질의 세트를 통틀어 서로 인접하게 나타나는 빈도를 감지하고;
    (a)의 결과와 (b)의 결과를 비교하는 것을 포함하는, 컴퓨터 판독가능 기록 매체.
KR1020057018930A 2003-04-04 2004-04-02 검색 질의로부터 개념 유닛을 발생하기 위한 시스템 및 방법 KR101077699B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US46022203P 2003-04-04 2003-04-04
US60/460,222 2003-04-04
US10/713,576 US7051023B2 (en) 2003-04-04 2003-11-12 Systems and methods for generating concept units from search queries
US10/713,576 2003-11-12
PCT/US2004/010386 WO2004090670A2 (en) 2003-04-04 2004-04-02 Systems and methods for generating concept units from search queries

Publications (2)

Publication Number Publication Date
KR20060006798A KR20060006798A (ko) 2006-01-19
KR101077699B1 true KR101077699B1 (ko) 2011-10-27

Family

ID=33101416

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057018930A KR101077699B1 (ko) 2003-04-04 2004-04-02 검색 질의로부터 개념 유닛을 발생하기 위한 시스템 및 방법

Country Status (5)

Country Link
US (1) US7051023B2 (ko)
EP (1) EP1611506B1 (ko)
JP (2) JP5173186B2 (ko)
KR (1) KR101077699B1 (ko)
WO (1) WO2004090670A2 (ko)

Families Citing this family (251)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271316B2 (en) 1999-12-17 2012-09-18 Buzzmetrics Ltd Consumer to business data capturing system
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7197470B1 (en) 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US7499914B2 (en) 2003-04-04 2009-03-03 Yahoo! Inc. Search system using search subdomain and hints to subdomains in search query statements and sponsored results on a subdomain-by-subdomain basis
US7854009B2 (en) 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US7346629B2 (en) 2003-10-09 2008-03-18 Yahoo! Inc. Systems and methods for search processing using superunits
US20050097089A1 (en) * 2003-11-05 2005-05-05 Tom Nielsen Persistent user interface for providing navigational functionality
KR100452085B1 (ko) * 2004-01-14 2004-10-12 엔에이치엔(주) 카테고리 별 키워드의 입력 순위를 제공하기 위한 검색서비스 시스템 및 그 방법
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7293005B2 (en) 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US20050198026A1 (en) * 2004-02-03 2005-09-08 Dehlinger Peter J. Code, system, and method for generating concepts
US20050177555A1 (en) * 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
US20050203934A1 (en) * 2004-03-09 2005-09-15 Microsoft Corporation Compression of logs of language data
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7725414B2 (en) 2004-03-16 2010-05-25 Buzzmetrics, Ltd An Israel Corporation Method for developing a classifier for classifying communications
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US20060004730A1 (en) * 2004-07-02 2006-01-05 Ning-Ping Chan Variant standardization engine
US20080208800A1 (en) * 2004-07-15 2008-08-28 Innovation Business Partners, Inc. Method and System For Increasing Invention
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7555524B1 (en) * 2004-09-16 2009-06-30 Symantec Corporation Bulk electronic message detection by header similarity analysis
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7827181B2 (en) * 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US8065316B1 (en) 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
WO2006039566A2 (en) 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US20060136391A1 (en) * 2004-12-21 2006-06-22 Morris Robert P System and method for generating a search index and executing a context-sensitive search
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US7937396B1 (en) 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US20060230005A1 (en) * 2005-03-30 2006-10-12 Bailey David R Empirical validation of suggested alternative queries
US7565345B2 (en) * 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US9177248B2 (en) 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US8849860B2 (en) 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US7596574B2 (en) * 2005-03-30 2009-09-29 Primal Fusion, Inc. Complex-adaptive system for providing a facted classification
US7606781B2 (en) * 2005-03-30 2009-10-20 Primal Fusion Inc. System, method and computer program for facet analysis
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US9208229B2 (en) 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US20060224579A1 (en) * 2005-03-31 2006-10-05 Microsoft Corporation Data mining techniques for improving search engine relevance
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US7631007B2 (en) * 2005-04-12 2009-12-08 Scenera Technologies, Llc System and method for tracking user activity related to network resources using a browser
US9110985B2 (en) * 2005-05-10 2015-08-18 Neetseer, Inc. Generating a conceptual association graph from large-scale loosely-grouped content
US7958120B2 (en) 2005-05-10 2011-06-07 Netseer, Inc. Method and apparatus for distributed community finding
US7831545B1 (en) * 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US9158855B2 (en) 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US8417693B2 (en) 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
CA2614653A1 (en) * 2005-07-15 2007-01-25 Think Software Pty Ltd Method and apparatus for providing structured data for free text messages
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7921109B2 (en) * 2005-10-05 2011-04-05 Yahoo! Inc. Customizable ordering of search results and predictive query generation
WO2007047252A2 (en) * 2005-10-11 2007-04-26 Intelligenxia Inc. System, method & computer program product for concept based searching & analysis
WO2007051227A1 (en) * 2005-10-31 2007-05-10 Think Software Pty Ltd. Interacting with a computer-based management system
US8380721B2 (en) * 2006-01-18 2013-02-19 Netseer, Inc. System and method for context-based knowledge search, tagging, collaboration, management, and advertisement
WO2007084778A2 (en) 2006-01-19 2007-07-26 Llial, Inc. Systems and methods for creating, navigating and searching informational web neighborhoods
US7676485B2 (en) 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US7849047B2 (en) * 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US7739225B2 (en) 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of an aspect-value pair
US7640234B2 (en) * 2006-02-09 2009-12-29 Ebay Inc. Methods and systems to communicate information
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
US7739226B2 (en) * 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of the aspect rules
US9443333B2 (en) 2006-02-09 2016-09-13 Ebay Inc. Methods and systems to communicate information
US7725417B2 (en) * 2006-02-09 2010-05-25 Ebay Inc. Method and system to analyze rules based on popular query coverage
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US8843434B2 (en) * 2006-02-28 2014-09-23 Netseer, Inc. Methods and apparatus for visualizing, managing, monetizing, and personalizing knowledge search results on a user interface
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
JP4677355B2 (ja) * 2006-03-03 2011-04-27 キヤノン株式会社 Webサービス装置及び順次処理移譲方法
US7814097B2 (en) * 2006-03-07 2010-10-12 Yahoo! Inc. Discovering alternative spellings through co-occurrence
US8935290B2 (en) * 2006-05-03 2015-01-13 Oracle International Corporation User interface features to manage a large number of files and their application to management of a large number of test scripts
US20080016157A1 (en) * 2006-06-29 2008-01-17 Centraltouch Technology Inc. Method and system for controlling and monitoring an apparatus from a remote computer using session initiation protocol (sip)
US8965874B1 (en) 2006-08-04 2015-02-24 Google Inc. Dynamic aggregation of users
CN101145153B (zh) * 2006-09-13 2011-03-30 阿里巴巴集团控股有限公司 一种搜索信息的方法及系统
US8458207B2 (en) * 2006-09-15 2013-06-04 Microsoft Corporation Using anchor text to provide context
US7660783B2 (en) 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US7577643B2 (en) * 2006-09-29 2009-08-18 Microsoft Corporation Key phrase extraction from query logs
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US9817902B2 (en) * 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
US8056007B2 (en) * 2006-11-15 2011-11-08 Yahoo! Inc. System and method for recognizing and storing information and associated context
US8005806B2 (en) * 2006-11-15 2011-08-23 Yahoo! Inc. System and method for information retrieval using context information
US8522257B2 (en) * 2006-11-15 2013-08-27 Yahoo! Inc. System and method for context information retrieval
US8635203B2 (en) * 2006-11-16 2014-01-21 Yahoo! Inc. Systems and methods using query patterns to disambiguate query intent
US7941436B2 (en) * 2006-11-30 2011-05-10 Yahoo, Inc. Keyword bidding strategy for novel concepts
US7555478B2 (en) * 2006-12-05 2009-06-30 Yahoo! Inc. Search results presented as visually illustrative concepts
US7555477B2 (en) * 2006-12-05 2009-06-30 Yahoo! Inc. Paid content based on visually illustrative concepts
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
US7840538B2 (en) * 2006-12-20 2010-11-23 Yahoo! Inc. Discovering query intent from search queries and concept networks
US8108390B2 (en) 2006-12-21 2012-01-31 Yahoo! Inc. System for targeting data to sites referenced on a page
US8185524B2 (en) * 2006-12-22 2012-05-22 Yahoo! Inc. Method and system for locating events in-context
US20080163312A1 (en) * 2006-12-28 2008-07-03 Meca Communications, Inc. System and method for providing content relating to a communication
US7788247B2 (en) * 2007-01-12 2010-08-31 Microsoft Corporation Characteristic tagging
US20080177704A1 (en) * 2007-01-24 2008-07-24 Microsoft Corporation Utilizing Tags to Organize Queries
US7827172B2 (en) * 2007-03-14 2010-11-02 Yahoo! Inc. “Query-log match” relevance features
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7788252B2 (en) * 2007-03-28 2010-08-31 Yahoo, Inc. System for determining local intent in a search query
US7774348B2 (en) * 2007-03-28 2010-08-10 Yahoo, Inc. System for providing geographically relevant content to a search query with local intent
US7805450B2 (en) 2007-03-28 2010-09-28 Yahoo, Inc. System for determining the geographic range of local intent in a search query
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US20080243480A1 (en) * 2007-03-30 2008-10-02 Yahoo! Inc. System and method for determining semantically related terms
US20080243826A1 (en) * 2007-03-30 2008-10-02 Yahoo! Inc. System and method for determining semantically related terms
US7856433B2 (en) * 2007-04-06 2010-12-21 Yahoo! Inc. Dynamic bid pricing for sponsored search
US7672937B2 (en) * 2007-04-11 2010-03-02 Yahoo, Inc. Temporal targeting of advertisements
US20080270228A1 (en) * 2007-04-24 2008-10-30 Yahoo! Inc. System for displaying advertisements associated with search results
US9396261B2 (en) 2007-04-25 2016-07-19 Yahoo! Inc. System for serving data that matches content related to a search results page
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US20080301033A1 (en) * 2007-06-01 2008-12-04 Netseer, Inc. Method and apparatus for optimizing long term revenues in online auctions
US7966291B1 (en) 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US8090709B2 (en) * 2007-06-28 2012-01-03 Microsoft Corporation Representing queries and determining similarity based on an ARIMA model
US7689622B2 (en) * 2007-06-28 2010-03-30 Microsoft Corporation Identification of events of search queries
US7685099B2 (en) * 2007-06-28 2010-03-23 Microsoft Corporation Forecasting time-independent search queries
US7685100B2 (en) 2007-06-28 2010-03-23 Microsoft Corporation Forecasting search queries based on time dependencies
US7693908B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Determination of time dependency of search queries
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US20090006311A1 (en) * 2007-06-28 2009-01-01 Yahoo! Inc. Automated system to improve search engine optimization on web pages
US7693823B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Forecasting time-dependent search queries
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8595252B2 (en) * 2007-09-14 2013-11-26 Google Inc. Suggesting alternative queries in query results
KR100913051B1 (ko) * 2007-09-18 2009-08-20 엔에이치엔(주) 연관 급상승어 검색 방법 및 그 시스템
US20090083255A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Query spelling correction
US7765204B2 (en) * 2007-09-27 2010-07-27 Microsoft Corporation Method of finding candidate sub-queries from longer queries
US7428522B1 (en) 2007-09-27 2008-09-23 Yahoo! Inc. Real-time search term popularity determination, by search origin geographic location
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US8190628B1 (en) * 2007-11-30 2012-05-29 Google Inc. Phrase generation
US8347326B2 (en) 2007-12-18 2013-01-01 The Nielsen Company (US) Identifying key media events and modeling causal relationships between key events and reported feelings
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US8745028B1 (en) * 2007-12-27 2014-06-03 Google Inc. Interpreting adjacent search terms based on a hierarchical relationship
US20090192784A1 (en) * 2008-01-24 2009-07-30 International Business Machines Corporation Systems and methods for analyzing electronic documents to discover noncompliance with established norms
US7831588B2 (en) * 2008-02-05 2010-11-09 Yahoo! Inc. Context-sensitive query expansion
US7860878B2 (en) * 2008-02-25 2010-12-28 Yahoo! Inc. Prioritizing media assets for publication
US8959104B2 (en) * 2008-03-21 2015-02-17 Microsoft Corporation Presenting query suggestions based upon content items
US20100077001A1 (en) * 2008-03-27 2010-03-25 Claude Vogel Search system and method for serendipitous discoveries with faceted full-text classification
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
WO2009132442A1 (en) * 2008-05-01 2009-11-05 Sweeney Peter Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis
US8676732B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US10387892B2 (en) * 2008-05-06 2019-08-20 Netseer, Inc. Discovering relevant concept and context for content node
US20090300009A1 (en) * 2008-05-30 2009-12-03 Netseer, Inc. Behavioral Targeting For Tracking, Aggregating, And Predicting Online Behavior
US8630972B2 (en) * 2008-06-21 2014-01-14 Microsoft Corporation Providing context for web articles
US8782061B2 (en) * 2008-06-24 2014-07-15 Microsoft Corporation Scalable lookup-driven entity extraction from indexed document collections
CA2988181C (en) * 2008-08-29 2020-03-10 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search
US20100094874A1 (en) * 2008-10-15 2010-04-15 Siemens Aktiengesellschaft Method and an apparatus for retrieving additional information regarding a patient record
US20100114878A1 (en) * 2008-10-22 2010-05-06 Yumao Lu Selective term weighting for web search based on automatic semantic parsing
US8417695B2 (en) * 2008-10-30 2013-04-09 Netseer, Inc. Identifying related concepts of URLs and domain names
US7949647B2 (en) * 2008-11-26 2011-05-24 Yahoo! Inc. Navigation assistance for search engines
CN101477542B (zh) * 2009-01-22 2013-02-13 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
US9330165B2 (en) * 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US20110035211A1 (en) * 2009-08-07 2011-02-10 Tal Eden Systems, methods and apparatus for relative frequency based phrase mining
US8458154B2 (en) 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
US20110060645A1 (en) * 2009-09-08 2011-03-10 Peter Sweeney Synthesizing messaging using context provided by consumers
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US20110060644A1 (en) * 2009-09-08 2011-03-10 Peter Sweeney Synthesizing messaging using context provided by consumers
US9262520B2 (en) 2009-11-10 2016-02-16 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US20110119269A1 (en) * 2009-11-18 2011-05-19 Rakesh Agrawal Concept Discovery in Search Logs
US8543381B2 (en) * 2010-01-25 2013-09-24 Holovisions LLC Morphing text by splicing end-compatible segments
US8886623B2 (en) * 2010-04-07 2014-11-11 Yahoo! Inc. Large scale concept discovery for webpage augmentation using search engine indexers
US20110270819A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Context-aware query classification
US8161073B2 (en) 2010-05-05 2012-04-17 Holovisions, LLC Context-driven search
US8874727B2 (en) 2010-05-31 2014-10-28 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to rank users in an online social network
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US9235806B2 (en) 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US8812733B1 (en) 2010-08-19 2014-08-19 Google Inc. Transport protocol independent communications library
US8706750B2 (en) 2010-08-19 2014-04-22 Google Inc. Predictive query completion and predictive search results
TW201227364A (en) * 2010-12-24 2012-07-01 Hon Hai Prec Ind Co Ltd System and method for searching files
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US20120191745A1 (en) * 2011-01-24 2012-07-26 Yahoo!, Inc. Synthesized Suggestions for Web-Search Queries
US9323833B2 (en) 2011-02-07 2016-04-26 Microsoft Technology Licensing, Llc Relevant online search for long queries
US20120239381A1 (en) 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
US8732151B2 (en) 2011-04-01 2014-05-20 Microsoft Corporation Enhanced query rewriting through statistical machine translation
US8930338B2 (en) * 2011-05-17 2015-01-06 Yahoo! Inc. System and method for contextualizing query instructions using user's recent search history
US20120296743A1 (en) * 2011-05-19 2012-11-22 Yahoo! Inc. Method and System for Personalized Search Suggestions
US8725760B2 (en) 2011-05-31 2014-05-13 Sap Ag Semantic terminology importer
US10068022B2 (en) * 2011-06-03 2018-09-04 Google Llc Identifying topical entities
US9098575B2 (en) 2011-06-20 2015-08-04 Primal Fusion Inc. Preference-guided semantic processing
US8762356B1 (en) 2011-07-15 2014-06-24 Google Inc. Detecting change in rate of input reception
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US8645825B1 (en) 2011-08-31 2014-02-04 Google Inc. Providing autocomplete suggestions
US9003018B2 (en) * 2011-09-15 2015-04-07 Ca, Inc. System and method for data set synchronization and replication
CN103814375B (zh) * 2011-09-29 2015-04-22 乐天株式会社 信息处理装置、信息处理方法
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN102880633A (zh) * 2012-07-27 2013-01-16 四川长虹电器股份有限公司 基于特征词的内容推送方法
US10311085B2 (en) 2012-08-31 2019-06-04 Netseer, Inc. Concept-level user intent profile extraction and applications
US10152533B2 (en) * 2012-10-18 2018-12-11 Thomson Reuters Global Resources Unlimited Company System, method and interface for providing a search result using segment constraints
US9092509B2 (en) 2012-11-19 2015-07-28 Microsoft Technology Licensing, Llc Search query user interface
US10678870B2 (en) * 2013-01-15 2020-06-09 Open Text Sa Ulc System and method for search discovery
US9378277B1 (en) * 2013-02-08 2016-06-28 Amazon Technologies, Inc. Search query segmentation
US9201945B1 (en) 2013-03-08 2015-12-01 Google Inc. Synonym identification based on categorical contexts
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US10152538B2 (en) 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
CN103279513B (zh) * 2013-05-22 2017-03-01 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
CN104252487B (zh) * 2013-06-28 2019-05-03 百度在线网络技术(北京)有限公司 一种用于生成词条信息的方法和装置
CN103488763A (zh) * 2013-09-26 2014-01-01 乐视致新电子科技(天津)有限公司 一种搜索方法和装置
US9996529B2 (en) * 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US10002187B2 (en) * 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US10114862B2 (en) * 2014-08-29 2018-10-30 International Business Machines Corporation Suggestion of a broad-spectrum list of grouped natural language search query terms
US9646047B2 (en) * 2014-09-04 2017-05-09 International Business Machines Corporation Efficient extraction of intelligence from web data
CN104484387B (zh) * 2014-12-10 2018-09-04 北京奇虎科技有限公司 一种浏览器中进行搜索的方法和浏览器装置
US10552427B2 (en) 2016-04-29 2020-02-04 Nutanix, Inc. Searching for information relating to virtualization environments
CA3056257A1 (en) * 2017-04-03 2018-10-11 American Chemical Society Systems and methods for query and index optimization for retrieving data in instances of a formulation data structure from a database
CN107590711A (zh) * 2017-07-07 2018-01-16 南京理工大学 基于捆绑算法和多轮双向拍卖理论的无线缓存策略
US20190026295A1 (en) * 2017-07-19 2019-01-24 Nutanix, Inc. System and method for obtaining application insights through search
US10706103B2 (en) 2018-01-30 2020-07-07 Microsoft Technology Licensing, Llc System and method for hierarchical distributed processing of large bipartite graphs
US11023472B2 (en) 2018-02-27 2021-06-01 Nutanix, Inc. System and method for troubleshooting in a virtual computing system
US20210150840A1 (en) * 2019-11-15 2021-05-20 Ashley Marie Roethlisberger Apparatus and methods of collaborative decision making

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249921A (ja) 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体
US6363373B1 (en) 1998-10-01 2002-03-26 Microsoft Corporation Method and apparatus for concept searching using a Boolean or keyword search engine
US6539348B1 (en) 1998-08-24 2003-03-25 Virtual Research Associates, Inc. Systems and methods for parsing a natural language sentence

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583763A (en) 1993-09-09 1996-12-10 Mni Interactive Method and apparatus for recommending selections based on preferences in a multi-user system
JPH0934911A (ja) * 1995-07-18 1997-02-07 Fuji Xerox Co Ltd 情報検索装置
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US6389406B1 (en) * 1997-07-30 2002-05-14 Unisys Corporation Semiotic decision making system for responding to natural language queries and components thereof
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
JP2002251402A (ja) * 2001-02-26 2002-09-06 Mitsubishi Electric Corp 文書検索方法及び文書検索装置
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539348B1 (en) 1998-08-24 2003-03-25 Virtual Research Associates, Inc. Systems and methods for parsing a natural language sentence
US6363373B1 (en) 1998-10-01 2002-03-26 Microsoft Corporation Method and apparatus for concept searching using a Boolean or keyword search engine
JP2001249921A (ja) 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体

Also Published As

Publication number Publication date
WO2004090670A2 (en) 2004-10-21
JP2006524393A (ja) 2006-10-26
US20040199498A1 (en) 2004-10-07
EP1611506A4 (en) 2008-07-30
JP5312418B2 (ja) 2013-10-09
EP1611506B1 (en) 2019-01-02
KR20060006798A (ko) 2006-01-19
US7051023B2 (en) 2006-05-23
EP1611506A2 (en) 2006-01-04
JP5173186B2 (ja) 2013-03-27
JP2011044159A (ja) 2011-03-03
WO2004090670A3 (en) 2005-03-03

Similar Documents

Publication Publication Date Title
KR101077699B1 (ko) 검색 질의로부터 개념 유닛을 발생하기 위한 시스템 및 방법
US7707201B2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
US6199067B1 (en) System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
CN100485603C (zh) 用于从搜索查询中产生概念单元的系统和方法
US7194454B2 (en) Method for organizing records of database search activity by topical relevance
US20080263022A1 (en) System and method for searching and displaying text-based information contained within documents on a database
US7844594B1 (en) Information search, retrieval and distillation into knowledge objects
US8589373B2 (en) System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US7340460B1 (en) Vector analysis of histograms for units of a concept network in search query processing
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
EP1678639B1 (en) Systems and methods for search processing using superunits
JP4535765B2 (ja) コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
US20020091661A1 (en) Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US20110055185A1 (en) Interactive user-controlled search direction for retrieved information in an information search system
US20110145225A1 (en) Customizable ordering of search results and predictive query generation
JP5079845B2 (ja) コンテンツナビゲーションプログラム
WO2007033338A2 (en) Networked information indexing and search apparatus and method
KR20120065423A (ko) 탐색 결과들의 관련성을 재순위화 및 증가시키기
WO2009126394A1 (en) Search results ranking using editing distance and document information
US20040015485A1 (en) Method and apparatus for improved internet searching
JP2002073677A (ja) 閲覧者の個人嗜好情報収集装置およびこれを利用した情報閲覧支援装置
KR20000063422A (ko) 인터넷 정보 검색 시 개인의 북마크 파일 데이터를기반으로 필터링하여 개인 맞춤 검색 결과를 도출하는 방법
Abdulmunim et al. Links Evaluation and Ranking Based on Semantic Metadata Analysis
Yin Development of Automated Web Traversing Tool
Venugopal et al. Hashing the Web for Better Reorganization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140930

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150917

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160921

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170919

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180918

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190917

Year of fee payment: 9