KR101201037B1 - 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 - Google Patents
키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 Download PDFInfo
- Publication number
- KR101201037B1 KR101201037B1 KR1020050031630A KR20050031630A KR101201037B1 KR 101201037 B1 KR101201037 B1 KR 101201037B1 KR 1020050031630 A KR1020050031630 A KR 1020050031630A KR 20050031630 A KR20050031630 A KR 20050031630A KR 101201037 B1 KR101201037 B1 KR 101201037B1
- Authority
- KR
- South Korea
- Prior art keywords
- similarity
- term
- bid
- instructions
- terms
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C13/00—Adaptations of machines or pumps for special use, e.g. for extremely high pressures
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M1/00—Suction or pumping devices for medical purposes; Devices for carrying-off, for treatment of, or for carrying-over, body-liquids; Drainage systems
- A61M1/80—Suction pumps
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C14/00—Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations
- F04C14/18—Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations characterised by varying the volume of the working chamber
- F04C14/22—Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations characterised by varying the volume of the working chamber by changing the eccentricity between cooperating members
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2/00—Rotary-piston machines or pumps
- F04C2/02—Rotary-piston machines or pumps of arcuate-engagement type, i.e. with circular translatory movement of co-operating members, each member having the same number of teeth or tooth-equivalents
- F04C2/063—Rotary-piston machines or pumps of arcuate-engagement type, i.e. with circular translatory movement of co-operating members, each member having the same number of teeth or tooth-equivalents with coaxially-mounted members having continuously-changing circumferential spacing between them
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2230/00—Manufacture
- F04C2230/20—Manufacture essentially without removing material
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2240/00—Components
- F04C2240/20—Rotors
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2240/00—Components
- F04C2240/80—Other components
- F04C2240/805—Fastening means, e.g. bolts
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Heart & Thoracic Surgery (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Anesthesiology (AREA)
- Biomedical Technology (AREA)
- Hematology (AREA)
- Vascular Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
용어들과 웹 사이트 콘텐츠들간 관련성을 검증하는 시스템 및 방법이 개시된다. 일 태양에서, 입찰(bid) URL로부터 사이트 콘텐츠들을 검색된다. 입찰 용어(들)와 의미상 및/또는 문맥상 관련되는 확장 용어(들)가 산출된다. 입찰 용어(들), 사이트 콘텐츠들 및 확장 용어들의 개별 조합으로부터 콘텐츠 유사도 측정치 및 확장 유사도 측정치가 산출된다. 확장 용어들과 사이트 콘텐츠들간 카테고리 유사도 측정치들이 트레이닝된 유사도 분류자의 관점에서 결정된다. 트레이닝된 유사도 분류자는 디렉토리 데이이터와 관련된 마이닝된 웹 사이트 콘텐츠로부터 트레이닝된다. 트레이닝된 관련성 분류자 모델의 관점에서 여러 유사도 스코어들을 평가하는 콘텐츠 측정치, 확장 유사도 측정치 및 카테고리 유사도 측정치로부터 입찰 용어(들)와 사이트 콘텐츠들간 관련성의 객관적인 측정을 제공하는 신뢰도 값이 결정된다.
용어, 웹 사이트 콘텐츠, 입찰(bid) URL, 확장 용어, 유사도, 신뢰도 값
Description
도면들에서, 컴포넌트 참조 부호의 가장 좌측의 숫자는 그 컴포넌트가 최초로 나타나는 특정 도면을 식별한다.
도 1은 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 예시적인 시스템.
도 2는 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 예시적인 프로시져.
도 3은 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 예시적인 프로시져. 특히, 도 3은 도 2의 예시적인 동작들의 계속이다.
도 4는 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 후술되는 시스템, 장치 및 방법이 완전히 또는 부분적으로 구현될 수 있는 예시적인 적절한 컴퓨팅 환경.
<도면의 주요 부분에 대한 부호 설명>
102 : 편집 검증 서버
104 : 네트워크
106 : 검색 엔진
110 : 검색 용어 제안(STS) 모듈
112 : 관련성 검증 모듈
114 : 분류 모듈
116 : 용어 매칭 모듈
<관련 출원>
본 특허 출원은 다음의 특허 출원들과 관련이 있는데, 이들 각각은 본 출원의 양수인에게 일반 양도되었으며, 본 명세서에 참조로 반영되었다.
2004년 4월 15일자로 출원된 "Related Term Suggestion for Multi-Sense Query"를 발명의 명칭으로 하는 미국 특허 출원 번호 10/825,894;
2004년 4월 15일자로 출원된 "Reinforced Clustering of Multi-Type Data Objects for Search Term Suggestion"을 발명의 명칭으로 하는 미국 특허 출원 번호 10/826,159; 및
2003년 5월 1일자로 출원된 "Object Clustering Using Inter-Layer Links"를 발명의 명칭으로 하는 미국 특허 출원 번호 10/427,548.
본 발명의 시스템 및 방법은 데이터 마이닝에 관한 것이다.
키워드 또는 키프레이즈는 월드 와이드 웹(WWW) 상에서 관련 웹 페이지/사이 트를 검색할 때 웹 서퍼에 의해 검색 엔진에 제출되는 하나의 워드 또는 세트의 용어이다. 검색 엔진은 페이지/사이트 상에 나타나는 키워드 및 키워드 프레이즈에 기초하여 웹 사이트의 관련성을 결정한다. 웹 사이트 트래픽의 상당한 부분이 검색 엔진들의 사용으로부터 발생하므로, 웹 사이트 프로모터는 원하는 사이트를 찾기 위해 적절한 키워드의 선택이 사이트 트래픽 증가에 매우 중요하다는 것을 안다. 검색 엔진 결과 최적화를 위해 웹 사이트와 관련된 키워드를 식별하는 기술들은 예를 들어 관련 키워드를 식별하기 위해 사람이 웹 사이트 콘텐츠 및 목적을 평가하는 기술을 포함한다. 이러한 평가는 키워드 인기 도구의 사용을 포함할 수 있다. 이러한 도구는 얼마나 많은 사람들이 특정 키워드 또는 이 키워드를 포함하는 프레이즈를 검색 엔진에 제출하였는지를 결정한다. 웹 사이트와 관련되고, 검색 질의를 생성하는 데 보다 자주 사용된 것으로 결정된 키워드가 일반적으로 웹 사이트에 대한 검색 엔진 결과 최적화를 위해 선택된다.
웹 사이트의 검색 엔진 결과 최적화를 위한 한 세트의 키워드를 식별한 후, 프로모터는 검색 엔진의 결과들에서 웹 사이트를 (다른 웹 사이트 검색 엔진 결과들의 표시 위치들에 비해) 더 높은 위치로 승진시키기를 원할 수 있다. 이 때문에, 프로모터는 특정 URL과 함께 사용할 키워드에 입찰(bid)하는데, 이 입찰은 웹 서퍼가 키워드와 관련된 프로모터의 리스트를 클릭할 때마다 프로모터가 얼마를 지불할 것인지를 나타낸다. 즉, 키워드 입찰은 특정 URL(웹 사이트) 프로모션을 위한 페이-퍼-클릭(pay-per-click) 입찰이다. 키워드 입찰이가 동일 키워드에 대한 다른 입찰이에 비해 클수록, 검색 엔진은 키워드에 기초한 검색 결과들에서 관련 웹 사이트를 더 높은 위치에(중요도 면에서 보다 현저하게) 표시한다. 불행하게도, 광고주 입찰 용어는 웹 사이트 콘텐츠와 관련될 수 없으며, 결과적으로 최종 사용자에 의해 사용되는 용어 또는 언어와 매칭될 수 없다.
키워드를 웹 사이트(즉, 웹 사이트 콘텐츠)에 대해 검증하는 가장 간단한 방법은 어떠한 추가적인 데이터 포인트 비교도 없이 키워드와 웹 사이트 사이의 유사도만을 측정하는 종래의 검색 방법을 이용하는 것이다. 그러나, 이 기술은 크게 제한된다. 키워드가 웹 사이트와 관련이 있을 수 있어도, 웹 사이트 자체는 원하는 키워드를 지원하는 임계 기준(예를 들어, 직접 매칭, 발생 수 등)을 포함하지 않아 잠재적으로 가치 있는 입찰 용어가 거절될 수 있다. 예를 들어, 관련 웹 사이트를 가진 온라인 쇼핑 회사가 "online shopping"이라는 프레이즈에 입찰하는 것을 고려하자. 종래의 검색 방법이 사용되어, 웹 사이트에서 비교적 적은 수의 키워드 "shopping"의 발생이 발견되고, 키워드 "online"의 발생이 전혀 발견되지 않는 경우, 잠재적으로 가치 있는 키프레이즈 "online shopping"은 실수로 입찰 용어로서 실격될 수 있다.
또 하나의 종래의 기술은 제출된 입찰 용어/프레이즈 및 웹 사이트를 2개의 카테고리 확률 벡터로 분류하는 기술인데, 이 2개의 벡터는 최종 관련성 스코어로 결합된다. 이러한 종래 기술의 문제점은 웹 사이트에 대해 직접 용어/프레이즈를 평가하지 못하여 실질적으로 문제가 될 수 있다는 점이다. 예를 들어, 광고주가 "Italian shoes"라는 용어에 입찰하고, 그의 웹 사이트가 슈즈는 팔지만 이탈리안 슈즈는 아닌 경우, 종래의 분류 기술은 "Italian shoes"라는 프레이즈가 웹 사이트 와 무관하다는 것을 광고주에게 표시한다.
위에 비추어 볼 때, 웹 사이트 콘텐츠와 관련된 키워드를 보다 양호하게 식별할 수 있는 시스템 및 방법이 웹 사이트 프로모터들에게 환영 받을 것이다. 이것은 프로모터들이 최종 사용자에 의해 사용될 가능성이 높은 용어에 입찰하는 것을 허용한다. 이상적으로는, 이러한 시스템 및 방법은 사람이 검색 엔진 최적화 및 키워드 입찰을 위한 관련 키워드를 식별하기 위하여 웹 사이트 콘텐츠를 평가해야 할 필요성과 무관할 것이다.
용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 시스템 및 방법이 설명된다. 일 양태에서, 입찰 URL로부터 사이트 콘텐츠가 검색된다. 입찰 용어와 의미적으로 그리고/또는 문맥적으로 관련된 확장 용어가 산정된다. 콘텐츠 유사도 및 확장 유사도 측정치는 입찰 용어(들), 사이트 콘텐츠 및 확장 용어들의 각각의 조합으로부터 산출된다. 확장 용어들과 사이트 콘텐츠 간의 카테고리 유사도 측정치는 트레이닝된 유사도 분류자를 고려하여 결정된다. 트레이닝된 유사도 분류자는 디렉토리 데이터와 연관된 마이닝된 웹 사이트 콘텐츠로부터 트레이닝되었다. 입찰 용어와 사이트 콘텐츠 사이의 관련성의 객관적인 측정을 제공하는 신뢰값이 트레이닝된 관련성 분류자 모델을 고려하여 다수의 유사도 스코어를 평가하는 콘텐츠, 확장 및 카테고리 유사도 측정치들로부터 결정된다.
개요
다음의 시스템 및 방법은 종래의 용어 자격 기술의 한계를 해결하기 위하여 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증한다. 이 때문에, 시스템 및 방법은 트레이닝된 분류자 모델을 통해 다수의 유사도 측정치를 조합하여, 입찰 용어가 특정 웹 사이트의 콘텐츠와 관련되어 있는지를 나타내는 단일 신뢰값을 제공한다. 구체적으로, 그리고 이 실시예에서, 다수의 유사도 측정치는 콘텐츠, 카테고리 및 적절한 명칭 유사도 스코어들을 포함한다.
콘텐츠 유사도 스코어는 직접 및 확장 콘텐츠 유사도을 포함한다. 직접 콘텐츠 유사도은 제출된 웹 사이트의 입찰 용어 및 사이트 콘텐츠의 벡터 모델을 평가함으로써 결정된다. 확장 유사도은 확장 용어의 벡터 모델과 사이트 콘텐츠 사이의 유사도을 평가함으로써 결정된다. 확장 용어는 과거의 질의 용어들의 높은 발생 빈도를 고려하여 검색 엔진으로부터 마이닝되고, 입찰 용어와 의미적으로 그리고/또는 문맥적으로 유사한 것으로 결정된다. 카테고리 유사도은 트레이닝된 유사도 카테고리 분류(분류자) 모델을 확장 용어 및 웹 사이트 콘텐츠에 적용하여 이러한 입력들 사이의 카테리고들의 관련성을 결정함으로써 결정된다. 적절한 명칭 유사도은 적절한 명칭들의 데이터베이스를 고려하여 입찰 용어 및 웹 사이트 콘텐츠를 평가함으로써 결정된다. 이러한 다수의 유사도 측정치들은 수용/거부 임계치를 고려하여 이들 스코어로부터 단일 관련성 신뢰값을 생성하도록 트레이닝되는 조합된 관련성 분류자 모델을 이용하여 조합된다. 신뢰값은 이들 다수의 상이한 유사도 측정치를 고려하여 웹 사이트에 입찰 용어의 관련성의 객관적인 측정치를 제공한다.
용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 본 시스템 및 방법의 이들 및 다른 양태들이 이제 보다 상세히 설명된다.
예시적인 편집 검증 시스템
동일 참조 부호들이 동일 요소들을 나타내는 도면들을 참조하면, 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 시스템 및 방법은 적절한 편집 검증 컴퓨팅 환경에서 구현되는 것으로 설명되고 도시된다. 요구되지는 않지만, 본 발명은 개인용 컴퓨터에 의해 실행되는 컴퓨터 실행 가능 명령들(프로그램 모듈들)과 일반적으로 관련하여 설명된다. 프로그램 모듈들은 일반적으로 특정 작업을 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 시스템 및 방법이 전술한 관계에서 설명되지만, 이후 설명되는 행위 및 동작은 하드웨어로 구현될 수도 있다.
도 1은 입찰 용어와 입찰 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 시스템(100)을 나타낸다. 이 실시예에서, 시스템(100)은 네트워크(104)를 통해 검색 엔진(106)에 결합된 편집 검증 서버(102)를 포함한다. 네트워크(104)는 예를 들어 사무실, 기업 컴퓨터 네트워크, 인트라넷 및 인터넷에서 일반적인 근거리 네트워크(LAN) 및 원거리 네트워크(WAN) 통신 환경들의 임의의 조합을 포함할 수 있다. 편집 검증 서버(102)는 다수의 프로그램 모듈, 예를 들어, 검색 용어 제안(STS) 모듈(110), 관련성 검증 모듈(112), 분류 모듈(114), 용어 매칭 모듈(116), 및 웹 사이트를 식별하는 입찰 URL로부터 사이트 콘텐츠를 검색하는 웹 페이지 크 롤러와 같은 다른 프로그램 모듈(118)을 포함한다.
최종 사용자(예를 들어, 광고주, 웹 사이트 프로모터 등)는 입찰 URL의 사이트 콘텐츠에 대한 입찰 용어의 관련성 검증을 위해 편집 검증 서버(102)에 입찰 입력(120)을 제공한다. 입찰 입력(120)은 입찰 용어(122) 및 입찰 URL(124)을 포함한다. 일 실시예에서, 편집 검증 서버(102)는 최종 사용자가 편집 검증 서버(102)에 입찰 입력(120)을 제공할 수 있는 키보드, 마우스, 음성 인식 시스템 등과 같은 하나 이상의 사용자 입력 인터페이스(예를 들어, 도 4의 사용자 입력 인터페이스(460) 참조)를 포함한다. 다른 실시예에서, 편집 검증 서버(102)는 최종 사용자가 편집 검증 서버(102)에 입찰 입력(120)을 제공할 수 있는 클라이언트 컴퓨팅 장치(예를 들어, 도 4의 원격 컴퓨터(480))에 네트워크(104)를 통해 결합된다.
예시적인 검색 용어 제안
최종 사용자로부터 입찰 입력(120)을 수신하는 것에 응답하여, 검색 용어 제안 모듈(110)은 용어(122)를 의미적으로 그리고/또는 문맥적으로 관련된 용어들로 확장하기 위해 검색 용어 제안 리스트(126)를 생성한다. 용어(122)의 다수의 의미 또는 문맥은 후술하는 바와 같이 추가적인 용어 의미를 제공할 수 있다. 도표 1은 "mail"이라는 용어(122)와 관련된 것으로 결정된 용어들의 예시적인 제안 용어 리스트(126)를 나타낸다. 용어(122)와 관련된 용어들은 이 예에서 "Suggested Term(s)"라는 제목의 1열에 나타나 있다.
[도표 1] 입찰 용어 "메일(MAIL)"에 대한 예시적인 제안된 용어 리스트
도표 1을 참조하면, 각각의 제안 용어(1열)에 대해, 검색 용어 제안 리스트(126)는 또한 제안 용어와 용어(122) 사이의 관련도를 나타내는 각각의 유사도 측정값(2열 참조), 및 1열의 제안 용어가 얼마나 자주 검색 엔진(106)에 제출되었는지를 나타내는 각각의 이용 스코어 빈도(3열 참조)를 포함한다는 점에 유의한다. 이 예에서, 2열의 각각의 유사도 값은 대응하는 제안 용어(1열)와, 이 예에서 "mail"인 입찰 용어(122) 사이의 유사도 크기 또는 스코어를 제공한다. 각각의 빈도 값 또는 스코어는 제안 용어가 최종 사용자 검색 질의에서 특정 검색 엔진(106)에 의해 사용된 회수를 나타낸다. 최종 사용자에게 제공될 것인 경우, 제안 용어 리스트(126)는 예를 들어 제안 용어, 유사도 및/또는 빈도 스코어에 의해 사업 목표의 함수로서 분류된다.
임의의 주어진 용어(122)(예를 들어, mail 등)는 입찰 용어가 사용될 수 있는 단일 문맥보다 많을 수 있다. 이를 설명하기 위하여, 검색 용어 제안 모듈(110)은 문맥에 의해 제안 용어를 분리한다. 예를 들어, 도표 1을 참조하면, "mail"이라는 용어(122)는 2개의 문맥, 즉 (1) 통상의 오프라인 메일, 및 (2) 온라인 이메일을 갖는다. 제안 용어의 각각의(분리되거나 독립된) 리스트는 이러한 2개의 입찰 용어 문맥 각각에 대해 나타나 있다는 점에 유의한다.
제안 용어 리스트(126)의 제안 용어는 용어(122)의 유사어들보다 많을 수 있다. 예를 들어, 도표 1을 참조하면, "usps"라는 제안 용어는 "mail"이라는 입찰 용어에 대한 유사어가 아니라, 메일을 처리하는 조직에 대한 두문자어이다. 그러나, "usps"는 또한 "mail" 입찰 용어와 매우 문맥적으로 관련된 용어이며, 따라서 제안 용어 리스트(126)에 표시된다. 일 실시예에서, 검색 용어 제안 모듈(110)은 다음의 연관 규칙, 즉 itr(T)->itr(R)(여기서, "itr"은 "관심 있는(interested in)"을 나타낸다)의 함수로서 관련 용어 R과 타겟 용어 T(예를 들어, "mail") 사이의 관계를 결정한다. 즉, 최종 사용자(광고주, 웹 사이트 프로모터 등)가 R에 관 심 있는 경우, 최종 사용자는 T에도 관심이 있을 수 있다.
검색 용어 제안 리스트(126)를 생성하기 위하여, 검색 용어 제안 모듈(110)은 질의 로그(130)로부터 마이닝된 과거의 질의들 중 선택된 것들을 검색 엔진(106)에 제출한다. 검색 엔진(106)으로의 제출을 위해 선택된 과거 질의는 검색 용어 제안 모듈(110)에 의해, 질의 로그(130)로부터 마이닝된 과거의 질의 용어들 중 다른 것들에 비해 매우 높은 발생 빈도(FOO)를 갖는 것으로 식별된다. 이 실시예에서는, 과거 질의가 비교적 높거나 낮은 발생 빈도를 갖는지를 결정하기 위해 설정 가능 임계값이 사용된다. 예를 들어, 적어도 임계 회수 발생하는 과거 질의 용어들은 높은 발생 빈도를 갖는 것으로 일컬어진다. 유사하게, 임계 회수보다 적게 발생하는 과거 질의 용어들은 낮은 발생 빈도를 갖는 것으로 일컬어진다. 설명을 위해, 이러한 임계값은 "다른 데이터(other data)"(132)의 개별 부분으로서 표시된다. 높거나 낮은 FOO 질의 용어들은 "다른 데이터"(132)의 "높은/낮은 FOO 질의들"로서 표시된다.
검색 용어 제안 모듈(110)은 각각의 질의 용어에 대해 반환된 검색 결과들(예를 들어, 하나 이상의 상위 검색 결과들) 중 선택된 것들로부터 한 세트의 특징들 또는 발췌 설명들을 추출한다. 검색 용어 제안 모듈(110)은 추출된 데이터에 대해 텍스트 사전 처리 동작을 수행하여 개별 용어 토크들을 생성한다. 토큰들의 크기를 줄이기 위해, 검색 용어 제안 모듈(110)은 임의의 스톱 워드(예를 들어, "the", "a", "is" 등)를 삭제하고, 공통 접미사들을 삭제하며, 이에 의해 예를 들어 공지된 포터 스테밍 알고리즘(Porter stemming algorithm)을 이용하여 용어들을 정규화한다. 검색 용어 제안 모듈(110)은 결과 용어들 및 다른 추출된 특징들을 하나 이상의 검색 용어 제안(STS) 벡터로 배열한다(용어 벡터(134)의 개별 부분으로서 표시됨). 각 STS 벡터(134)는 용어 빈도 및 반전 문서 빈도(TFIDF) 스코어들에 기초한 크기를 갖는다.
ith 벡터의 jth 용어에 대한 가중치는 다음과 같이 산출된다:
wij=TFijxlog(N/DFj)
여기서, TFij는 용어 빈도(ith 레코드 내의 용어 j의 발생 회수)이고, N은 질의 용어들의 총 수이며, DFj는 용어 j를 포함하는 레코드들의 수이다. 검색 용어 제안 모듈(110)은 이들 각각의 가중치를 사용하여, STS 벡터들(134)로부터 유사한 용어들 및 문맥을 그룹화함으로써 용어 클러스터들(136)을 생성한다. 이 때문에, 그리고 이 실시예에서는, 각각의 용어에 대한 벡터 표현이 주어질 때, 한 쌍의 용어들 사이의 유사도를 측정하기 위해 코사인 함수를 사용한다(용어들은 정규화되었음을 상기한다):
따라서, 두 용어 사이의 간격(유사도 측정치)은 다음과 같이 정의된다:
이러한 검색 용어 제안(STS) 유사도 측정치는 "다른 데이터"(132)의 각각의 부분으로서 표시된다. 예시적인 이러한 유사도 값들은 위 도표 1의 예시적인 제안 용어 리스트(126)에 표시된다.
검색 용어 제안 모듈(110)은 산출된 용어 유사도 측정치를 사용하여, 용어 클러스터(136)의 일부에 기초하여 STS 벡터들(134) 내의 용어들을 높은 FOO의 과거 질의 용어로 클러스터링/그룹핑한다. 구체적으로, 그리고 이 실시예에서, 검색 용어 제안 모듈(110)은 공지된 밀도 기반 클러스터링 알고리즘(DBSCAN)을 이용하여, 이들 용어 클러스터(136)를 생성한다. DBSCAN은 2개의 파라미터, 즉 Eps 및 MinPts를 사용한다. Eps는 용어 클러스터(136) 내의 포인트들 간의 최소 간격을 나타낸다. 하나의 포인트는 용어의 특징 벡터이다. 높은 차수의 공간에서, 벡터는 포인터와 동등하다. MinPts는 용어 클러스터(136) 내의 포인트들의 최소 수이다. 클러스터(136)를 생성하기 위하여, DBSCAN은 임의의 포인트 p로부터 시작하여, Eps 및 MinPts와 관련하여 p로부터 밀도 도달 가능한 모든 포인트를 검색한다. p가 코어 포인트인 경우, 이 동작은 Eps 및 MinPts에 관련된 용어 클러스터(136)를 생성한다. p가 경계 포인트인 경우, 어떠한 포인트도 p로부터 밀도 도달 가능하지 않으며, DBSCAN은 다음 포인트를 방문한다.
이어서, 검색 용어 제안 모듈(110)은 용어(122)를 용어 클러스터들(136) 내의 용어 각각과 비교한다. 용어 클러스터들은 의미적으로 그리고/또는 문맥적으로 서로 관련된 특징들을 포함하므로, 용어(122)는 용어(122)를 확장하기 위해 다수의 관련 문맥 또는 "의미"를 고려하여 평가되며, 이에 의해 검색 용어 제안 리스트(126)를 생성한다. 일 실시예에서, 검색 용어 제안 모듈(110)이 용어(122)가 단 하나의 클러스터(136)로부터의 용어와 매칭하는 것으로 결정한 경우, 검색 용어 제 안 모듈(110)은 단일 클러스터(136)로부터 제안 용어 리스트(126)를 생성한다. 이 실시예에서, 매칭은 정확한 매칭이거나, 비정칙/다수 형태, 오자, 구두점 등과 같은 소수의 변화가 있는 매칭일 수 있다. 생성된 용어 리스트는 소정의 기준에 의해 정렬되는데, 이 기준은 예를 들어 FOO 및 용어(122)와 제안 용어 사이의 유사도의 다음과 같은 선형 조합일 수 있다:
여기서, α+β=1이다.
검색 용어 제안 모듈(110)이 용어(122)가 다수의 용어 클러스터(136) 내의 용어와 매칭하는 것으로 결정하면, 검색 용어 제안 모듈(110)은 다수의 용어 클러스터의 용어들로부터 제안 용어 리스트(126)를 생성한다. 각각의 클러스터로부터 제안된 용어는 앞 단락에서 전술한 바와 동일한 방법으로 정렬된다.
검색 용어 제안 모듈(110)이 검색 용어 제안 리스트(126)를 생성하는 예시적인 시스템 및 방법이 2004년 4월 15일자로 출원된 "Related Term Suggestion for Multi-Sense Query"라는 발명의 명칭을 가진 미국 특허 출원 번호 10/825,894에 설명되어 있다.
예시적인 관련성 검증
관련성 검증 모듈(112)은 검색 용어 제안 리스트(126)의 제안 용어(입찰 입력(120) 용어(122)를 확장하는 용어) 및 입찰 입력(120)(즉, 용어(122) 및 URL(124)로부터의 사이트 콘텐츠)를 사용하여, 신뢰값(138)을 생성하는데, 이 값은 입찰 용어(122)와 입찰 URL(124)의 사이트 콘텐츠 사이의 관련성을 측정한다. 이 때문에, 관련성 검증 모듈(112)은, 예시 및 설명의 목적으로 관련성 검증(RV) 유사도 측정치(140)로서 도시되는 다수의 유사도 측정치로부터 신뢰값(138)을 산출한다. 이 실시예에서, RV 유사도 측정치(140)는 예를 들어 콘텐츠 유사도, 분류 유사도, 및 적절한 명칭 유사도 스코어를 포함한다. 이들 타입의 RV 유사도 측정치(140) 각각이 이제 설명된다.
RV 유사도 측정치(140)의 콘텐츠 유사도 측정치 부분은 직접 및 확장 유사도 측정치를 포함한다. 직접 유사도를 산출하기 위하여, 관련 검증 모듈(112)은 벡터 공간에서 모델링되는 용어(122) 및 URL(13)의 사이트 콘텐츠 양자 간의 유사도/관련도를 측정한다. 확장 유사도를 산출하기 위하여, 예를 들어 "다른 프로그램 모듈(118)"의 개별 부분으로 표시되는 웹 페이지 크롤러 모듈에 의해 URL(124)의 사이트 콘텐츠가 검색된다. 관련성 검증 모듈(112)은 검색 용어 제안 리스트(126)의 제안 용어와 URL(124)의 사이트 콘텐츠 사이의 유사도를 결정하는데, 이들 양 입력도 벡터 공간에서 모델링된다. 전술한 바와 같이, 검색 용어 제안 리스트(126)의 제안 용어는 (a) 제출된 높은 FOO의 과거 질의 용어들을 고려하여 검색 엔진(106)에 의해 반환된 결과들로부터 마이닝되었다. 따라서, 제안 용어는 입찰 용어(122)와 의미적으로 그리고/또는 문맥적으로 관련된 것으로 결정된다.
RV 유사도 측정치(140)의 적절한 명칭 유사도 측정치 부분은 입찰 용어(122)에서 검출된 임의의 적절한 명칭과 URL(124)의 사이트 콘텐츠 사이의 유사도/관련도를 나타낸다. 설명을 위해, 적절한 명칭들의 데이터베이스가 "다른 데이터 "(132)의 개별 부분으로 표시된다. 이러한 적절한 명칭들은 예를 들어 국가, 도시 및 유명한 등록 상표의 명칭을 포함한다. 구체적으로, 입찰 입력(120)에서 임의의 적절한 명칭을 검출하면, 관련성 검증 모듈(112)은 다음과 같이 적절한 명칭 유사도를 산출한다:
Prop_Sim(term,page)=
- 1 - term이 적절한 명칭 P를 포함하고, page가 상응하는 적절한 명칭 Q를 포함하는 경우.
- 0 - term이 적절한 명칭 P를 포함하고, page가 단지 상응하지 않는 적절한 명칭 Q를 포함하는 경우.
- 0.5 - 그 외.
적절한 명칭은 그 자체 및 그의 조상에 상응한다. 예를 들어, 저레벨 지리적 위치는 자신을 포함하는 고레벨 지리적 위치에 상응하는데, 예를 들어 Milan은 Italy에 상응한다.
RV 유사도 측정치(140)의 분류 유사도 측정치 부분은 검색 용어 제안 리스트(126)의 제안 용어와 URL(124)의 사이트 콘텐츠 사이의 관련도를 측정한다. 구체적으로, 분류 유사도 측정치는 제안 용어 및 웹 사이트 콘텐츠를 트레이닝된 유사도 분류자(카테고리 분류)(142)로 제출함으로써 생성된다. 관련성 검증 모듈(122)은 후술되는 다수의 상이한 분류 기술(예를 들어, 네이브 베이시안(NB), 지원 벡터 머신(SVM), 통계적 n 그램 기반 네이브 베이시안(N-Gram), 최근접 이웃(KNN), 결정 트리, 공동 트레이닝, 부스팅 등) 중 어느 하나로 유사도 분류자(142)를 트레이닝 시킨다.
예시적인 오프라인 유사도 분류자 트레이닝
관련성 검증 모듈(112)은 디렉토리 데이터("다른 데이터"(132) 참조) 상의 φ:X->L로서 유사도 분류자(142)를 트레이닝시키는데, 여기서 X는 입력(단일 용어에서 여러 웹 페이지 콘텐츠까지의 스케일을 갖는 스트링 스트림)이며, L은 출력(카테고리들의 상위 2 레벨 모두에 대한 확률)이다. 카테고리 분류는 계층적 구조이다. 이 실시예에서, LookSmart 디렉토리 데이터의 2nd 레벨 카테고리들을 이용하는데, 이들 카테고리의 합은 분류를 위한 소정의 수(예를 들어, 74)이다. 관련성 검증 모듈(112)은 디렉토리 데이터 상에서 특징 추출 및 특징 선택 동작을 행한다. 구체적으로, 관련성 검증 모듈(112)은 디렉토리 데이터에 의해 식별된 웹 페이지로부터 발췌 설명(추출 데이터)을 추출한다. 예를 들어, "다른 프로그램 모듈"(118)의 개별 부분으로 표현되는 웹 페이지 크롤러 모듈에 의해 웹 페이지가 검색된다. 특정 웹 페이지에 대한 각각의 발췌 설명은 예를 들어 하나 이상의 제목, 메타데이터, 본체, 앵커 텍스트, 폰트 크기, 하이퍼링크, 이미지, 미가공 HTML(예를 들어, 요약 및 페이지 레이아웃 정보) 등을 포함한다.
관련성 검증 모듈(112)은 간단한 텍스트 사전 처리를 적용하여, 추출된 특징/데이터로부터 언어 토큰들을 생성한다(즉, 개별 용어들을 토큰화한다). 토큰의 크기를 줄이기 위하여, 관련성 검증 모듈(112)은 임의의 스톱 워드를 삭제하고, 공 통 접미사를 삭제하여, 예를 들어 공지된 포터 스테밍 알고리즘을 이용하여 용어들을 정규화한다. 관련성 검증 모듈(112)은 결과적으로 추출된 특징들을 하나 이상의 관련성 검증(RV) 용어 벡터(즉, RV 벡터(134))로 배열한다. 이와 같이, 각 웹 페이지는 특징 벡터로서 표현되는데, 이 벡터의 요소는 xi=<xi1,xi2...xin>의 가중치를 가진 워드이다. 가중치 xij는 아래의 형태를 가진 길이 정규화된 log(tf).idf에 의해 산출된다:
여기서, d는 오리지날 문서를 나타내고, t는 용어를 나타내며, fx,t는 x에서의 용어 t의 빈도를 나타내고, idft는 용어 t의 역 문서 빈도를 나타내며, dlbx는 x에서의 고유 용어들의 수를 나타내고, avefx는 x에서의 용어 빈도의 평균을 나타내며, avedlb는 집합 내의 dlbx의 평균을 나타낸다.
관련성 검증 모듈(112)의 특징 처리 동작은 RV-벡터(134)의 특징을 더 감소시킨다(너무 많은 특징이 분류 시스템의 성능과 정확도를 감소시킬 수 있다). 이러한 실시에 있어서, 정보 이득(IG) 선택 방법이 특징 선택에 이용된다. 소정의 기간 동안의 정보 이득은 아래의 수학식에서 그러한 용어의 존재 또는 부존재에 의해서 카테고리 예측에 대한 획득된 정보의 비트 수를 측정하는 용어이다.
여기서, t는 용어, c는 카테고리, m은 카테고리의 전체 수를 나타낸다. 상호 정보(MI), 문서 빈도(DF), 선형 판별 분석(LDA)과 같은 다른 특징 선택 방법이 이용될 수도 있다.
이러한 실시에 있어서, 관련성 검증 모듈(112) 분류자 트레이닝 동작은 다른 타입의 분류자가 이용될 수도 있지만, Naive Baysian 분류자(n-gram)에 기초를 두는 통계학적인 n-gram 모델을 이용한다. 특히, Naive Baysian 분류자와는 달리, 통계학적 n-gram 모델은 워드 스트림의 독립성을 가정하지는 않는다. Markov n-gram 독립성을 가정한다. 즉, 아래의 수학식에 따라 하나의 워드는 이전의 n-1 워드에 의존함을 가정한다.
트레이닝 자료로부터의 이러한 확률의 직접적인 추정은 아래의 수학식과 같은 관찰된 빈도에 의해서 주어진다.
대부분의 (수학식) 값들은 트레이닝 데이터에서 0을 가진다. 이러한 평활화 기술은 임의의 데이터 분포를 다루는 0 확률을 추정하는 데에 제안된다. 아래의 수학식과 같은 백오프(back-off) n-gram 모델은 이러한 이슈를 다루는 한가지 방법이다.
여기서
디스카운팅된 확률을 산출하는 몇몇 알고리즘이 존재한다. 본 실시예에서, "절대값 평활화"는 다음과 같이 이용되며,
여기서
본 실시에에서, n=3이며 n-gram 분류자는 3-gram 분류자로 불린다.
유사한 측정치의 정교한 결합
관련성 검증 모듈(112)은 신뢰치(138)를 생성하기 위하여 결합된 관련성 분류자(144)의 관점에서 다수의 RV 유사도 측정치(140)를 평가하는데, 이는 입찰 URL(124)의 사이트 컨텐츠에의 입찰 용어(들)(122)의 객관적인 관련성을 나타낸다. 결합된 관련성 분류자(144)는, 거부/수용 용어 임계치의 관점에서 <용어(들), 웹 페이지(URL), 수용/거부>의 형태의 데이터에 대하여 예컨대 SVM 분류자와 같은 감독된 학습을 통해서 트레이닝된다. 논의를 위하여, 거부/수용 용어 임계치는 각각의 "기타 데이터"(132)의 일부로서 나타난다.
RV-유사도 측정치(140)는 입찰 입력(120)(즉, <용어, 페이지> 쌍)으로 다루어진다. 설명과 논의를 위하여, 특징 벡터로서의 RV 유사도 측정치(SM)가 RVSM 특징 벡터(들)(140)로 나타나 있다. 우리는 아래와 같은 입찰 입력(120) 및 RV-유사도 측정치(140) 산출을 가진다.
·입찰 입력(120) : <용어(들)(122), URL(124)>
·Sim(용어(들)(122), URL(124))에 의해서 나타나는 용어(들)(122), URL(124)의 컨텐츠 기반 RV 유사도 측정치(140)
·확장된 컨텐츠 기반 RV-유사도 측정치(140) - Ex_Sim(확장된 용어(들)(126), URL(124))
·RV-유사도 측정치(140)에 기초를 두는 유사도 분류자(142) - Cate_Sim(확장된 용어들(126)의 카테고리, URL의 카테고리) 및
·RV 유사도 측정치(140)에 기초를 두는 적합한 명칭 - Proper_Sim(적합한 명칭,용어(들)(122), URL(124))
관련성 검증 모듈(112)는 <용어, 질의> RVSM 특징 벡터(들)(140)를 관련성 분류자(144)를 결합하는 데에 이용하여 각각의 RV 유사도 타입 가중치(즉, 컨텐츠, 확장, 카테고리 및 적합한 유사도 측정 타입) 및 최종 신뢰치(138)를 산출하기 위하여 거부/수용 관련성 임계치의 관점에서 다수의 RV 유사치들(140)을 맵핑한다.
낮은 FOO 용어들의 분류
구성가능한 임계치의 관점에서, 신뢰치(138)가 용어(들)(122)이 URL(124)의 사이트 컨텐츠와 무관한것으로 거부되어야함을 나타내는 경우에는, 분류 모듈(114)은 최종 사용자에 대한 발생의 낮은 빈도(FOO) 질의 용어들에 기초하여 암시된 용어 목록(126)을 생성하여 URL(124)의 사이트 컨텐츠의 관점에서 평가한다. 이러한 실시에 있어서, 암시된 용어 목록(126)이 평가를 위하여 최종 사용자에게 통신되는 메시지(146)로서 나타난다. 특히, 분류 모듈(114)은 용어 클러스터(136)로부터 STS 분류자(148)를 사용하는데, 이는 상기된 바와 같이 고 발생 빈도(FOO) 질의 로그 용어로부터 생성되었다. 분류 모듈(114)은 고 FOO 기반 용어 클러스터들(136)을 그들 각각의 용어 컨텐츠의 함수로서 하나 이상의 STS 카테고리들("기타 데이터(132)" 참조)로 그룹핑하는 데에 STS 분류자(148)를 이용한다. 용어 클러스트(136)는 이미 분류 동작에 적절한 벡터 공간 모델 내에 존재한다. 추가적으로, 정지 워드 제거 및 워드 스테밍(stemming)(접미어 제거)은 용어 클러스터(136) 컨텐츠의 치수를 이미 감소시켰다. 일 실시예에서, 예컨대 특징 선택 또는 재파라미터화와 같은 추가적인 치수 감소 기술이 이용될 수 있을 것이다.
이러한 실시에 있어서, 클래스를 알지 못하는 용어 클러스터(136)를 분류하기 위하여, 분류 모듈(114)은 k-Nearest Neighbor 분류자 알고리즘을 이용하여 용어 벡터들 중에서 클래스를 알지 못하는클러스터의 이웃을 랭킹(ranking)하고, 클래스를 알지 못하는 용어의 클래스를 예측하는 데에 k 개의 가장 유사한 이웃에 클레스 라벨을 사용한다. 이들 이웃의 클래스는 X에의 각각의 이웃의 유사도을 이용하여 가중치가 적용되며, 여기서 유사도은 Euclidean 거리 또는 두개의 문서 벡터들 사이의 코사인 값에 의해서 측정된다. 코사인 유사도은 아래의 수학식과 같으며,
여기서, X는 벡터로 나타나는 테스트 문서이며, Dj 는 j번째 트레이닝 문서이며, ti는 X 및 Dj에 의해서 공유된 워드이며, xi는 X에서의 용어 ti의 가중치이며, dij는 문서 Dj에서의 용어 ti의 가중치이며, 은 X의 놈(norm)이며, 은 Dj의 놈이다. 새로운 문서에 알려진 클래스를 할당하는 데에 차단 임계치가 이용된다.
다른 실시예에서, 최근접 분류 기술과는 다른 통계학적 분류 및 머신 학습 기술(예컨대, 회귀 모델, Bayesian 분류자, 결정 트리, 신경망 및 지원 벡터 머신을 포함함)이 트레이닝된 STS 분류자를 생성하는 데에 이용된다.
분류 모듈(114)은 저발생 빈도(FOO) 질의 용어(을 참조)를 검색 엔진(106)에 하나씩 제기한다. 제기된 질의의 각각의 검색 엔진에 대한 상응하는 검색 결과의 수신에 응답하여, 그리고 상기된 기술을 이용하여 분류 모듈(114)은 검색 결과에서 식별된 하나 이상의 검색된 웹 페이지(들) 각각으로부터 단편 기술과 같은 특징을 추출한다. 본 실시예에서, 특징은 제 1 순위의 웹 페이지로부터 추출된다. 이들 추출된 특징들은 "기타 데이터"(132)의 개별적인 부분으로 나타난다. 다른 실시예에서, 특징은 다수의 상위 순위의 웹 페이지로부터 추출된다. 각각의 검색되고 분석된 웹 페이지에 대하여, 분류 모듈(114)은 추출된 특징의 각각의 기록, 즉 단편 기술, 검색된 웹 페이지를 획득하는 데에 이용되는 검색 질의 및 검색된 웹 페이지의 URI에서의 이어지는 정보를 저장한다. 다음으로, 분류 모듈(114)은 다른 세트의 용어 벡터(즉, STS 벡터(134))를 생성하기 위하여 저 FOO 질의 용어로부터 발생된 추출 특징(138)을 토큰화, 치수의 감소 및 정규화를 행한다.
분류(114)는 STS-벡터(134)내의 용어(들)을 각각의 용어 클러스터(136)의 세트로 클러스터링하는데, 이들은 저 FOO 질의 용어에 기초하는 클러스터들이다. 이러한 클러스터링 동작은 트레이닝된 STS 분류자(148)를 이용하여 수행되는데, 이는 상기된 바와 같이 고 FOO 질의 용어들로부터 생성되었다. 분류 모듈(114)은 최종 사영자에게 다른 용어를 포함하는 암시된 용어 목록(126)을 식별하고 반환하기 위하여 이들 클러스터의 관점에서 용어(들)를 평가한다.
용어 매칭의 예
구성가능한 임계치의 관점에서, 신뢰치(138)가 용어(들)(122)이 URL(124)의 사이트 컨텐츠에 무관한 것으로 수용되어야 함을 나타내는 경우에는, 입찰 입력(120)은 최종 사용자로부터 수신되는 후속하는 질의(152)의 결정을 위하여 입찰 데이터베이스(150)에 저장된다. 예컨대, 웹 페이지를 검색하는 최종 사용자로부터의 질의(152)의 수신에 응답하여, 용어 매칭 모듈(116)은 질의(150)에서의 용어(들)와 입찰 데이터베이스(150)로부터의 용어(들) 사이의 거리를 편집하여 질의(152)에서 입찰 용어(들)(122)에의 관련성을 결정한다. 특히, 용어 매칭 모듈(116)은 아래의 수학식과 같이 관련성을 결정하며,
여기서, fCommon은 공통 용어(들)의 수를 나타내며, fDistance는 입찰 용어(들)(122)이 질의 용어(들)(152)과 교환된 횟수를 나타낸다.
예시적인 프로시져
도 2는 용어들과 웹 사이트 컨텐츠 사이의 관련성을 검증하는 예시적인 프로시져(200)를 나타낸다. 논의를 위하여, 프로시져의 동작은 도 1의 컴포넌트와 관련하여 논의된다(모든 참조부호는 컴포넌트가 먼저 도입된 도면의 부호로 시작한다). 블럭 202에서, 검색 용어 암시 모듈(110)은 제 1 용어 클러스터 세트(136)를 검색 엔진(106) 검색 결과로부터 생성한다. 논의를 위하여, 이러한 검색 결과들은 "기타 데이터"(132)의 각각의 부분으로 나타난다. 검색 결과를 얻기 위하여, 검색 용어 암시 모듈(110)은 질의 로그(130)으로부터 마이닝된 고발생 빈도 기록 질의들과 통신한다. 용어 클러스터(136)는 검색 질의에 상응하는 단편 기술 및 검색 용어 암시 모듈(110)에 의해서 의미 및/또는 문맥적으로 제기된 고발생 빈도의 기록 질의와 관련된 것으로 결정된 웹 페이지를 포함한다.
블럭 204에서, 용어(들)(122) 및 URL(124)을 포함하는 입찰 입력(120)을 수신하는 편집 검증 서버(102)에 응답하여, 검색 용어 암시 모듈(110)은 고 발생 빈도 기록 질의 용어들로부터 생성된 용어 클러스터들(136)로부터 확장된 용어들을 식별한다. 이러한 확장된 용어들은 의미 및/또는 문맥적으로 용어(들)(122) 및/또는 입찰 URL(124)의 사이트 컨텐츠(124)에 관련된 용어들을 포함한다. 확장된 용어들은 도 1의 암시된 용어 목록(126)에 나타난다. 블럭 206에서, 관련성 검증 모듈(112)은 컨텐츠, 확장, 분류 및 적절한 명칭 유사도 값(즉, RV 유사도 측정치(140))을 입찰 용어(들)(122), 입찰 URL(124), 암시된 용어 목록(126)의 확장 용어, 트레이닝된 유사도 분류자(142) 및/또는 적당한 명칭의 데이터베이스의 조합으로부터 각각 산출한다. 블럭 208에서, 관련성 검증 모듈(112)은 RV 유사도 측정치(140)를 트레이닝된 조합 관련성 분류자(144) 및 수용/거부 임계치("기타 데이터"(132) 참조)의 관점에서 결합하여 신뢰치(138)를 획득한다. 신뢰치(138)는 입찰 용어(들)(122)과 입찰 URL(124) 사이의 관련성의 객관적인 측정치를 제공한다.
블럭 210에서, 관련성 검증 모듈(112)은 수용/거부 임계치의 관점에서 신뢰치(138)가 너무 낮은지 여부를 판정한다. 너무 낮은 경우에는 프로시져는 블럭 212에서 계속된다. 블럭 212에서, 분류 모듈(114)은 저 FOO 기록 질의 및 제 1 용 어 클러스터(136) 세트에서 트레이닝된 분류자 검색 엔진(106) 결과에 기초하여 암시된 용어 목록을 제 2 용어 클러스터(136)의 세트로부터 생성한다. 암시된 용어 목록(126)의 용어(들)은 분류자 모듈(114)에 의해서 의미 및/또는 문잭적으로 입찰 URL(124)과 관련된 사이트 컨텐츠와 유사한 것으로 판정된다. 설명을 위하여, 분류자는 STS 분류자(148)로 나타난다. 이러한 예에서, 암시된 용어 목록(126)은 최종 사용자에게 평가를 위한 메시지(146)로서 통신하는 것으로 나타난다.
블럭 208에서, 관련 검증 모듈(112)이 신뢰치(138)가 수용할 수 있는 것으로 판정된 경우에(수용/거부 임계치의 관점에서 너무 낮지 않은 경우에), 페이지상에 참조부호 "A"로 나타난 바와 같이 프로시져는 도 3의 블럭(302)에서 계속된다.
도 3은 용어들과 웹 사이트 컨텐츠 사이의 관련성을 검증하는 예시적인 프로시져(300)를 나타낸다. 특히, 도 3은 도 2의 예시적인 동작의 연속이다. 블럭 3302에서, 관련성 검증 모듈(112)은 입찰 용어(들)(122) 및 입찰 URL(124)을 입찰 데이터베이스(150)에 저장/캐싱한다. 블럭 304에서, 임의의 사용자 질의(152)의 편집 검증 서버(102)에 의한 수신에 응답하여, 용어 매칭 모듈(116)은, 검색 질의(152)의 용어가 질의 용어들이 입찰 용어(들)(122)와 정확하게 매칭하지 않을 수 있다는 가능성의 관점에서 입찰 데이터베이스(150)에 저장된 용어(들)과 검색 질의(152)의 관련성 여부를 판정한다. 블럭 306에서, 질의(152) 용어(들)이 입찰 용어(들)(122)과 관련성이 있는 것으로 판정된 경우에, 편집 검증 서버(102)는 상응하는 입찰 URL(124)을 검색 결과로서 최종 사용자에게 통신한다.
예시적인 동작 환경
도 4는 도 1의 시스템(100) 및 도 2 및 3의 용어들과 웹 사이트 컨텐츠 사이의 관련성을 검증하는 방법이 전체적으로 또는 부분적으로 실시될 수 있는 적절한 컴퓨팅 환경(400)의 예를 나타낸다. 예시적인 컴퓨팅 환경(400)은 적절한 컴퓨팅 환경의 단지 한 예일 뿐이며, 본 명세서에 기재된 시스템의 기능 또는 방법의 범위에 제한을 가하려는 것은 아니다. 컴퓨팅 환경(400)은 컴퓨팅 환경(400)에 나타난 임의의 컴포넌트 또는 이들의 조합과 관련하여 어떠한 의존성을 가지거나 요구사항을 가지지는 않는 것으로 해석되어야 한다.
본 명세서에 개시된 방법 및 시스템은 여러 기타 범용 또는 전용 컴퓨팅 시스템 환경들 및 구성들에 의해 동작될 수 있다. 이러한 용도에 적합할 것으로 잘 알려진 컴퓨팅 시스템, 환경 및 또는 구성은 이에 제한되는 것은 아니지만, 퍼스널 컴퓨터, 서버 컴퓨터, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상술한 시스템 또는 디바이스 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등을 포함한다. 컴팩트 또는 서브세트 버전의 프레임워크 또한 핸드헬드 컴퓨터 또는 기타 컴퓨팅 디바이스들 등의 제한된 자원의 클라이언트에 구현될 수 있다. 본 발명은 통신 네트워크를 통해 링크되는 원격 처리 디바이스들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실행된다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 로컬 및 원격 메모리 저장 디바이스 양자 모두에 위치될 수 있다.
도 4를 참조하면, 용어들과 웹 사이트 콘텐츠들간 관련성을 검증하는 예시적 인 시스템은 컴퓨터(410) 형태의 범용 컴퓨팅 디바이스를 포함한다. 이하 설명된 양상의 컴퓨터(410)들은 클라이언트 컴퓨팅 디바이스 PSS 서버(102)(도 1) 및/또는 클라이언트 컴퓨팅 디바이스(106)의 예시적인 실시예이다. 컴퓨터(410)의 컴포넌트들은, 이에 제한되는 것은 아니지만, 처리 유닛(들)(420), 시스템 메모리(430), 및 시스템 메모리를 포함하는 여러 시스템 컴포넌트들을처리 유닛(420)에 연결하는 시스템 버스(421)를 포함할 수 있다. 시스템 버스(421)는 다양한 버스 아키텍쳐들 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변기기 버스, 및 로컬 버스를 포함하는 여러 타입의 버스 구조들 중 임의의 것일 수 있다. 이에 제한되는 것은 아니지만 예를 들어, 이러한 아키텍쳐들은 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 및 메자닌 버스로도 알려진 PCI(Peripheral Compononent Interconnect) 버스를 포함할 수 있다.
컴퓨터(410)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(410)에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체 양자 모두를 포함한다. 예를 들어, 이에 제한되는 것은 아니지만, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어들, 데이터 구조들 프로그램 모듈들 또는 기타 데이터 등의 정보를 저장하기 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는, 이에 제한되는 것은 아니지만, RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD 또는 기타 광 디스크 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 기타 자기 스토리지 다바이스들, 또는 소망하는 정보를 저장하는데 사용될 수 있고 컴퓨터(410)에 의해 액세스될 수 있는 기타 매체를 포함한다.
통신 매체는 통상적으로 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 기타 데이터를 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 구현하고, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코드하도록 그 신호의 하나 이상의 특징들이 설정 또는 변경된 신호를 의미한다. 예를 들어, 이에 제한되는 것은 아니지만, 통신 매체는 유선 네트워크 또는 직접-배선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함한다. 상술한 것들 중 임의의 것의 조합 또한 컴퓨터 판독가능 매체의 범위에 포함된다.
시스템 메모리(430)는 ROM(431) 및 RAM(431) 등의 휘발성 및/또는 비휘발성 메모리를 포함한다. 기동 동안 등에 컴퓨터(410) 내의 엘리먼트들간 정보 전달을 돕는 기본 루틴들을 포함하는 BIOS(433)가 통상적으로 ROM(431)에 저장된다. RAM(432)은 처리 유닛(420)에 의해 직접 액세스될 수 있고/있거나 현재 처리 유닛(420)에 의해 동작되는 데이터 및/또는 프로그램 모듈들을 통상적으로 포함한다. 예를 들어, 이에 제한되는 것은 아니지만, 도 4는 운영 체제(434), 애플리케이션 프로그램들(435), 기타 프로그램 모듈들(436) 및 프로그램 데이터(437)을 도시한다. 일 실시예에서, 애플리케이션 프로그램들(435)은 도 1의 프로그램 모듈들 (108)을 포함한다. 동일한 시나리오로, 프로그램 데이터(437)는 도 1의 프로그램 데이터(128)을 포함한다.
컴퓨터(410)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예를 들어, 도 4는 비이동식, 비휘발성 자기 매체에 대한 판독 또는 기입을 행하는 하드 디스크 드라이브(441), 이동식, 비휘발성 자기 디스크(452)에 대한 판독 또는 기입을 행하는 자기 디스크 드라이브(451), 및 CD ROM 또는 기타 광 매체 등 이동식, 비휘발성 광 디스크(456)에 대한 판독 또는 기입을 행하는 광 디스크 드라이브(455)를 도시한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체는, 이에 제한되는 것은 아니지만, 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 포함한다. 하드 디스크 드라이브(441)는 통상적으로 인터페이스(440) 등 비이동식 메모리 인터페이스를 통해 시스템 버스(421)에 접속되고, 자기 디스크 드라이브(451) 및 광 디스크 드라이브(455)는 통상적으로 인터페이스(450) 등의 이동식 메모리 인터페이스에 의해 시스템 버스(421)에 접속된다.
위에 논의되고 도 4에 도시된 드라이브들 및 그 관련 컴퓨터 저장 매체는 컴퓨터(410)에 대한 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 및 기타 데이터의 저장을 제공한다. 도 4에서, 예를 들어, 하드 디스크 드라이브(441)는 운영 체제(444), 애플리케이션 프로그램들(445), 기타 프로그램 모듈들(446) 및 프로그렘 데이터(447)을 저장하는 것으로 도시된다. 이들 컴포넌트들은 운영 체제(434), 애플리케이션 프로그램들(435), 기타 프로그램 모듈들(436) 및 프로그램 데이터(437)과 동일하거나 또는 다른 것일 수 있다는 점에 주목하자. 운영 체제(444), 애플리케이션 프로그램들(445), 기타 프로그램 모듈들(446) 및 프로그램 데이터(447)는 본 명세서에서 이들이 적어도 다른 사본들이라는 것을 나타내기 위해 다른 참조번호가 부여되었다.
사용자는 키보드(462) 및 통상 적으로 마우스, 트랙볼 도는 터치 패드 등으로 참조되는 포인팅 디바이스(461) 등의 입력 장치를 통해 컴퓨터(410)에 명령과 정보를 입력한다. 기타 입력 디바이스들(도시되지 않음)은 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 스캐너 등을 포함할 수 있다. 이들 및 다른 입력 디바이스들은 시스템 버스(421)에 연결되는 사용자 입력 인터페이스(460)를 통해 처리 유닛(420)에 종종 접속되지만, 병렬 포트, 게임 포트 또는 USB 등의 기타 인터페이스와 버스 구조에 의해 접속될 수 있다.
모니터(491) 또는 기타 타입의 디스플레이 디바이스가 또한 비디오 인터페이스(490) 등의 인터페이스를 통해 시스템 버스(421)에 접속된다. 모니터 이외에도, 컴퓨터는 스피커(497) 및 프린터(496) 등 출력 주변기기 인터페이스(495)를 통해 접속될 수 있는 기타 주변기기 출력 디바이스를 포함할 수 있다.
컴퓨터(410)는 원격 컴퓨터(480) 등 하나 이상의 원격 컴퓨터로의 논리 접속을 사용하여 네트워크화된 환경에서 동작한다. 원격 컴퓨터(480)는 퍼스널 컴퓨터, 서버, 라우터, 네트워크 PC, 피어 디바이스 또는 기타 공통 네트워크 노드일 수 있고, 그 특정 구현의 기능으로서, 도 4에는 비록 메모리 저장 디바이스(481)만이 도시되었지만, 컴퓨터(410)과 관련하여 상술된 다수의 또는 모든 엘리먼트들을 포함할 수 있다. 도 4에 묘사된 논리 접속들은 LAN(471) 및 WAN(473)을 포함하지만, 기타 네트워크들도 포함할 수 있다. 이러한 네트워크 환경들은 사무실, 기업형 컴퓨터 네트워크, 인트라넷 및 인터넷 등에서 통상적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(410)는 네트워크 인터페이스 또는 어댑터(470)를 통해 LAN(471)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(410)는 인터넷 등 WAN(473)을 통한 통신을 수립하기 위해 모뎀(472) 또는 기타 수단들을 통상적으로 포함한다. 내장형 또는 외장형일 수 있는 모뎀(472)은 사용자 입력 인터페이스(460) 또는 기타 적절한 메카니즘을 통해 시스템 버스(421)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(410) 또는 그 일부와 관련하여 묘사된 프로그램 모듈들은 원격 메모리 저장 디바이스에 저장되기도 한다. 예를 들어, 이에 제한되는 것은 아니지만, 도 4는 메모리 디바이스(481)에 상주하는 원격 애플리케이션 프로그램들(485)을 도시한다. 도시된 네트워크 접속은 예시적인 것으로, 컴퓨터들간 통신 링크를 수립하는 기타 수단들이 사용될 수 있다.
결론
용어들과 웹 사이트 콘텐츠들간 관련성을 검증하는 시스템 및 방법이 구조적 특징들 및/또는 방법적 동작 또는 액션들에 구체적인 언어로 설명되었지만, 첨부된 특허청구범위에서 정의되는 발명이 상술된 구체적인 특징들 또는 액션들에 반드시 제한되는 것은 아니라는 점이 이해될 것이다. 따라서, 구체적인 특징들 및 액션들 은 청구된 청구 대상을 구현하기 위한 예시적인 형태로서 개시된 것이다.
본 발명에 따르면, 용어와 웹 사이트 콘텐츠 사이의 관련성을 검증하기 위한 시스템 및 방법이 제공된다. 일 양태에서, 입찰 URL로부터 사이트 콘텐츠가 검색된다. 입찰 용어와 의미적으로 그리고/또는 문맥적으로 관련된 확장 용어가 산정된다. 콘텐츠 유사도 및 확장 유사도 측정치는 입찰 용어(들), 사이트 콘텐츠 및 확장 용어들의 각각의 조합으로부터 산출된다. 확장 용어들과 사이트 콘텐츠 간의 카테고리 유사도 측정치는 트레이닝된 유사도 분류자를 고려하여 결정된다. 트레이닝된 유사도 분류자는 디렉토리 데이터와 연관된 마이닝된 웹 사이트 콘텐츠로부터 트레이닝되었다. 입찰 용어와 사이트 콘텐츠 사이의 관련성의 객관적인 측정을 제공하는 신뢰값이 트레이닝된 관련성 분류자 모델을 고려하여 다수의 유사도 스코어를 평가하는 콘텐츠, 확장 및 카테고리 유사도 측정치들로부터 결정된다.
Claims (45)
- 용어들과 웹 사이트 콘텐츠들간 관련성을 검증하기 위한 방법으로서,입찰 URL(bid URL)로부터 사이트 콘텐츠들을 검색하는 단계;입찰 용어(들)와 의미상 또는 문맥상 관련되는 적어도 하나의 확장 용어(들)를 식별하는 단계 - 상기 확장 용어(들)는 과거의 질의 용어(historical query term)들의 발생 빈도에 기초하여 검색 엔진으로부터 마이닝됨 -;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들의 각각의 조합으로부터 콘텐츠 유사도 측정치 및 확장 유사도 측정치를 생성하는 단계 - 상기 유사도 측정치는 상기 입찰 용어(들), 사이트 콘텐츠들 또는 확장 용어들 각각 사이의 관련성을 나타냄 -;유사도 분류자(similarity classifier)의 관점에서 상기 확장 용어들과 상기 사이트 콘텐츠들간 카테고리 유사도 측정치들을 산출하는 단계 - 상기 유사도 분류자는 디렉토리 데이터와 연관된 마이닝된 웹 사이트 콘텐츠로부터 트레이닝됨(trained) -;여러 유사도 측정치들 중 조합된 유사도 측정치들로부터 신뢰도 값을 산출하는 단계 - 상기 조합된 유사도 측정치들은 콘텐츠 유사도 측정치, 확장 유사도 측정치 및 카테고리 유사도 측정치들을 포함하고, 상기 신뢰도 값은 상기 입찰 용어(들)와 상기 사이트 콘텐츠들간 관련성의 객관적인 측정(objective measure)을 제공함 -;상기 신뢰도 값을 분석하여 상기 입찰 용어(들)를 식별하는 단계; 및식별된 상기 입찰 용어(들)를 사용하여 사이트 노출을 얻기 위해 사이트에 대한 트래픽을 증가시키는 단계를 포함하고,상기 카테고리 유사도 측정치들을 산출하는 단계는,상기 디렉토리 데이터와 연관된 웹 사이트 콘텐츠로부터 특징들을 추출하는 단계 - 상기 특징들은 타이틀, 메타데이터, 본문, 하이퍼텍스트 링크(들), 시각적 특징(들) 및 페이지 레이아웃 분석 정보에 의한 요약 중 적어도 하나의 조합을 포함함 -;특징 선택을 통해 상기 특징들의 크기(dimensionality)를 감소시키는 단계;상기 유사도 분류자를 생성하는 분류자 모델을 통해 상기 특징들을 카테고리화하는 단계;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들로부터 각각의 용어 벡터들을 생성하는 단계; 및상기 유사도 분류자의 함수로서 상기 용어 벡터들 각각 사이의 유사도를 산출하여 상기 카테고리 유사도 측정치를 결정하는 단계를 더 포함하는 방법.
- 제1항에 있어서,상기 유사도 분류자는 통계학적 n-그램 기반 원시 Bayesian(N-Gram; n-gram based naive Bayesian) 모델, 원시 Bayesian(NB) 모델, SVM(Support Vector Machine) 모델, KNN(nearest neighbor) 모델, 판정 트리 모델, 공동-트레이닝(co-trainning) 모델 또는 부스팅 분류 모델(boosting classification model)에 기초하는 방법.
- 제1항에 있어서,상기 신뢰도 값을 산출하는 단계는,수용/거부 임계치의 관점에서 <용어(들), 웹 사이트 콘텐츠, 수용/거부> 형태의 데이터로 조합형 관련성 분류자를 트레이닝시키는 단계;상기 콘텐츠 측정치, 상기 확장 측정치 및 상기 카테고리 유사도 측정치로부터 관련성 검증 유사도 측정치(RVSM; Relevance Verification Similarity Measurement) 특징 벡터들을 생성하는 단계; 및상기 신뢰도 값을 산출하기 위해 상기 조합형 관련성 분류자를 통해 상기 RVSM 특징 벡터들로부터의 여러 스코어들을 맵핑시키는 단계를 더 포함하는 방법.
- 제1항에 있어서,상기 입찰 용어(들)와 사이트 콘텐츠들로부터 명칭 유사도 측정치들을 결정하는 단계 - 상기 명칭 유사도 측정치들은 상기 입찰 용어(들)에서 검출된 명칭(들)과 상기 사이트 콘텐츠들 사이의 관련성을 명칭들의 데이터베이스를 고려하여 평가하여 나타냄 - 를 더 포함하고,상기 여러 유사도 측정치들 중 조합된 유사도 측정치들은 상기 명칭 유사도 측정치들을 포함하는 방법.
- 제1항에 있어서,상기 신뢰도 값이 비교적 낮다는 것을 판정하는 단계; 및상기 판정에 응답하여, 적어도 하나가 상기 입찰 URL에 의미상 또는 문맥상 관련되는 하나 이상의 다른 용어들을 식별하는 단계를 더 포함하는 방법.
- 용어들과 웹 사이트 콘텐츠들간 관련성을 검증하기 위한 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 기억 매체로서,상기 컴퓨터 실행가능 명령어들은,입찰 URL로부터 사이트 콘텐츠들을 검색하기 위한 명령어;입찰 용어(들)와 의미상 또는 문맥상 관련되는 적어도 하나의 확장 용어(들)를 식별하기 위한 명령어 - 상기 확장 용어(들)는 과거의 질의 용어들의 발생 빈도에 기초하여 검색 엔진으로부터 마이닝됨 -;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들의 각각의 조합으로부터 콘텐츠 유사도 측정치 및 확장 유사도 측정치를 생성하기 위한 명령어 - 상기 유사도 측정치는 상기 입찰 용어(들), 사이트 콘텐츠들 또는 확장 용어들 각각 사이의 관련성을 나타냄 -;유사도 분류자의 관점에서 상기 확장 용어들과 상기 사이트 콘텐츠들간 카테고리 유사도 측정치들을 산출하기 위한 명령어 - 상기 유사도 분류자는 디렉토리 데이터와 연관된 마이닝된 웹 사이트 콘텐츠로부터 트레이닝됨 -;여러 유사도 측정치들 중 조합된 유사도 측정치들로부터 신뢰도 값을 산출하기 위한 명령어 - 상기 조합된 유사도 측정치들은 콘텐츠 유사도 측정치, 확장 유사도 측정치 및 카테고리 유사도 측정치들을 포함함 -;상기 신뢰도 값에 의해 나타나는 상기 입찰 용어(들)와 상기 사이트 콘텐츠들간 관련성의 객관적인 측정을 제공하기 위한 명령어;상기 신뢰도 값을 분석하여 상기 입찰 용어(들)를 식별하기 위한 명령어; 및식별된 상기 입찰 용어(들)를 사용하여 사이트 노출을 얻기 위해 사이트에 대한 트래픽을 증가시키기 위한 명령어를 포함하고,상기 카테고리 유사도 측정치들을 산출하기 위한 컴퓨터 실행가능 명령어는,상기 디렉토리 데이터와 연관된 웹 사이트 콘텐츠로부터 특징들을 추출하기 위한 명령어 - 상기 특징들은 타이틀, 메타데이터, 본문, 하이퍼텍스트 링크(들), 시각적 특징(들) 및 페이지 레이아웃 분석 정보에 의한 요약 중 적어도 하나의 조합을 포함함 -;특징 선택을 통해 상기 특징들의 크기(dimensionality)를 감소시키기 위한 명령어;상기 유사도 분류자를 생성하는 분류자 모델을 통해 상기 특징들을 카테고리화하기 위한 명령어;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들로부터 각각의 용어 벡터들을 생성하기 위한 명령어; 및상기 유사도 분류자의 함수로서 상기 용어 벡터들 각각 사이의 유사도를 산출하여 상기 카테고리 유사도 측정치를 결정하기 위한 명령어를 더 포함하는 컴퓨터 판독가능 기억 매체.
- 제6항에 있어서,상기 유사도 분류자는 통계학적 n-그램 기반 원시 Bayesian(N-Gram; n-gram based naive Bayesian) 모델, 원시 Bayesian(NB) 모델, SVM(Support Vector Machine) 모델, KNN(nearest neighbor) 모델, 판정 트리 모델, 공동-트레이닝(co-trainning) 모델 또는 부스팅 분류 모델(boosting classification model)에 기초하는 컴퓨터 판독가능 기억 매체.
- 제6항에 있어서,상기 신뢰도 값을 산출하기 위한 컴퓨터 실행가능 명령어는,수용/거부 임계치의 관점에서 <용어(들), 웹 사이트 콘텐츠, 수용/거부> 형태의 데이터로 조합형 관련성 분류자를 트레이닝시키기 위한 명령어;상기 콘텐츠 측정치, 상기 확장 측정치 및 상기 카테고리 유사도 측정치로부터 RVSM 특징 벡터들을 생성하기 위한 명령어; 및상기 신뢰도 값을 산출하기 위해 상기 조합형 관련성 분류자를 통해 상기 RVSM 특징 벡터들로부터의 여러 스코어들을 맵핑시키기 위한 명령어를 더 포함하는 컴퓨터 판독가능 기억 매체.
- 제6항에 있어서,상기 컴퓨터 실행가능 명령어들은,상기 입찰 용어(들)와 사이트 콘텐츠들로부터 명칭 유사도 측정치들을 결정하기 위한 명령어 - 상기 명칭 유사도 측정치들은 상기 입찰 용어(들)에서 검출된 명칭(들)과 상기 사이트 콘텐츠들 사이의 관련성을 명칭들의 데이터베이스를 고려하여 평가하여 나타냄 - 를 더 포함하고,상기 여러 유사도 측정치들 중 조합된 유사도 측정치들은 상기 명칭 유사도 측정치들을 포함하는 컴퓨터 판독가능 기억 매체.
- 용어들과 웹 사이트 콘텐츠들간 관련성을 검증하기 위한 컴퓨팅 디바이스로서,프로세서; 및상기 프로세서에 연결되고, 상기 프로세서 의해 실행가능한 컴퓨터 프로그램 명령어들을 포함하는 메모리를 포함하고,상기 컴퓨터 프로그램 명령어들은,입찰 URL로부터 사이트 콘텐츠들을 검색하기 위한 명령어;적어도 하나가 입찰 용어(들)와 의미상 또는 문맥상 관련되는 확장 용어(들)를 식별하기 위한 명령어;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들의 각각의 조합으로부터 콘텐츠 유사도 측정치 및 확장 유사도 측정치를 생성하기 위한 명령어 - 상기 유사도 측정치는 상기 입찰 용어(들), 사이트 콘텐츠들 또는 확장 용어들 각각 사이의 관련성을 나타냄 -;여러 유사도 측정치들 중 조합된 유사도 측정치들로부터 신뢰도 값을 산출하기 위한 명령어 - 상기 조합된 유사도 측정치들은 콘텐츠 유사도 측정치, 확장 유사도 측정치 및 카테고리 유사도 측정치들을 포함함 - ;상기 신뢰도 값에 의해 나타나는 상기 입찰 용어(들)와 상기 사이트 콘텐츠들간 관련성의 객관적인 측정을 제공하기 위한 명령어상기 신뢰도 값을 분석하여 상기 입찰 용어(들)를 식별하기 위한 명령어; 및식별된 상기 입찰 용어(들)를 사용하여 사이트 노출을 얻기 위해 사이트에 대한 트래픽을 증가시키기 위한 명령어를 포함하고,상기 카테고리 유사도 측정치들을 산출하기 위한 컴퓨터 프로그램 명령어는,상기 디렉토리 데이터와 관련된 웹 사이트 콘텐츠로부터 특징들을 추출하기 위한 명령어 - 상기 특징들은 타이틀, 메타데이터, 본문, 하이퍼텍스트 링크(들), 시각적 특징(들) 및 페이지 레이아웃 분석 정보에 의한 요약 중 적어도 하나의 조합을 포함함 -;특징 선택을 통해 상기 특징들의 크기(dimensionality)를 감소시키기 위한 명령어;상기 유사도 분류자를 생성하는 분류자 모델을 통해 상기 특징들을 카테고리화하기 위한 명령어;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들로부터 개별 용어 벡터들을 생성하기 위한 명령어; 및상기 유사도 분류자의 함수로서 상기 용어 벡터들 각각 사이의 유사도를 산출하여 상기 카테고리 유사도 측정치를 결정하기 위한 명령어를 더 포함하는 컴퓨팅 디바이스.
- 제10항에 있어서,상기 신뢰도 값을 산출하기 위한 컴퓨터 프로그램 명령어는,수용/거부 임계치의 관점에서 <용어(들), 웹 사이트 콘텐츠, 수용/거부> 형태의 데이터로 조합형 관련성 분류자를 트레이닝시키기 위한 명령어;상기 콘텐츠 측정치, 상기 확장 측정치 및 상기 카테고리 유사도 측정치로부터 RVSM 특징 벡터들을 생성하기 위한 명령어; 및상기 신뢰도 값을 산출하기 위해 상기 조합형 관련성 분류자를 통해 상기 RVSM 특징 벡터들로부터의 여러 스코어들을 맵핑시키기 위한 명령어들을 더 포함하는 컴퓨팅 디바이스.
- 제10항에 있어서,상기 컴퓨터 프로그램 명령어들은,상기 입찰 용어(들)와 사이트 콘텐츠들로부터 명칭 유사도 측정치들을 결정하기 위한 명령어를 더 포함하고 - 상기 명칭 유사도 측정치들은 상기 입찰 용어(들)에서 검출된 명칭(들)과 상기 사이트 콘텐츠들 사이의 관련성을 명칭들의 데이터베이스를 고려하여 평가하여 나타냄 - ,상기 여러 유사도 측정치들 중 조합된 유사도 측정치들은 상기 명칭 유사도 측정치들을 포함하는 컴퓨팅 디바이스.
- 용어들과 웹 사이트 콘텐츠들간 관련성을 검증하기 위한 컴퓨팅 디바이스로서,입찰 URL로부터 사이트 콘텐츠들을 획득하는 검색 수단;적어도 하나가 입찰 용어(들)와 의미상 또는 문맥상 관련되는 확장 용어(들)를 식별하는 식별 수단;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들의 각각의 조합으로부터 콘텐츠 유사도 측정치 및 확장 유사도 측정치를 생성하는 생성 수단 - 상기 유사도 측정치는 상기 입찰 용어(들), 사이트 콘텐츠들 또는 확장 용어들 각각 사이의 관련성을 나타냄 -;유사도 분류자의 관점에서 상기 확장 용어들과 상기 사이트 콘텐츠들간 카테고리 유사도 측정치들을 결정하는 산출 수단 - 상기 유사도 분류자는 디렉토리 데이터와 관련된 마이닝된 웹 사이트 콘텐츠로부터 트레이닝됨 -;여러 유사도 측정치들 중 조합된 유사도 측정치들로부터 신뢰도 값을 생성하는 산출 수단 - 상기 조합된 유사도 측정치들은 콘텐츠 유사도 측정치, 확장 유사도 측정치 및 카테고리 유사도 측정치들을 포함하고, 상기 신뢰도 값은 상기 입찰 용어(들)와 상기 사이트 콘텐츠들간 관련성의 객관적인 측정을 제공함 -상기 신뢰도 값을 분석하여 상기 입찰 용어(들)를 식별하는 분석 수단 ; 및식별된 상기 입찰 용어(들)를 사용함으로써 사이트에 대한 트래픽을 증가시키는 증가 수단을 포함하고,상기 생성 수단은,상기 디렉토리 데이터와 관련된 웹 사이트 콘텐츠로부터 특징들을 얻는 추출 수단 - 상기 특징들은 타이틀, 메타데이터, 본문, 하이퍼텍스트 링크(들), 시각적 특징(들) 및 페이지 레이아웃 분석 정보에 의한 요약 중 적어도 하나의 조합을 포함함 -;특징 선택을 통해 상기 특징들의 크기(dimensionality)를 줄이는 감소 수단;상기 유사도 분류자를 생성하는 분류자 모델을 통해 상기 특징들을 구성(organize)하는 카테고리 수단;상기 입찰 용어(들), 상기 사이트 콘텐츠들 및 상기 확장 용어들로부터 개별 용어 벡터들을 생성하는 생성 수단; 및상기 유사도 분류자의 함수로서 상기 용어 벡터들 각각 사이의 유사도를 식별하여 상기 카테고리 유사도 측정치를 결정하는 산출 수단을 더 포함하는을 포함하는 컴퓨팅 디바이스.
- 제13항에 있어서,상기 산출 수단은,수용/거부 임계치의 관점에서 <용어(들), 웹 사이트 콘텐츠, 수용/거부> 형태의 데이터로 조합형 관련성 분류자를 트레이닝시키는 트레이닝 수단;상기 콘텐츠 측정치, 상기 확장 측정치 및 상기 카테고리 유사도 측정치로부터 RVSM 특징 벡터들을 생성하는 생성 수단; 및상기 신뢰도 값을 산출하기 위해 상기 조합형 관련성 분류자를 통해 상기 RVSM 특징 벡터들로부터의 여러 스코어들을 상관시키는 맵핑 수단을 더 포함하는 컴퓨팅 디바이스.
- 제13항에 있어서,상기 입찰 용어(들)와 사이트 콘텐츠들로부터 명칭 유사도 측정치들을 결정하는 결정 수단 - 상기 명칭 유사도 측정치들은 상기 입찰 용어(들)에서 검출된 명칭(들)과 상기 사이트 콘텐츠들 사이의 관련성을 명칭들의 데이터베이스를 고려하여 평가하여 나타냄 - 을 더 포함하고,상기 여러 유사도 측정치들 중 조합된 유사도 측정치들은 상기 명칭 유사도 측정치들을 포함하는 컴퓨팅 디바이스.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/826,162 US7260568B2 (en) | 2004-04-15 | 2004-04-15 | Verifying relevance between keywords and web site contents |
US10/826,162 | 2004-04-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060045786A KR20060045786A (ko) | 2006-05-17 |
KR101201037B1 true KR101201037B1 (ko) | 2012-11-14 |
Family
ID=34939282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050031630A KR101201037B1 (ko) | 2004-04-15 | 2005-04-15 | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7260568B2 (ko) |
EP (1) | EP1587010A3 (ko) |
JP (1) | JP2005302041A (ko) |
KR (1) | KR101201037B1 (ko) |
CN (1) | CN100476814C (ko) |
AU (1) | AU2005201684A1 (ko) |
BR (1) | BRPI0503051A (ko) |
CA (1) | CA2504181C (ko) |
MX (1) | MXPA05004098A (ko) |
RU (1) | RU2375747C2 (ko) |
Families Citing this family (205)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630984B1 (en) | 2003-01-17 | 2014-01-14 | Renew Data Corp. | System and method for data extraction from email files |
US8065277B1 (en) | 2003-01-17 | 2011-11-22 | Daniel John Gardner | System and method for a data extraction and backup database |
US8375008B1 (en) | 2003-01-17 | 2013-02-12 | Robert Gomes | Method and system for enterprise-wide retention of digital or electronic data |
US8943024B1 (en) | 2003-01-17 | 2015-01-27 | Daniel John Gardner | System and method for data de-duplication |
US7599938B1 (en) | 2003-07-11 | 2009-10-06 | Harrison Jr Shelton E | Social news gathering, prioritizing, tagging, searching, and syndication method |
WO2006008733A2 (en) * | 2004-07-21 | 2006-01-26 | Equivio Ltd. | A method for determining near duplicate data objects |
US8635217B2 (en) | 2004-09-15 | 2014-01-21 | Michael J. Markus | Collections of linked databases |
US8880521B2 (en) * | 2004-09-15 | 2014-11-04 | 3Degrees Llc | Collections of linked databases |
US8412706B2 (en) | 2004-09-15 | 2013-04-02 | Within3, Inc. | Social network analysis |
US7801899B1 (en) * | 2004-10-01 | 2010-09-21 | Google Inc. | Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources |
KR100669971B1 (ko) * | 2004-11-24 | 2007-01-16 | 엔에이치엔(주) | 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템 |
US7428533B2 (en) * | 2004-12-06 | 2008-09-23 | Yahoo! Inc. | Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US8069151B1 (en) | 2004-12-08 | 2011-11-29 | Chris Crafford | System and method for detecting incongruous or incorrect media in a data recovery process |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
US8375017B1 (en) * | 2005-01-28 | 2013-02-12 | Manta Media, Inc. | Automated keyword analysis system and method |
US8527468B1 (en) | 2005-02-08 | 2013-09-03 | Renew Data Corp. | System and method for management of retention periods for content in a computing system |
US7685195B2 (en) * | 2005-03-24 | 2010-03-23 | Sas Institute Inc. | Systems and methods for analyzing web site search terms |
US8346757B1 (en) | 2005-03-28 | 2013-01-01 | Google Inc. | Determining query terms of little significance |
US8453044B2 (en) * | 2005-06-29 | 2013-05-28 | Within3, Inc. | Collections of linked databases |
US20070011020A1 (en) * | 2005-07-05 | 2007-01-11 | Martin Anthony G | Categorization of locations and documents in a computer network |
KR20080024530A (ko) * | 2005-07-15 | 2008-03-18 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 | 커뮤니티 특유 표현 검출 장치 및 방법 |
US7548929B2 (en) | 2005-07-29 | 2009-06-16 | Yahoo! Inc. | System and method for determining semantically related terms |
US7725485B1 (en) * | 2005-08-01 | 2010-05-25 | Google Inc. | Generating query suggestions using contextual information |
US7711851B2 (en) * | 2005-09-16 | 2010-05-04 | Sendori, Inc. | Domain name marketplace |
US20070094250A1 (en) * | 2005-10-20 | 2007-04-26 | Yahoo! Inc. | Using matrix representations of search engine operations to make inferences about documents in a search engine corpus |
CN1955991A (zh) * | 2005-10-25 | 2007-05-02 | 国际商业机器公司 | 在业务模型中集成模型语义和领域语义的方法和装置 |
US8015065B2 (en) * | 2005-10-28 | 2011-09-06 | Yahoo! Inc. | Systems and methods for assigning monetary values to search terms |
US7472131B2 (en) * | 2005-12-12 | 2008-12-30 | Justsystems Evans Research, Inc. | Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance |
US7660786B2 (en) * | 2005-12-14 | 2010-02-09 | Microsoft Corporation | Data independent relevance evaluation utilizing cognitive concept relationship |
US7949646B1 (en) | 2005-12-23 | 2011-05-24 | At&T Intellectual Property Ii, L.P. | Method and apparatus for building sales tools by mining data from websites |
US20070156654A1 (en) * | 2005-12-29 | 2007-07-05 | Kalpana Ravinarayanan | Method for displaying search results and contextually related items |
US7877392B2 (en) | 2006-03-01 | 2011-01-25 | Covario, Inc. | Centralized web-based software solutions for search engine optimization |
US7698332B2 (en) * | 2006-03-13 | 2010-04-13 | Microsoft Corporation | Projecting queries and images into a similarity space |
US9497314B2 (en) * | 2006-04-10 | 2016-11-15 | Microsoft Technology Licensing, Llc | Mining data for services |
US20070244925A1 (en) * | 2006-04-12 | 2007-10-18 | Jean-Francois Albouze | Intelligent image searching |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US8150827B2 (en) * | 2006-06-07 | 2012-04-03 | Renew Data Corp. | Methods for enhancing efficiency and cost effectiveness of first pass review of documents |
US7711736B2 (en) * | 2006-06-21 | 2010-05-04 | Microsoft International Holdings B.V. | Detection of attributes in unstructured data |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US7970934B1 (en) | 2006-07-31 | 2011-06-28 | Google Inc. | Detecting events of interest |
US7693805B2 (en) * | 2006-08-01 | 2010-04-06 | Yahoo, Inc. | Automatic identification of distance based event classification errors in a network by comparing to a second classification using event logs |
US20080046429A1 (en) * | 2006-08-16 | 2008-02-21 | Yahoo! Inc. | System and method for hierarchical segmentation of websites by topic |
US8838560B2 (en) * | 2006-08-25 | 2014-09-16 | Covario, Inc. | System and method for measuring the effectiveness of an on-line advertisement campaign |
US8972379B1 (en) | 2006-08-25 | 2015-03-03 | Riosoft Holdings, Inc. | Centralized web-based software solution for search engine optimization |
US8943039B1 (en) | 2006-08-25 | 2015-01-27 | Riosoft Holdings, Inc. | Centralized web-based software solution for search engine optimization |
US7752557B2 (en) * | 2006-08-29 | 2010-07-06 | University Of Regina | Method and apparatus of visual representations of search results |
US7774360B2 (en) * | 2006-09-08 | 2010-08-10 | Microsoft Corporation | Building bridges for web query classification |
US7689548B2 (en) * | 2006-09-22 | 2010-03-30 | Microsoft Corporation | Recommending keywords based on bidding patterns |
FI120807B (fi) * | 2006-09-26 | 2010-03-15 | Whitevector Oy | Tietokohteiden suodatus |
US8943401B2 (en) * | 2006-09-29 | 2015-01-27 | Yahoo! Inc. | Script-based content-embedding code generation in digital media benefit attachment mechanism |
US7996393B1 (en) | 2006-09-29 | 2011-08-09 | Google Inc. | Keywords associated with document categories |
US20080103886A1 (en) * | 2006-10-27 | 2008-05-01 | Microsoft Corporation | Determining relevance of a term to content using a combined model |
US7941436B2 (en) * | 2006-11-30 | 2011-05-10 | Yahoo, Inc. | Keyword bidding strategy for novel concepts |
CA2571172C (en) * | 2006-12-14 | 2012-02-14 | University Of Regina | Interactive web information retrieval using graphical word indicators |
US9582804B2 (en) * | 2006-12-22 | 2017-02-28 | Excalibur Ip, Llc | Link retrofitting of digital media objects |
US7562088B2 (en) * | 2006-12-27 | 2009-07-14 | Sap Ag | Structure extraction from unstructured documents |
US7809718B2 (en) * | 2007-01-29 | 2010-10-05 | Siemens Corporation | Method and apparatus for incorporating metadata in data clustering |
US7685084B2 (en) * | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
US8041694B1 (en) | 2007-03-30 | 2011-10-18 | Google Inc. | Similarity-based searching |
US7856433B2 (en) * | 2007-04-06 | 2010-12-21 | Yahoo! Inc. | Dynamic bid pricing for sponsored search |
US8117137B2 (en) * | 2007-04-19 | 2012-02-14 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US20080270364A1 (en) * | 2007-04-30 | 2008-10-30 | Google Inc. | Expansion rule evaluation |
US20080301096A1 (en) * | 2007-05-29 | 2008-12-04 | Microsoft Corporation | Techniques to manage metadata fields for a taxonomy system |
US9015279B2 (en) * | 2007-06-15 | 2015-04-21 | Bryte Computer Technologies | Methods, systems, and computer program products for tokenized domain name resolution |
US20090037399A1 (en) * | 2007-07-31 | 2009-02-05 | Yahoo! Inc. | System and Method for Determining Semantically Related Terms |
US8005782B2 (en) * | 2007-08-10 | 2011-08-23 | Microsoft Corporation | Domain name statistical classification using character-based N-grams |
US8041662B2 (en) * | 2007-08-10 | 2011-10-18 | Microsoft Corporation | Domain name geometrical classification using character-based n-grams |
KR100910521B1 (ko) * | 2007-08-14 | 2009-07-31 | 엔에이치엔비즈니스플랫폼 주식회사 | 광고 키워드 제안 방법 및 그 시스템 |
KR100936595B1 (ko) * | 2007-08-14 | 2010-01-13 | 엔에이치엔비즈니스플랫폼 주식회사 | 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 |
US20090070310A1 (en) * | 2007-09-07 | 2009-03-12 | Microsoft Corporation | Online advertising relevance verification |
US9058608B2 (en) | 2007-09-12 | 2015-06-16 | Google Inc. | Placement attribute targeting |
US8195634B2 (en) * | 2007-09-28 | 2012-06-05 | Microsoft Corporation | Domain-aware snippets for search results |
US8463779B2 (en) * | 2007-10-30 | 2013-06-11 | Yahoo! Inc. | Representative keyword selection |
US9400843B2 (en) * | 2007-12-04 | 2016-07-26 | Yahoo! Inc. | Adjusting stored query relevance data based on query term similarity |
US8126881B1 (en) | 2007-12-12 | 2012-02-28 | Vast.com, Inc. | Predictive conversion systems and methods |
US8615490B1 (en) | 2008-01-31 | 2013-12-24 | Renew Data Corp. | Method and system for restoring information from backup storage media |
US10269024B2 (en) * | 2008-02-08 | 2019-04-23 | Outbrain Inc. | Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content |
US20090248534A1 (en) * | 2008-03-31 | 2009-10-01 | Yahoo! Inc. | System and method for offering an auction bundle in an online advertising auction |
CN101571890A (zh) * | 2008-04-28 | 2009-11-04 | 国际商业机器公司 | 自动评估病历质量的方法和系统 |
US20120053990A1 (en) * | 2008-05-07 | 2012-03-01 | Nice Systems Ltd. | System and method for predicting customer churn |
US8918369B2 (en) * | 2008-06-05 | 2014-12-23 | Craze, Inc. | Method and system for classification of venue by analyzing data from venue website |
US8171021B2 (en) * | 2008-06-23 | 2012-05-01 | Google Inc. | Query identification and association |
US8290946B2 (en) * | 2008-06-24 | 2012-10-16 | Microsoft Corporation | Consistent phrase relevance measures |
US8065310B2 (en) * | 2008-06-25 | 2011-11-22 | Microsoft Corporation | Topics in relevance ranking model for web search |
WO2009157339A1 (ja) * | 2008-06-26 | 2009-12-30 | 日本電気株式会社 | コンテンツ話題性判定システム、その方法及びプログラム |
US20090327913A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Using web revisitation patterns to support web interaction |
US8521731B2 (en) | 2008-07-09 | 2013-08-27 | Yahoo! Inc. | Systems and methods for query expansion in sponsored search |
US8108537B2 (en) * | 2008-07-24 | 2012-01-31 | International Business Machines Corporation | Method and system for improving content diversification in data driven P2P streaming using source push |
US20100070339A1 (en) * | 2008-09-15 | 2010-03-18 | Google Inc. | Associating an Entity with a Category |
US8301638B2 (en) * | 2008-09-25 | 2012-10-30 | Microsoft Corporation | Automated feature selection based on rankboost for ranking |
US8131659B2 (en) * | 2008-09-25 | 2012-03-06 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US8484014B2 (en) * | 2008-11-03 | 2013-07-09 | Microsoft Corporation | Retrieval using a generalized sentence collocation |
US8396742B1 (en) | 2008-12-05 | 2013-03-12 | Covario, Inc. | System and method for optimizing paid search advertising campaigns based on natural search traffic |
US8799279B2 (en) | 2008-12-31 | 2014-08-05 | At&T Intellectual Property I, L.P. | Method and apparatus for using a discriminative classifier for processing a query |
US20100191731A1 (en) * | 2009-01-23 | 2010-07-29 | Vasile Rus | Methods and systems for automatic clustering of defect reports |
US8370119B2 (en) * | 2009-02-19 | 2013-02-05 | Microsoft Corporation | Website design pattern modeling |
US8843476B1 (en) * | 2009-03-16 | 2014-09-23 | Guangsheng Zhang | System and methods for automated document topic discovery, browsable search and document categorization |
US8185432B2 (en) | 2009-05-08 | 2012-05-22 | Sas Institute Inc. | Computer-implemented systems and methods for determining future profitability |
US20100293184A1 (en) * | 2009-05-13 | 2010-11-18 | Yahoo! Inc. | Identification of related bid phrases and categories using co-bidding information |
US20110040604A1 (en) * | 2009-08-13 | 2011-02-17 | Vertical Acuity, Inc. | Systems and Methods for Providing Targeted Content |
US8612364B2 (en) * | 2009-10-29 | 2013-12-17 | Xerox Corporation | Method for categorizing linked documents by co-trained label expansion |
US10614134B2 (en) * | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
JP5462590B2 (ja) * | 2009-10-30 | 2014-04-02 | 楽天株式会社 | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
BR112012010120A2 (pt) * | 2009-10-30 | 2016-06-07 | Rakuten Inc | dispositivo e método de determinação de conteúdo característico |
JP5462591B2 (ja) * | 2009-10-30 | 2014-04-02 | 楽天株式会社 | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
KR101252245B1 (ko) * | 2009-11-13 | 2013-04-05 | 고려대학교 산학협력단 | 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템 |
US8738668B2 (en) | 2009-12-16 | 2014-05-27 | Renew Data Corp. | System and method for creating a de-duplicated data set |
US20110161091A1 (en) * | 2009-12-24 | 2011-06-30 | Vertical Acuity, Inc. | Systems and Methods for Connecting Entities Through Content |
US8868402B2 (en) * | 2009-12-30 | 2014-10-21 | Google Inc. | Construction of text classifiers |
US20120259829A1 (en) * | 2009-12-30 | 2012-10-11 | Xin Zhou | Generating related input suggestions |
CN102770860A (zh) * | 2009-12-30 | 2012-11-07 | 西班牙电信公司 | 用于在语义数据与微件的运行之间建立联系的方法 |
US9336315B2 (en) | 2010-01-19 | 2016-05-10 | Ebay Inc. | Personalized recommendation of a volatile item |
US8560466B2 (en) * | 2010-02-26 | 2013-10-15 | Trend Micro Incorporated | Method and arrangement for automatic charset detection |
US8275771B1 (en) * | 2010-02-26 | 2012-09-25 | Google Inc. | Non-text content item search |
US9792638B2 (en) | 2010-03-29 | 2017-10-17 | Ebay Inc. | Using silhouette images to reduce product selection error in an e-commerce environment |
US8861844B2 (en) | 2010-03-29 | 2014-10-14 | Ebay Inc. | Pre-computing digests for image similarity searching of image-based listings in a network-based publication system |
US9405773B2 (en) * | 2010-03-29 | 2016-08-02 | Ebay Inc. | Searching for more products like a specified product |
US20120130816A1 (en) * | 2010-03-31 | 2012-05-24 | Rakuten, Inc. | Search system, search method, search program and recording medium |
US8788260B2 (en) | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US8595207B2 (en) | 2010-06-14 | 2013-11-26 | Salesforce.Com | Methods and systems for dynamically suggesting answers to questions submitted to a portal of an online service |
US20110314001A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Performing query expansion based upon statistical analysis of structured data |
WO2012021820A2 (en) * | 2010-08-13 | 2012-02-16 | Ii James Duncan Mcrae | System and method for utilizing media content to initiate conversations between businesses and consumers |
US8650191B2 (en) * | 2010-08-23 | 2014-02-11 | Vistaprint Schweiz Gmbh | Search engine optimization assistant |
US8412594B2 (en) | 2010-08-28 | 2013-04-02 | Ebay Inc. | Multilevel silhouettes in an online shopping environment |
US20120089456A1 (en) * | 2010-10-06 | 2012-04-12 | Yahoo! Inc. | System for search bid term selection |
US20120158712A1 (en) * | 2010-12-16 | 2012-06-21 | Sushrut Karanjkar | Inferring Geographic Locations for Entities Appearing in Search Queries |
US9342590B2 (en) * | 2010-12-23 | 2016-05-17 | Microsoft Technology Licensing, Llc | Keywords extraction and enrichment via categorization systems |
CN102646103B (zh) * | 2011-02-18 | 2016-03-16 | 腾讯科技(深圳)有限公司 | 检索词的聚类方法和装置 |
US9043358B2 (en) * | 2011-03-09 | 2015-05-26 | Microsoft Technology Licensing, Llc | Enterprise search over private and public data |
US8719192B2 (en) | 2011-04-06 | 2014-05-06 | Microsoft Corporation | Transfer of learning for query classification |
US20120265784A1 (en) * | 2011-04-15 | 2012-10-18 | Microsoft Corporation | Ordering semantic query formulation suggestions |
US20120310690A1 (en) * | 2011-06-06 | 2012-12-06 | Winshuttle, Llc | Erp transaction recording to tables system and method |
US20120323627A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Real-time Monitoring of Public Sentiment |
US9519726B2 (en) | 2011-06-16 | 2016-12-13 | Amit Kumar | Surfacing applications based on browsing activity |
US8417718B1 (en) | 2011-07-11 | 2013-04-09 | Google Inc. | Generating word completions based on shared suffix analysis |
US8838575B2 (en) * | 2011-08-03 | 2014-09-16 | Sap Ag | Generic framework for historical analysis of business objects |
US20140278947A1 (en) * | 2011-10-31 | 2014-09-18 | Pureclick Llc | System and method for click fraud protection |
US20130110648A1 (en) * | 2011-10-31 | 2013-05-02 | Simon Raab | System and method for click fraud protection |
US20140324573A1 (en) * | 2011-10-31 | 2014-10-30 | Simon Raab | System and method for click fraud protection |
WO2013066755A1 (en) * | 2011-10-31 | 2013-05-10 | Pureclick Llc | System and method for click fraud protection |
US20130211915A1 (en) * | 2012-02-14 | 2013-08-15 | Erick Tseng | Advertising Based on Customized User Dictionary |
US9330082B2 (en) | 2012-02-14 | 2016-05-03 | Facebook, Inc. | User experience with customized user dictionary |
US9330083B2 (en) | 2012-02-14 | 2016-05-03 | Facebook, Inc. | Creating customized user dictionary |
US9235565B2 (en) | 2012-02-14 | 2016-01-12 | Facebook, Inc. | Blending customized user dictionaries |
CN103631769B (zh) * | 2012-08-23 | 2017-10-17 | 北京音之邦文化科技有限公司 | 一种判断文件内容与标题间一致性的方法及装置 |
CN103678320B (zh) * | 2012-09-03 | 2017-10-27 | 腾讯科技(深圳)有限公司 | 网络信息的挖掘方法和装置 |
US9384244B1 (en) * | 2012-11-28 | 2016-07-05 | BloomReach Inc. | Search with autosuggest and refinements |
US8972435B2 (en) | 2012-12-14 | 2015-03-03 | Microsoft Corporation | Automatic generation of semantically similar queries |
US9104718B1 (en) | 2013-03-07 | 2015-08-11 | Vast.com, Inc. | Systems, methods, and devices for measuring similarity of and generating recommendations for unique items |
US10007946B1 (en) | 2013-03-07 | 2018-06-26 | Vast.com, Inc. | Systems, methods, and devices for measuring similarity of and generating recommendations for unique items |
US9465873B1 (en) | 2013-03-07 | 2016-10-11 | Vast.com, Inc. | Systems, methods, and devices for identifying and presenting identifications of significant attributes of unique items |
US9830635B1 (en) | 2013-03-13 | 2017-11-28 | Vast.com, Inc. | Systems, methods, and devices for determining and displaying market relative position of unique items |
CN103136372B (zh) * | 2013-03-21 | 2016-03-02 | 陕西通信信息技术有限公司 | 网络可信性行为管理中url快速定位、分类和过滤方法 |
US9674132B1 (en) * | 2013-03-25 | 2017-06-06 | Guangsheng Zhang | System, methods, and user interface for effectively managing message communications |
KR101485940B1 (ko) * | 2013-08-23 | 2015-01-27 | 네이버 주식회사 | 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법 |
US10235681B2 (en) | 2013-10-15 | 2019-03-19 | Adobe Inc. | Text extraction module for contextual analysis engine |
US9990422B2 (en) | 2013-10-15 | 2018-06-05 | Adobe Systems Incorporated | Contextual analysis engine |
US10430806B2 (en) * | 2013-10-15 | 2019-10-01 | Adobe Inc. | Input/output interface for contextual analysis engine |
US9450953B2 (en) * | 2013-11-06 | 2016-09-20 | Blackberry Limited | Blacklisting of frequently used gesture passwords |
US10127596B1 (en) | 2013-12-10 | 2018-11-13 | Vast.com, Inc. | Systems, methods, and devices for generating recommendations of unique items |
US9569536B2 (en) | 2013-12-17 | 2017-02-14 | Microsoft Technology Licensing, Llc | Identifying similar applications |
TWI567574B (zh) * | 2014-02-20 | 2017-01-21 | 南臺科技大學 | 探勘搜尋關鍵字與網站關聯性之分群方法及其系統 |
CN103870553B (zh) * | 2014-03-03 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 一种输入资源推送方法及系统 |
US9836765B2 (en) | 2014-05-19 | 2017-12-05 | Kibo Software, Inc. | System and method for context-aware recommendation through user activity change detection |
US9697286B2 (en) | 2015-03-16 | 2017-07-04 | International Business Machines Corporation | Shared URL content update to improve search engine optimization |
US9836435B2 (en) | 2015-03-19 | 2017-12-05 | International Business Machines Corporation | Embedded content suitability scoring |
US10089578B2 (en) | 2015-10-23 | 2018-10-02 | Spotify Ab | Automatic prediction of acoustic attributes from an audio signal |
US9589237B1 (en) | 2015-11-17 | 2017-03-07 | Spotify Ab | Systems, methods and computer products for recommending media suitable for a designated activity |
RU2632134C2 (ru) * | 2015-12-28 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система обработки поисковых запросов |
US11436610B2 (en) * | 2016-03-31 | 2022-09-06 | ZenDesk, Inc. | Automatically clustering customer-support requests to form customer-support topics |
US10699183B2 (en) * | 2016-03-31 | 2020-06-30 | ZenDesk, Inc. | Automated system for proposing help center articles to be written to facilitate resolving customer-service requests |
CN106095798A (zh) * | 2016-05-31 | 2016-11-09 | 北京红马传媒文化发展有限公司 | 一种基于特征数据库的性别特征的识别方法、系统及终端 |
CN105975639B (zh) * | 2016-07-04 | 2019-12-06 | 北京百度网讯科技有限公司 | 搜索结果排序方法和装置 |
JP6853009B2 (ja) * | 2016-10-07 | 2021-03-31 | ヤフー株式会社 | 集計装置、集計方法、及び集計プログラム |
RU2747425C2 (ru) * | 2016-10-24 | 2021-05-04 | Конинклейке Филипс Н.В. | Система ответа на вопросы из разных областей знаний в режиме реального времени |
US20200151591A1 (en) * | 2017-01-31 | 2020-05-14 | Mocsy Inc. | Information extraction from documents |
RU2656982C1 (ru) * | 2017-03-27 | 2018-06-07 | Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" | Способ информационного поиска лингвистических моделей выражения деловых отношений в документах архивного фонда |
US10810685B1 (en) * | 2017-05-31 | 2020-10-20 | Intuit Inc. | Generation of keywords for categories in a category hierarchy of a software product |
US10241716B2 (en) | 2017-06-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Global occupancy aggregator for global garbage collection scheduling |
KR101972660B1 (ko) * | 2017-08-18 | 2019-04-25 | 주식회사 포스코아이씨티 | 팩트체크 시스템 및 방법 |
US10268704B1 (en) | 2017-10-12 | 2019-04-23 | Vast.com, Inc. | Partitioned distributed database systems, devices, and methods |
US11308128B2 (en) * | 2017-12-11 | 2022-04-19 | International Business Machines Corporation | Refining classification results based on glossary relationships |
CN108427720B (zh) * | 2018-02-08 | 2020-12-29 | 中国科学院计算技术研究所 | 系统日志分类方法 |
US10970471B2 (en) * | 2018-04-23 | 2021-04-06 | International Business Machines Corporation | Phased collaborative editing |
RU2692045C1 (ru) * | 2018-05-18 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для рекомендации свежих саджестов поисковых запросов в поисковой системе |
FR3083949B1 (fr) * | 2018-07-16 | 2021-08-06 | Ismart | Procede de fiabilisation d'une communication entre au moins un serveur distant et un serveur, par appariement automatique de donnees de referencement |
CN109299357B (zh) * | 2018-08-31 | 2022-04-12 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
US10783175B2 (en) * | 2018-09-28 | 2020-09-22 | Microsoft Technology Licensing, Llc | Expanding search queries using query term weighting |
US11100287B2 (en) * | 2018-10-30 | 2021-08-24 | International Business Machines Corporation | Classification engine for learning properties of words and multi-word expressions |
CN109783631B (zh) * | 2019-02-02 | 2022-05-17 | 北京百度网讯科技有限公司 | 社区问答数据的校验方法、装置、计算机设备和存储介质 |
CN110163245A (zh) * | 2019-04-08 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 业务类别预测方法及系统 |
KR102068507B1 (ko) * | 2019-07-11 | 2020-01-21 | (주)시큐레이어 | 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치 |
CN110580286A (zh) * | 2019-08-09 | 2019-12-17 | 中山大学 | 一种基于类间信息熵的文本特征选择方法 |
US11134054B2 (en) | 2019-11-05 | 2021-09-28 | International Business Machines Corporation | Classification of a domain name |
CN111324701B (zh) * | 2020-02-24 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 内容补充方法、装置、计算机设备和存储介质 |
KR102425770B1 (ko) * | 2020-04-13 | 2022-07-28 | 네이버 주식회사 | 급상승 검색어 제공 방법 및 시스템 |
US20230004619A1 (en) * | 2021-07-02 | 2023-01-05 | Vmware, Inc. | Providing smart web links |
CN113448918B (zh) * | 2021-08-31 | 2021-11-12 | 中国建筑第五工程局有限公司 | 一种企业科研成果管理方法及管理平台、设备、存储介质 |
US12008054B2 (en) * | 2022-01-31 | 2024-06-11 | Walmart Apollo, Llc | Systems and methods for determining and utilizing search token importance using machine learning architectures |
US20230306466A1 (en) * | 2022-03-28 | 2023-09-28 | The Dun & Bradstreet Corporation | Artificial intellegence engine for generating semantic directions for websites for entity targeting |
KR102535698B1 (ko) * | 2022-07-13 | 2023-05-30 | 한선주 | 블록체인 기반 대체 불가능 토큰을 이용한 자산 관리 서비스 제공 방법 및 상기 방법을 수행하는 자산 관리 서비스 제공 시스템 |
CN116628201B (zh) * | 2023-05-18 | 2023-10-20 | 浙江数洋科技有限公司 | 一种文本资料库的智能化分群和推送方法 |
CN117093548B (zh) * | 2023-10-20 | 2024-01-26 | 公诚管理咨询有限公司 | 一种招投标管理稽核系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167398A (en) | 1997-01-30 | 2000-12-26 | British Telecommunications Public Limited Company | Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03122770A (ja) * | 1989-10-05 | 1991-05-24 | Ricoh Co Ltd | キーワード連想文書検索方法 |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5488725A (en) * | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US7251637B1 (en) * | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5812134A (en) * | 1996-03-28 | 1998-09-22 | Critical Thought, Inc. | User interface navigational system & method for interactive representation of information contained within a database |
JP3108015B2 (ja) | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
AU3484897A (en) | 1996-06-17 | 1998-01-07 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US6112202A (en) * | 1997-03-07 | 2000-08-29 | International Business Machines Corporation | Method and system for identifying authoritative information resources in an environment with content-based links between information resources |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US5845278A (en) * | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
JPH11328724A (ja) * | 1998-05-18 | 1999-11-30 | Fuji Photo Film Co Ltd | 3次元光メモリ |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6742003B2 (en) * | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US6598054B2 (en) * | 1999-01-26 | 2003-07-22 | Xerox Corporation | System and method for clustering data objects in a collection |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US6556983B1 (en) * | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US7587428B2 (en) * | 2000-10-13 | 2009-09-08 | Microsoft Corporation | Maintaining a relationship between two different items of data |
US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
US7356530B2 (en) * | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6892193B2 (en) * | 2001-05-10 | 2005-05-10 | International Business Machines Corporation | Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities |
US20030065632A1 (en) * | 2001-05-30 | 2003-04-03 | Haci-Murat Hubey | Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool |
US20030046389A1 (en) | 2001-09-04 | 2003-03-06 | Thieme Laura M. | Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility |
US7167871B2 (en) * | 2002-05-17 | 2007-01-23 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
JP3918664B2 (ja) | 2002-07-10 | 2007-05-23 | ヤマハ株式会社 | 音響信号処理装置 |
EP1540514B1 (en) * | 2002-07-23 | 2010-12-22 | Quigo Technologies Inc. | System and method for automated mapping of keywords and key phrases to documents |
US7225184B2 (en) * | 2003-07-18 | 2007-05-29 | Overture Services, Inc. | Disambiguation of search phrases using interpretation clusters |
US7165119B2 (en) | 2003-10-14 | 2007-01-16 | America Online, Inc. | Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter |
-
2004
- 2004-04-15 US US10/826,162 patent/US7260568B2/en not_active Expired - Fee Related
-
2005
- 2005-04-13 AU AU2005201684A patent/AU2005201684A1/en not_active Abandoned
- 2005-04-13 CN CNB2005100783089A patent/CN100476814C/zh not_active Expired - Fee Related
- 2005-04-14 CA CA2504181A patent/CA2504181C/en not_active Expired - Fee Related
- 2005-04-14 EP EP05102952A patent/EP1587010A3/en not_active Withdrawn
- 2005-04-14 RU RU2005111001/09A patent/RU2375747C2/ru not_active IP Right Cessation
- 2005-04-15 BR BR0503051-0A patent/BRPI0503051A/pt not_active IP Right Cessation
- 2005-04-15 KR KR1020050031630A patent/KR101201037B1/ko not_active IP Right Cessation
- 2005-04-15 JP JP2005118049A patent/JP2005302041A/ja active Pending
- 2005-04-15 MX MXPA05004098A patent/MXPA05004098A/es active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167398A (en) | 1997-01-30 | 2000-12-26 | British Telecommunications Public Limited Company | Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document |
Also Published As
Publication number | Publication date |
---|---|
JP2005302041A (ja) | 2005-10-27 |
KR20060045786A (ko) | 2006-05-17 |
CN100476814C (zh) | 2009-04-08 |
RU2005111001A (ru) | 2006-10-20 |
US7260568B2 (en) | 2007-08-21 |
AU2005201684A1 (en) | 2005-10-27 |
MXPA05004098A (es) | 2005-10-19 |
RU2375747C2 (ru) | 2009-12-10 |
CA2504181C (en) | 2013-08-06 |
EP1587010A3 (en) | 2006-11-02 |
EP1587010A2 (en) | 2005-10-19 |
CN1691019A (zh) | 2005-11-02 |
CA2504181A1 (en) | 2005-10-15 |
BRPI0503051A (pt) | 2005-12-06 |
US20050234953A1 (en) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
JP4838529B2 (ja) | 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
US8204874B2 (en) | Abbreviation handling in web search | |
US8849787B2 (en) | Two stage search | |
US8738635B2 (en) | Detection of junk in search result ranking | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
US20110270815A1 (en) | Extracting structured data from web queries | |
Martinez-Romo et al. | Web spam identification through language model analysis | |
Tahmasebi et al. | On the applicability of word sense discrimination on 201 years of modern english | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN118170899B (zh) | 基于aigc的媒体新闻稿件生成方法以及相关装置 | |
US20240070396A1 (en) | Method for Determining Candidate Company Related to News and Apparatus for Performing the Method | |
US20240046039A1 (en) | Method for News Mapping and Apparatus for Performing the Method | |
US20240070387A1 (en) | Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method | |
US20240070175A1 (en) | Method for Determining Company Related to News Based on Scoring and Apparatus for Performing the Method | |
CN118170899A (zh) | 基于aigc的媒体新闻稿件生成方法以及相关装置 | |
Yang et al. | Ontology-Supported Portal Architecture for Scholar's Webpages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |