KR20060059986A - 문서를 콘텐츠에 매치하기 위해 문서의 의미를 결정하는방법 및 시스템 - Google Patents

문서를 콘텐츠에 매치하기 위해 문서의 의미를 결정하는방법 및 시스템 Download PDF

Info

Publication number
KR20060059986A
KR20060059986A KR1020067001863A KR20067001863A KR20060059986A KR 20060059986 A KR20060059986 A KR 20060059986A KR 1020067001863 A KR1020067001863 A KR 1020067001863A KR 20067001863 A KR20067001863 A KR 20067001863A KR 20060059986 A KR20060059986 A KR 20060059986A
Authority
KR
South Korea
Prior art keywords
local
item
source material
concepts
web page
Prior art date
Application number
KR1020067001863A
Other languages
English (en)
Other versions
KR101132942B1 (ko
Inventor
아담 제이. 웨이스만
길라드 이스라엘 엘바츠
Original Assignee
구글 잉크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 잉크. filed Critical 구글 잉크.
Publication of KR20060059986A publication Critical patent/KR20060059986A/ko
Application granted granted Critical
Publication of KR101132942B1 publication Critical patent/KR101132942B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

문서를 콘텐츠에 매치하기 위해 문서의 의미를 결정하는 시스템 및 방법이 기술되어있다. 한 가지 측면으로, 출처 자료는 접속되고, 출처 자료 내의 다수의 영역은 식별되며, 각각의 영역과 연관된 적어도 하나의 로컬 개념이 결정되고, 각각의 영역의 로컬 개념은 관계 없는 영역을 식별하기 위해서 분석되며, 관계 없는 영역과 연관된 로컬 개념은 관계 있는 개념을 결정하기 위해서 제거되고, 관계 있는 개념은 출처 자료의 출처 의미를 결정하기 위해서 분석되며, 출처 의미는 아이템 집합으로부터의 아이템과 연관된 아이템 의미와 매치된다.
웹 페이지, 광고, 지식 아이템, 키워드

Description

문서를 콘텐츠에 매치하기 위해 문서의 의미를 결정하는 방법 및 시스템{METHODS AND SYSTEMS FOR DETERMINING A MEANING OF A DOCUMENT TO MATCH THE DOCUMENT TO CONTE}
본 발명은 일반적으로 문서에 관한 것이다. 좀 더 자세하게는 본 발명은 문서를 콘텐츠에 매치하기 위해 문서의 의미를 결정하는 방법 및 시스템에 관한 것이다.
웹 페이지 같은 문서는 예를 들어 인터넷상에 다른 콘텐츠에 매치될 수 있다. 예를 들어 문서는 HTML, XML, XHTML같은 다양한 형식의 웹 페이지; 휴대용 문서 형식(PDF); 및 워드 프로세서와 응용프로그램 문서 파일을 포함한다.
문서를 콘텐츠에 매치하게 하는 하나의 예는 인터넷 광고이다. 예를 들어, 웹사이트의 운영자는 광고비를 받고 페이지에 광고를 하는 것을 허락한다. 운영자가 웹 페이지 상의 광고를 사용자에게 보여주길 원하는 때, 촉진기는 웹 페이지에 나타내기 위해서 운영자에게 광고를 제공할 수 있다. 촉진기는 사용자에 대한 인구통계학적 정보, 예를 들어, 스포츠나 연예 같은 웹 페이지의 종류 또는 웹 페이지의 콘텐츠 같은 다양한 요소에 의해서 광고를 선택할 수 있다. 촉진기는 또한 웹 페이지의 콘텐츠를 키워드 집합으로부터의 키워드 같은 지식 아이템에 매치하도록 할 수 있다. 매치된 키워드와 연관된 광고는 그 후 웹 페이지에 나타낼 수 있다. 사용자는 마우스나 다른 입력 장치를 조작하여 판매하는 상품이나 서비스를 제공하는 광고자의 웹 사이트의 웹 페이지를 보기 위해 광고를 클릭할 수 있다.
인터넷 광고의 또 다른 예에서, 실제 매치 키워드는 관계 링크 또는 비슷한 섹션에서 운영자의 웹 페이지에 나타낸다. 상기 예와 비슷하게, 웹 페이지의 콘텐츠는 하나 이상의 키워드에 매치되고, 상기 키워드는 그 후 예를 들면 관계 링크 섹션에 나타나게 된다. 사용자가 특정 키워드를 클릭할 때, 사용자는 광고와 보통의 검색 결과의 혼합물을 포함하는 검색 결과 페이지로 안내될 수 있다. 광고주는 그들의 광고가 키워드를 이한 검색 결과 페이지에 나타나도록 키워드에 명령한다. 사용자는 마우스나 다른 입력 장치를 조작하여 판매하는 상품이나 서비스를 제공하는 광고자의 웹 사이트의 웹 페이지를 보기 위해 광고를 클릭할 수 있다.
만약 상품이나 서비스가 사용자가 웹 페이지에서 읽고 있는 것과 매우 관계가 있다면 웹 페이지를 보고 있는 사용자는 광고 및 제공되는 상품 또는 서비스를 클릭할 가능성이 크기 때문에, 광고주는 광고와 매우 관계된 웹 페이지의 콘텐츠를 원한다. 운영자는 종종 만약 사용자가 광고를 클릭하는 경우 보상을 받아서 미스매치(mismatch)는 민감한 콘텐츠의 경우에 광고주나 운영자에게 불쾌할 수 있기 때문에, 웹 페이지의 운영자는 또한 광고의 콘텐츠가 웹 페이지의 콘텐츠와 매치되는 것을 원한다.
웹 페이지 같은 문서는 웹 페이지의 경우에는 프레임 같은 몇몇의 영역으로 구성될 수 있다. 영역의 일부는 문서의 주 콘텐츠와 관계가 없을 수도 있다. 그러 므로 관계가 없는 영역의 콘텐츠는 관계 없는 콘텐츠로 전체 문서의 콘텐츠를 희석시킨다. 그러므로 문서를 콘텐츠와 매치하기 위해서 출처 문서의 의미를 결정할 때 가장 관계 있는 영역을 위해 출처 문서를 분석하는 것이 요구된다.
본 발명의 실시예는 문서를 콘텐츠에 매치하기 위해 문서의 콘텐츠를 결정하는 시스템 및 방법을 포함한다. 본 발명의 실시예의 한 가지 측면은 출처 자료에 접근하는 단계, 출처 자료의 다수 영역을 식별하는 단계, 각각의 영역과 연관된 적어도 하나의 로컬(local) 개념을 결정하는 단계, 관계 없는 영역을 식별하기 위해서 각각의 영역의 로컬 개념을 분석하는 단계, 관계 있는 개념을 결정하기 위해서 관계 없는 영역과 연관된 로컬 개념을 제거하는 단계, 출처 자료의 출처 의미를 결정하기 위해서 관계 있는 개념을 분석하는 단계 및 출처 의미를 아이템 집합으로부터의 아이템과 연관된 아이템 의미를 매치하는 단계를 포함한다. 아이템은 콘텐츠 그 자체 이거나 콘텐츠와 연관된 것일 수 있다. 하나의 실시예에서, 본 발명은 출처 자료에 매치된 아이템을 나타내는 단계를 추가로 포함할 수 있다. 다른 실시예에서, 본 발명은 출처 자료에 아이템과 연관된 콘텐츠를 나타내는 단계를 추가로 포함할 수 있다. 본 발명의 추가적인 측면은 상술한 측면과 관계 있는 특징을 구비한 컴퓨터 시스템 및 컴퓨터-판독가능 미디어에 의해 지시받는다.
본 발명의 상기 또는 기타 특징, 측면 및 이점은 첨부된 도면을 참조하여 이하의 상세한 설명을 읽으면 잘 이해될 것이다.
도1은 본 발명의 하나의 실시예에 합치하는 시스템의 블록도.
도2는 볼 발명이 하나의 실시예에 합치하는 방법의 흐름도.
도3은 도2에 도시한 방법의 서브루틴의 흐름도.
본 발명은 콘텐츠에 문서를 매치하기 위해 문서의 의미를 결정하는 방법 및 시스템을 포함한다. 참조는 지금부터 명세서 및 첨부된 도면에서 설명된 것처럼 본 발명의 예시적인 실시예로 상세하게 만들어진다. 동일한 도면 부호는 도면 및 이하의 설명에서 동일하거나 유사한 부분을 나타내는데 사용된다.
본 발명과 합치하는 다양한 시스템이 구성될 것이다. 도1은 본 발명의 예시적인 실시예의 예시적인 시스템을 도시하는 도면이다. 본 발명은 다른 시스템에서도 마찬가지로 동작하고 실시된다.
도1에 도시한 시스템(100)은 클라이언트(client) 장치(102a 내지 102b), 서버 장치(104, 140) 및 네트워크(106)를 포함한다. 도시한 네트워크(106)는 인터넷을 포함한다. 다른 실시예에서, 인트라넷 같은 다른 네트워크가 사용될 수 있다. 또한, 본 발명에 합치하는 방법은 하나의 컴퓨터에서 작동할 수 있다. 도시한 각각의 클라이언트 장치(102a 내지 102n)는 프로세서(110)와 결합하여 도시한 실시예에서 램(RAM)(108) 같은 컴퓨터-판독가능 매체를 포함한다. 상기 프로세서(110)는 메모리(108)에 저장된 컴퓨터-실행가능 프로그램 지시집합을 실행한다. 상기 프로세서는 마이크로프로세서, ASIC 및 상태 기계(state machine)를 포함한다. 상기 프로 세서는 예를 들어 프로세서에 의해 실행될 때 프로세서가 본원에 기술된 단계를 수행하게 하는 지시를 저장한 컴퓨터 판독가능 매체와 통신할 수 있다. 컴퓨터-판독가능 매체의 실시예는 제한된 것은 아니지만 컴퓨터-판독가능 지시를 구비한 접촉식 입력 장치와 통신하는 프로세서 같은 프로세서를 제공하는 전자적, 광학적, 자기적 또는 기타 저장수단 또는 송신기를 포함한다. 적절한 매체의 다른 예는 제한된 것은 아니지만 플로피 디스크, CD-ROM, 자기 디스크, 메모리 칩, ROM, RAM, ASIC, 설정 프로세서, 모든 광학 매체, 모든 자기 테이프 또는 다른 자기 매체 또는 기타 컴퓨터 프로세서가 지시를 판독할 수 있는 매체를 포함한다. 또한, 컴퓨터-판독가능 매체의 다양한 기타 형태는 무선 또는 유선의 라우터, 개인 또는 공중 네트워크 또는 기타 전송 장치 또는 채널을 포함하는 컴퓨터에 지시를 전송하거나 운반할 수 있다. 이러한 지시는 예를 들어 C, C++, C#, 비주얼 베이직, 자바 및 자바스크립트를 포함하는 컴퓨터 프로그래밍 언어로부터의 코드를 포함할 수 있다.
클라이언트 장치(102a 내지 102n)는 마우스, CD-ROM, 키보드, 출력 장치 또는 기타 입력 또는 출력 장치 같은 다수의 외부 또는 내부 장치를 포함한다. 클라이언트 장치(102a 내지 102n)의 예는 개인용 컴퓨터, 디지털 주변장치, 개인 디지털 주변 장치, 셀룰러 폰, 모바일 폰, 스마트 폰, 종이, 디지털 타블렛, 노트북, 프로세서 기반 장치 및 유사한 시스템 및 장치를 포함한다. 일반적으로 클라이언트 장치(102a 내지 102n)는 네트워크(106)에 연결되고 하나 이상의 응용 프로그램과 상호작용하는 프로세서 기반 플랫폼의 종류일 수 있다. 도시한 상기 클라이언트 장치(102a 내지 102n)는 마이크로소프트사의 인터넷 익스플로어 버젼 6.0, 넷츠케이 프 커뮤니케이션 사의 넷츠케이프 네비게이트 버전 7.1 또는 애플 컴퓨터의 사파리 버전 1.0 같은 브라우져 응용 프로그램을 실생하는 개인용 컴퓨터를 포함한다. 클라이언트 장치(102a 내지 102n)를 통해 사용자(112a 내지 112n)는 네트워크(106)로 각각의 사용자 및 네트워크(106)로 연결된 다른 시스템 및 장치와 통신한다.
도1에 도시한 것처럼, 서버 장치(104, 140)는 또한 네트워크(106)와 연결된다. 도시한 문서 서버 장치(104)는 문서 엔진 응용 프로그램을 실행하는 서버를 포함한다. 도시한 콘텐츠 서버 장치(140)는 콘텐츠 엔진 응용 프로그램을 실행하는 서버를 포함한다. 시스템(100)은 또한 다중 기타 서버 장치를 포함할 수 있다. 클라이언트 장치(102a 내지 102n)와 유사하게, 도시한 서버 장치(104, 140) 각각은 컴퓨터 판독가능 메모리(118, 144)와 연결된 프로세서(116, 142)를 포함한다. 각각의 서버 장치(104, 140)는 단일 컴퓨터 시스템으로 도시되었지만, 컴퓨터 프로세서의 네트워크로서 실행될 수 있다. 서버 장치(104, 140)의 예는 서버, 매인프레임 컴퓨터, 네트워크 컴퓨터, 프로세서 기반 장치 및 유사한 종류의 시스템 및 장치이다. 클라이언트 프로세서(110) 및 서버 프로세서(116, 142)는 캘리포니아 산타 클라라의 인텔 사의 프로세서 및 일리노이 샴버그의 모토로라사의 프로세서처럼 다수의 잘 알려진 컴퓨터 프로세서 중 하나 일 수 있다.
문서 서버 장치(104)의 메모리(118)는 문서 엔진(124)으로서 알려진 문서 엔진 응용 프로그램을 포함한다. 상기 문서 엔진(124)은 출처 자료의 의미를 결정하고 출처자료를 다른 자료 또는 지식 아이템 같은 아이템에 매치하다. 상기 아이템은 콘텐츠 그 자체나 다른 콘텐츠와 연관된 것일 수 있다. 출처 자료는 네트워크 (106)에 연결된 기타 장치로부터 수신될 수 있다. 자료는 HTML, XML, XHTML. PDF 파일, 워드 프로세서 및 데이터 베이스 같은 다양한 형식의 웹 페이지 같은 문서 및 응용 프로그램 문서 파일, 오디오, 비디오 또는 네트워크(인터넷 같은), 개인용 컴퓨터 또는 기타 계산 또는 저장 수단에서 실행 가능하도록 만들어진 어떠한 형식의 기타 정보를 포함한다. 본원에 기술된 실시예는 일반적으로 문서와 관계되어 있으나 실시예는 다른 종류의 자료에서도 동작할 수도 있다. 지식 아이템은 키워드, 노드, 카테고리, 인물, 개념, 제품, 문장, 서류 및 기타 지식 단위 같은 상징을 통해서 표현될 수 있는 물리적 또는 비-물리적인 것이다. 지식 아이템은 예를 들어 하나의 단어, 용어, 짧은 문장, 문서 또는 기타 구조 또는 비구조 정보같이 어떠한 형태도 취할 수 있다. 본원에 기술된 실시예는 일반적으로 키워드에 관하여 기술하지만 실시예는 어떠한 정류의 지식 아이템에서도 동작할 수 있다.
도시한 문서 엔진(124)은 전처리기(preprocessor)(134), 의미 프로세서(135) 및 매칭 프로세서(137)를 포함한다. 도시한 실시예에서 각각은 메모리(118)에 내장된 컴퓨터 코드를 포함한다. 상기 문서 엔진(124)은 출처 문서에 위치하는 콘텐츠를 위한 요청을 수신한다. 상기 요청은 네트워크(106)에 연결된 장치로부터 수신될 수 있다. 상기 콘텐츠는 웹 페이지 및 광고 같은 문서 및 키워드 같은 지식 아이템을 포함한다. 상기 프로세서(134)는 출처 문서를 수신하고 문서의 포함된 개념 및 문서 내의 영역을 결정하기 위해서 출처 문서를 분석한다. 개념은 클러스터 또는 개념과 관계한 일련의 단어나 용어를 사용하여 정의되며, 상기 단어 또는 용어는 예를 들어 동의어일 수 있다. 개념은 또한 예를 들어 관계 개념과의 관계, 관계 개 념과의 관계성의 세기, 연설의 일부, 일반적인 어법, 어법의 빈도, 개념의 폭 및 언어에서 개념 어법에 대한 통계 같은 다양한 기타 정보로서 정의될 수 있다. 상기 의미 프로세서(136) 존재하는 영역으로부터 출처 문서를 위한 출처 의미를 결정한다. 매칭 프로세서(137)는 출처 문서의 출처 의미와 아이템 집합으로부터의 아이템의 의미를 매치한다.
콘텐츠 서버 장치(140)의 메모리(144)는 콘텐츠 엔진(146)으로서 알려진 콘텐츠 엔진 응용 프로그램을 포함한다. 도시한 실시예에서, 콘텐츠 엔진은 메모리에 내장된 컴퓨터 코드를 포함한다. 콘텐츠 엔진(146)은 문서 서버 장치(104)로부터 매치된 아이템을 수신하고 아이템이나 아이템과 연관된 콘텐츠를 출처문서에 위치시킨다. 하나의 실시예에서, 콘텐츠 엔진(146)은 매칭 엔진(137)으로부터 매치된 키워드를 수신하고 광고와 같은 문서와 키워드를 연관시킨다. 상기 광고는 그 후 요청자의 웹사이트로 전송되고 예를 들어 웹 페이지상의 프레임 같은 출처 문서에 위치한다.
문서 서버 장치(104)는 도시한 의미 데이터베이스(120) 예에서 의미 엔진 소자 같은 기타 저장 소자에 대한 접속을 제공한다. 의미 데이터베이스를 출처 문서와 연관된 의미를 저장하는데 사용될 수 있다. 콘텐츠 서버 장치(140)는 또한 도시한 콘텐츠 데이터베이스(148) 내에서 콘텐츠 저장 소자 같은 다른 저장소자에 대한 접속을 제공한다. 콘텐츠 데이터베이스는 아이템 및 키워드 및 연관된 광고 같은 아이템과 관계된 콘텐츠를 저장하는데 사용될 수 있다. 데이터 저장 소자는 어레이(array), 헤시테이블(hashtable), 목록 및 쌍(pair)을 포함하나 이에 한정되지 않 는 저장 데이터를 위한 하나의 방법 또는 방법의 결합을 포함한다. 다른 종류의 유사한 데이터 저장 장치는 서버 장치(104, 140)에 의해 접속된다.
본 발명은 도1에 도시한 것과 상이한 구조를 갖는 시스템을 포함할 수 있다는 것이 언급되어야 한다. 예를 들어, 본 발명에 의한 시스템에서 전처리기(134) 및 의미 프로세서(136)는 문서 엔진(124)의 일부가 아닐 수 있고 오프라인에서 그들의 동작을 수행할 수 있다. 하나의 실시예에서, 문서의 의미는 문서 엔진이 웹 페이지 같은 문서를 크롤(crawl) 할 때, 주기적으로 결정된다. 또 다른 실시예에서, 문서의 의미는 문서에 위치한 콘텐츠의 요청이 수신될 때 결정된다. 도1에 도시한 시스템(100)은 단지 예시일 뿐이며 도2 및 도3에 도시한 예시적인 방법을 사용하기 위해 사용된다. 도1에 도시한 예시적인 실시예에서, 사용자(112a)는 웹 사이트에 웹 페이지 같은 네트워크(106)에 연결된 장치의 문서에 접속한다. 예를 들어, 사용자(112a)는 뉴스 웹사이트에서 워싱턴의 연어 제물낚시에 대한 기사를 포함하는 웹 페이지에 접속할 수 있다. 상기 예에서, 웹 페이지는 기사의 타이틀, 저자, 한 문장의 이야기 요약 포함하는 타이틀 섹션, 텍스트(text) 및 콘텐츠의 사진을 포함하는 주요 기사 섹션, 자동차 판매와 관계된 배너 광고 및 국제 뉴스, 날씨 및 스포츠 같은 웹사이트의 다른 웹 페이지에 대한 링크를 포함하는 링크부분의 네 가지 영역을 포함한다. 뉴스 웹사이트의 소유자는 출처 웹 페이지의 광고 공간을 판매하기를 바라므로 웹 페이지에 나타낼 광고 같은 아이템을 위한 네트워크(106)를 통해 문서 서버(104)로 요청을 전송한다.
출처 웹 페이지를 아이템과 매치하기 위해서, 출처 웹 페이지의 의미가 우선 결정된다. 문서 엔진(124)은 출처 웹 페이지에 접속하고 웹 페이지를 수신한다. 웹 페이지의 출처 의미는 미리 결정될 수 있으며 의미 데이터베이스(120)에 저장될 수 있다. 만약 출처 의미가 미리 결정되었다면, 문서 엔진(124)은 출처 의미를 회수한다.
만약 웹 페이지의 출처 의미가 결정되지 않았다면, 전처리기(134)가 우선 웹 페이지에 포함된 개념 및 웹 페이지의 포함된 영역을 식별한다. 예를 들어, 전처리기는 타이틀 영역, 기사 영역, 배너 광고 영역 및 링크 영역에 대응하는 4개의 영역을 포함하는 웹 페이지 및 연어, 제물낚시, 워싱턴, 자동차, 뉴스, 날씨 및 스포츠와 관계한 개념을 포함하는 웹 페이지를 결정한다. 상기 영역은 웹 페이지의 프레임과 필수적으로 대응하는 것은 아니다. 의미 엔진은 각각 영역을 위한 로컬 개념 및 모든 로컬 개념의 등급을 결정한다. 다양한 평가 요소는 예를 들어 영역의 중요성, 개념의 중요성, 개념의 빈도, 개념이 나타나있는 영역의 수 및 개념의 폭처럼 개념의 등급을 정하는데 사용된다.
의미 엔진(136)은 개념의 주요 콘텐츠와 관계 없는 영역을 식별하고 그것과 연관된 로컬 개념을 삭제한다. 예를 들어, 배너 영역 및 링크 영역은 기사와 관계한 특정한 개념을 포함하지 않으므로, 이 영역과 관계된 개념은 삭제된다. 의미 엔진은 그 후 남아있는 개념에 기반을 둔 출처를 결정한다. 의미는 가중된 개념의 벡터일 수 있다. 예를 들어 의미는 연어(40%), 제물낚시(40%) 및 워싱턴(20%)일 수 있다.
상기 의미는 매칭 프로세서(137)에 의해서 아이템과 매치될 수 있다. 상기 아이템은 웹 페이지 및 광고 같은 문서 및 키워드 같은 지식아이템을 포함하며 콘텐츠 서버 장치(140)로부터 수신될 수 있다. 상기 아이템은 콘텐츠 데이터베이스(148)에 저장될 수 있다. 예를 들어, 상기 아이템이 제물낚시, 산행, CD 및 여행 같은 키워드라면, 매칭 엔진은 출처 의미를 매치를 결정하는 키워드와 연관된 의미와 비교한다. 각각의 키워드와 연관된 데이터 클릭당 비용같은 편향(biasing) 요소가 사용될 수 있다. 예를 들어, 만약 제물낚시라는 키워드의 의미가 여행이라는 키워드의 의미보다 더 근접하게 매치하지만 여행이라는 키워드를 최근에 구입한 광고주가 보다 높은 클릭당 비용을 지급한다면, 의미 엔진은 출처 의미를 여행이라는 키워드와 매치할 수 있다. 콘텐츠 필터(Content filter)는 또한 성인물이나 민감한 콘텐츠를 걸러내는데 사용될 수 있다.
매치된 키워드는 콘텐츠 서버 장치(140)에 의해서 수신될 수 있다. 콘텐츠 엔진(146)은 광고와 매치된 키워드와 연관시키고 출처 웹 페이지에 나타낸다. 예를 들어, 여행이라는 키워드가 매치된다면, 콘텐츠 엔진은 여행이라는 키워드와 연관된 워싱턴에서의 연어 제물낚시 광고데 대한 기사를 포함하는 출처 웹 페이지를 나타낼 것이다. 만약 사용자(112a)가 그의 입력장치로 광고를 가리키고 그것을 클릭한다면, 사용자는 광고와 관계된 웹 페이지로 인도될 것이다.
본 발명에 합치하는 다양한 방법이 수행될 것이다. 본 발명에 의한 하나의 예시적인 방법은 출처 자료에 접속하는 단계, 출처 자료 내의 다수의 영역을 식별하는 단계, 각각의 영역과 연관된 적어도 하나의 로컬 개념을 결정하는 단계, 관계 없는 영역을 식별하는 영역 각각의 로컬 개념을 분석하는 단계, 관계 있는 개념을 결정하기 위하여 관계 없는 영역과 관계된 로컬 개념을 제거하는 단계, 출처 자료를 위한 출처 의미를 결정하는 관계 있는 개념을 분석하는 단계 및 출처 의미를 아이템 집합으로부터의 아이템과 연관된 아이템 의미와 매치하는 단계를 포함한다. 편향 요소는 출처 의미를 아이템 의미와 매치하기 위해서 사용될 수 있다. 상기 출처 의미는 가중된 개념의 벡터일 수 있다.
몇몇의 실시예에서, 상기 방법은 매치된 아이템을 출처 자료에 나타내는 단계를 추가로 포함한다. 이러한 실시예에서, 출처 자료는 웹 페이지일 수 있고 매치된 자료는 키워드일 수 있다. 대안으로 출처 자료는 웹 페이지일 수 있고 매치된 아이템은 광고일 수 있다.
몇몇의 실시예에서, 상기 방법은 매치된 아이템과 연관된 콘텐츠를 출처 자료에 나타내는 단계를 추가로 포함한다. 이러한 실시예에서, 상기 출처 자료는 웹 페이지일 수 있고, 매치된 아이템은 키워드이며 연관된 콘텐츠는 광고일 수 있다. 추가로, 출처 자료는 제1웹 페이지이고 매치된 아이템은 제2웹 페이지이며 연관된 콘텐츠는 광고일 수 있다. 대안으로, 출처 자료는 제1웹 페이지이며, 매치된 아이템은 제2웹 페이지이고 연관된 콘텐츠는 제2웹 페이지와의 링크일 수 있다.
몇몇의 실시예에서, 적어도 하나의 로컬 개념을 결정하는 단계는 각각의 영역 내의 각각의 로컬 개념을 위한 점수를 결정하는 단계를 수반한다. 최고 점수를 갖는 각각의 영역에서의 로컬 개념은 가장 관계 있는 로컬 개념이다. 추가로 관계 없는 영역을 식별하는 단계는 우선 각각의 로컬 개념을 위해 수정된 점수를 결정하는 단계를 포함한다. 그 다음 모든 로컬 개념을 포함하는 순위 포괄 목록은 수정된 점수에 기반을 두고 결정된다. 결합된 수정 점수가 포괄 목록을 위한 총 점수의 미리 정해진 양보다 적게 기여하는 로컬 개념은 결과 목록을 생성하기 위해서 제거되다. 그 후 결과 목록상의 가장 관계 있는 로컬 개념을 구비하지 않는 관계 없는 영역이 결정된다. 관계 없는 영역과 연관된 로컬 개념은 그 후 관계 개념의 목록을 생성하는 결과 목록으로부터 제거된다. 또한, 출처 의미는 관계 개념을 위한 수정된 점수를 표준화함으로써 결정된다.
본 발명에 의한 또 다른 예시적인 방법은 출처 자료에 접속하는 단계, 적어도 출처 자료 내의 제1콘텐츠 영역 및 제2콘텐츠 영역을 식별하는 단계, 적어도 제1콘텐츠 영역과 연관된 제1로컬 개념을 결정하고 제2콘텐츠 영역과 연관된 제2로컬 개념을 결정하는 단계, 제1콘텐츠 영역을 제1로컬 개념의 적어도 일부에 기반을 둔 아이템 집합으로부터의 제1아이템과 매치하는 단계 및 제2콘텐츠 영역을 제2로컬 개념에 적어도 일부에 기반을 둔 아이템 집합으로부터의 제2아이템과 매치하는 단계를 포함한다.
도2 및 도3은 자세하게 본 발명에 합치하는 예시적인 방법(200)을 포함한다. 상기 예시적인 방법은 본 발명에 의한 방법을 수행하는 다양한 방법이 있기 때문에, 예를 드는 방법으로 제공된다. 도2에 도시한 방법(200)은 다양한 시스템에 의해서 실행되거나 수행될 수 있다. 상기 방법(200)은 도1에 도시한 시스템(100)에 의해서 수행되는 것으로 이하에 기술되었고, 상기 시스템(100)의 다양한 소자는 도2 및 도3의 예시적인 방법을 설명하기 위해서 참조 되었다. 도시된 상기 방법(200)은 출처 문서를 아이템에 매치하는 출처 문서의 의미 결정단계를 제공한다.
도2 및 도3에 도시한 각각의 블록은 예시적인 방법(200)에서 수행되는 하나 이상의 단계를 나타낸다. 도2의 블록(202)을 참조하면, 예시적인 방법(200)은 시작한다. 문서가 접속되는 블럭(204)이 블록(202)을 뒤따른다. 예를 들어, 상기 문서는 접속이 가능하고 네트워크(106) 또는 기타 출처 상의 장치로부터 수신이 가능하다.
출처 문서의 의미가 결정되는 블럭(206)이 블록(204)에 뒤따른다. 도시한 실시예에서, 의미는 출처 문서를 위해서 문서를 영역별로 분리하고, 도움이 되지 않는 영역을 삭제하며, 문서의 남아있는 영역에 포함된 개념을 분석함으로써 결정된다. 예를 들어, 도시한 실시예에서, 전처리기(134)는 우선 출처 문서에 포함된 개념을 결정하고 문서의 영역을 결정한다. 상기 의미 처리기(136)는 개념의 등급을 매기고 주요 개념과 관계 없는 개념과 연관된 영역을 제거한다. 남아있는 개념으로부터, 의미 처리기(136)는 문서를 위한 출처 의미를 결정한다.
도3은 도2에 도시한 방법을 수행하기 위한 서브루틴(206)을 도시한다. 상기 서브루틴(206)은 수신된 출처 문서를 위한 의미를 제공한다. 서브루틴의 예는 이하에 기술된다.
상기 서브루틴은 블록(300)에서 시작한다. 블록(300)에서, 출처 문서는 문서에 포함된 개념을 결정하도록 전처리된다. 이는 문서를 단어로 판독하고 그 후 단어를 개념과 정렬하는 자연 언어 및 텍스트 가공에 의해서 달성된다. 하나의 실시예에서, 예를 들면 단어와 대응하는 상징은 우선 자연 언어 및 텍스트 가공에 의해서 결정되며 상호 연결된 의미의 의미 네트워크(semantic network)에 포함된 상징 에 매치된다. 매치된 상징으로부터, 용어가 의미 네트워크로부터 결정된다. 결정된 용어의 개념은 그 후 정렬되고 용어와의 관계 가능성이 주어진다.
문서의 영역이 식별되는 블럭(302)이 블록(300)에 뒤따른다. 예를 들어, 문서의 영역은 정보를 포맷 하는 것을 포함하는 특정한 발견법(heuristics)에 기초하여 결정된다. 예를 들어, 출처 문서는 영역을 식별하는 도구로 사용되는 HTML 라벨을 포함하는 웹 페이지이다. 예를 들어 <title>....</title> 태그 내에 텍스트는 제목 영역 내의 텍스트로서 표시될 수 있다. 텍스트의 70% 이상을 차지하는 단락 내의 텍스트는 링크 영역으로 표시된 태그 <a>....</a> 내에 존재한다. 상기 텍스트의 구조는 영역을 식별하는 도구로 사용될 수 있다. 예를 들어, 짧은 단락 내의 텍스트나 예를 들어 동사가 없거나, 단어가 거의 없거나, 문장을 마치는 구두점이 없는 것처럼 문장의 구조를 갖지 않는 표의 세로 열은 목록 영역 내의 존재하는 것으로서 표시될 수 있다. 동사와 구두점을 가지는 긴 문자 내의 텍스트는 텍스트 영역의 일부로 표시될 수 있다. 영역의 형식이 변경될 때, 새로운 영역은 새로운 형식을 구비하여 표시된 텍스트를 갖는 출발점으로 생성될 수 있다. 하나의 실시예에서, 텍스트 영역이 문서의 20% 이상을 차지한다면, 이는 좀 더 작은 조각으로 나누어진다.
각각의 영역을 위한 가장 관계 있는 개념이 결정되는 블럭(304)이 블록(302)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 각각의 영역을 위한 작은 로컬 개념영역 집합을 생성하기 위해서 각각의 영역을 위해 식별된 개념을 처리한다. 개념 간의 관계, 영역 내에서 개념의 발생 빈도 및 개념의 폭은 로컬 개념의 결정에서 사용될 수 있다.
하나의 실시예에서, 각각의 영역을 위해 모든 개념은 목록에 넣어진다. 상기 개념은 다양한 요소를 사용하여 각각의 개념을 위한 점수를 결정하는 것에 의해 목록상에서 평가된다. 예를 들어, 만약 제1개념이 다른 개념들과 강한 연결을 가지고 있다면, 이는 제1개념과 그와 관계한 개념의 점수를 끌어올리는데 사용된다. 이러한 효과는 제1개념의 발생 빈도 및 매우 공통된 개념과 의미 내에서 더 넓은 폭을 갖는 개념을 축소하는 제1개념의 초점(또는 폭)에 의해서 완화된다. 빈도가 특정 수준을 넘는 개념은 걸려져 없어질 수 있다. 인지된 개념의 중요성은 또한 개념의 점수에 영향을 줄 수 있다. 개념의 중요성은 예를 들어 개념의 포함을 발생하였던 단어가 볼드체로 표시되었는지 아닌지와 같이 처리과정에서 초기에 결정된다. 각각의 영역을 위한 개념이 평가된 후에, 가장 적게 관계 있는 개념은 제거될 수 있다. 이는 가장 높은 순위의 개념의 집합 번호를 선택하거나 특정 점수 밑의 점수 순위를 갖는 개념을 제거함으로써 완성될 수 있다.
각각의 영역을 위한 로컬 개념의 전부가 결합되고 분석된 블록(306)이 블록(304)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 각각의 영역을 위한 로컬 개념을 수신하고 예를 들어 각각의 로컬 개념을 위한 점수처럼 모든 로컬 개념의 순위 포괄 목록을 생성한다. 각각의 영역의 중요성 같은 편향 요소가 점수를 결정하는데 사용될 수 있다. 각각의 영역의 중요성은 영역의 형식 및 영역의 크기로 결정되어 질 수 있다. 예를 들어, 제목 영역은 링크 영역보다 더 중요한 것으로 여겨질 수 있고, 제목 영역에 나타난 개념은 링크 영역 내의 개념보다 좀 더 많은 r가중치가 주어질 수 있다. 추가적인 가중치는 하나 이상의 영역에 나타난 개념에 주어질 수 있다. 예를 들어, 개념의 복제물은 합병되고 그들의 점수는 함께 부가될 수 있다. 포괄 목록은 분류될 수 있고, 예를 들어 점수의 합은 로컬 개념의 결과 포괄 목록을 생성하기 위해서 제거될 수 있는 것처럼 20% 이하를 기여하는 개념은 사라진다.
주요 개념이 관계 없는 개념과 관계하는 영역이 제거되는 블록(308)이 블록(306)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 관계 없는 영역, 즉 주요 개념과 관계되지 않은 개념을 포함하는 영역을 결정하고 그것을 제거한다. "관계있는" 및 "관계 없는"은 절대기준을 사용하여 결정될 필요가 없다는 것이 이해되어야 한다. "관계있는"은 비교적 높은 정도의 관계성 및/또는 미리 정해진 정도의 관계성의 표시이다. "관계 없는"은 비교적 낮은 정도의 관계성 및/또는 미리 정해진 정도의 관계성의 표시이다. 관계 없는 영역을 제거함으로써, 연관된 관계 없는 영역은 제거된다. 예를 들어, 만약 출처 문서가 다양한 프레임으로 구성된 웹 페이지라면, 프레임의 일부는 광고 또는 웹사이트 내의 다른 페이지와 연결된 링크와 관계될 수 있으므로 웹 페이지의 주요 의미와는 관계가 없을 것이다.
하나의 실시예에서, 예를 들면 블록(306)에서 결정된 결과 포괄 목록은 문서의 의미의 근삿값일 수 있고 문서의 의미와 관계되지 않은 영역을 제거하는데 사용될 수 있다. 각각의 영역을 위해서 의미 프로세서(136)는 영역을 위해 가장 대표적인 로컬 개념이 결과 포괄 리스트에 표현되었는지 아닌지를 결정한다. 만약 영역을 위한 가장 대표적인 로컬 개념이 리스트에 없다면, 상기 영역은 관계가 없는 것으 로 표시될 것이다. 영역을 위한 가장 대표적인 로컬 개념은 예를 들어 블록(304)에서 결정된 것과 같이 영역을 위한 가장 높은 점수를 갖는 개념일 것이다.
출처 문서의 의미가 결정되는 블록(310)이 블록(308)에 뒤따른다. 도시한 실시예에서, 의미 프로세서(136)는 개념의 관계 목록을 생성하기 위해 제거되지 않은 영역을 위한 로컬 개념의 대표성을 다시 계산한다. 관계 목록상의 상기 로컬 개념은 그 후 의미 목록을 제공하는 고정된 다수의 개념을 추려내고 출처 의미를 제공하기 위해서 표준화된다. 예를 들어, 의미 목록은 관계 영역에 포함된 개념만을 사용하여 생성될 수 있고 가장 높은 25 점수를 갖는 개념을 제외한 모든 것은 새로운 목록으로부터 제고된다. 가장 높은 점수를 갖는 개념의 점수는 출처 의미를 제공하기 위해서 표준화될 수 있다. 상기 예에서, 출처 의미는 관계 개념의 가중된 벡터일 수 있다.
도2를 다시 참조하면, 아이템 집합이 수신되는 블록(208)이 블록(106)에 뒤따른다. 예를 들어 상기 아이템은 콘텐츠 서버 장치(140)로부터의 매칭 프로세서(137)에 의해 수신될 수 있다. 예를 들어 상기 아이템은 키워드 같은 지식 아이템, 광고 및 웹 페이지 같은 문서를 포함한다. 수신된 각각의 아이템은 그것과 연관된 의미가 있다. 예를 들어 키워드 의미를 위해서, "지식 아이템과 연관된 정보를 사용하는 지식 아이템의 의미를 이해하기 위한 방법 및 시스템"으로 발명의 명칭이 붙었으며, 참조로서 본원에 합체된 미국 특허 출원 번호 10/690,328 (대리인 일람 번호(Attorney Docket No.) 53051/288072)에서 기술된 것처럼 키워드와 연관된 정보의 사용을 통해 결정될 수 있다. 문서의 의미는 예를 들어 도3에 관계하여 기술 한 것과 동일한 방법에 의해서 결정될 수 있다.
출처 문서가 아이템에 매치되는 블록(210)이 블록(208)에 뒤따른다. 편향 요소는 매치 과정에서 사용된다. 예를 들어, 하나의 실시예에서 출처 의미는 키워드 집합으로부터의 키워드와 연관된 키워드 의미와 매치된다. 매칭 엔진은 출처 의미를 키워드 의미와 비교하고 매치를 결정하는 키워드와 연관된 클릭 당 요금 같은 편향 요소를 사용한다. 상기 매치된 키워드는 그 후 콘텐츠 서버 장치(140)로 전송된다. 콘텐츠 엔진(146)은 매치된 키워드를 광고와 연관된 키워드에 매치할 수 있고 광고를 출처 문서에 나타낸다. 대안으로는, 콘텐츠 엔진은 키워드 자체를 출처 문서에 나타낼 수 있다. 다른 실시예에서, 광고를 위한 의미는 출처 의미에 매치된다. 이러한 실시예에서, 콘텐츠 엔진(146)은 출처 문서에 매치된 광고를 나타낼 수 있다. 다른 실시예로는, 웹 페이지를 위한 의미는 출처 의미와 매치될 수 있다. 이러한 실시예에서, 콘텐츠 엔진(146)은 웹 페이지와 연관된 광고를 나타낼 수 있다. 방법이 종료되는 블록(212)이 블록(210)에 뒤따른다.
하나의 실시예에서, 출처 문서가 접속된 후에, 출처 문서는 출처 문서의 콘텐츠 영역을 결정하는 전처리기(134)에 의해서 분석된다. 콘텐츠 영역은 예를 들어 텍스트 영역이나 링크 영역 같은 실질적인 양의 텍스트를 갖는 영역이거나 예를 들면 제목 영역같이 비교적 중요한 영역일 수 있다. 상기 영역은 상기에 기술된 것처럼 발견법의 사용을 통해 결정될 수 있다. 전처리기(134)는 또한 상기에 기술한 것처럼 각각의 콘텐츠 영역에 위치하는 개념을 식별한다. 상기 개념은 각각의 콘텐츠 영역을 위한 의미를 결정하기 위해서 의미 프로세서(136)에 의해 사용된다. 매칭 프로세서(137)는 각각의 콘텐츠 영역의 의미를 키워드와 매치할 수 있다. 콘텐츠 엔진(146)은 매치된 키워드를 연관된 광고와 매치할 수 있고 출처 문서상에 광고를 나타낼 수 있다. 대안으로는, 콘텐츠 엔진은 키워드 자체를 출처 문서상에 나타낼 수 있다. 다른 실시예세서, 광고를 위한 의미는 영역 의미와 매치된다. 상기 실시예에서, 콘텐츠 엔진(146)은 출처 문서상에 매치된 광고를 나타낼 수 있다. 다른 실시예로는, 웹 페이지를 위한 의미는 의미 영역과 매치된다. 상기 실시예서, 콘텐츠 엔진(146)은 웹 페이지와 연관된 광고를 나타낼 수 있다. 하나에 실시예에서, 광고나 키워드는 그들이 매치된 콘텐츠 영역에 나타내어 진다.
상기 기술이 많은 한정을 포함하고 있지만, 이러한 한정은 본 발명의 범위에 대한 한정으로써 해석되어서는 안 되며, 단지 공지된 실시예의 예시로써 해석되어야 한다. 업계의 기술자면 본 발명의 범위 내에서 많은 가능한 변경을 상상할 것이다.

Claims (35)

  1. 출처 자료에 접속하는 단계;
    출처 자료 내의 다수의 영역을 식별하는 단계;
    각각의 영역에 연관된 적어도 하나의 로컬 개념을 결정하는 단계;
    관계 없는 영역을 식별하기 위해서 각각의 영역의 로컬 개념을 분석하는 단계;
    관계 있는 영역을 결정하기 위해서 관계 없는 영역과 연관된 로컬 개념을 제거하는 단계;
    출처 자료를 위한 출처 의미를 결정하기 위해서 관계 있는 개념을 분석하는 단계; 및
    출처 의미를 아이템 집합으로부터의 아이템과 연관된 아이템 의미와 매치하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 매치된 아이템을 출처 자료에 나타내는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서, 상기 출처 자료는 웹 페이지이고, 매치된 아이템은 키워드인 것을 특징으로 하는 방법.
  4. 제2항에 있어서, 출처 자료는 웹 페이지이고, 매치된 아이템은 광고인 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 매치된 아이템과 연관된 콘텐츠를 출처 자료에 나타내는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서, 출처자료는 웹 페이지이고, 매치된 아이템은 키워드이며, 연관된 콘텐츠는 광고인 것을 특징으로 하는 방법.
  7. 제5항에 있어서, 출처 자료는 제1웹 페이지이고, 매치된 아이템은 제2웹 페이지이며, 연관된 콘텐츠는 광고인 것을 특징으로 하는 방법.
  8. 제5항에 있어서, 출처 자료는 제1웹 페이지이고, 매치된 아이템은 제2 웹페이지이며, 연관된 콘텐츠는 제2웹 페이지에 대한 링크인 것을 특징으로 하는 방법.
  9. 제1항에 있어서, 출처 의미를 아이템 의미와 매치하는 단계는 편향 요소를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 제1항에 있어서, 출처 의미는 가중된 개념의 벡터인 것을 특징으로 하는 방 법.
  11. 제1항에 있어서, 적어도 하나의 로컬 개념을 결정하는 단계는 각각의 로컬 개념을 위한 점수를 결정하는 단계를 포함하고, 가장 높은 점수를 갖는 각각의 영역의 로컬 개념이 가장 관계 있는 로컬 개념인 것을 특징으로 하는 방법.
  12. 제11항에 있어서, 관계 없는 영역을 식별하는 단계는 각각의 로컬 개념을 위한 수정된 점수를 결정하는 단계, 수정된 점수에 기초하여 모든 로컬 개념의 순위 포괄 목록을 결정하는 단계, 결과 목록을 생성하는 포괄 목록을 위해서 미리 정해진 총 점수보다 적게 기여하는 결합된 수정 점수를 갖는 로컬 개념을 제거하는 단계, 결과 목록상에서 가장 관계 있는 로컬 개념을 갖지 않는 관계 없는 영역을 결정하는 단계 및 관계 있는 개념의 목록을 생성하도록 결과 목록으로부터 관계 없는 영역과 연관된 로컬 개념을 제거하는 단계를 포함하는 것을 특징으로 하는 방법.
  13. 제12항에 있어서, 출처 의미를 결정하는 단계는 관계 있는 개념을 위한 수정된 점수를 표준화하는 단계를 포함하는 것을 특징으로 하는 방법.
  14. 프로그램 코드를 포함하는 컴퓨터-판독가능 매체에 있어서,
    출처 자료에 접속하기 위한 프로그램 코드;
    출처 자료 내의 다수의 영역을 식별하기 위한 프로그램 코드;
    각각의 영역에 연관된 적어도 하나의 로컬 개념을 결정하기 위한 프로그램 코드;
    관계 없는 영역을 식별하기 위해서 각각의 영역의 로컬 개념을 분석하기 위한 프로그램 코드;
    관계 있는 로컬 영역을 결정하기 위해서 관계 없는 영역과 연관된 로컬 개념을 제거하기 위한 프로그램 코드;
    출처 자료를 위한 출처 의미를 결정하기 위해서 관계 있는 로컬 개념을 분석하기 위한 프로그램 코드; 및
    출처 의미를 아이템 집합으로부터의 아이템과 연관된 아이템 의미와 매치하기 위한 코드를 포함하는 컴퓨터-판독가능 매체.
  15. 제14항에 있어서, 매치된 아이템을 출처 자료에 나타내기 위한 프로그램 코드를 추가로 포함하는 것을 특징으로 하는 컴퓨터-판독가능 매체.
  16. 제15항에 있어서, 출처 자료는 웹 페이지이며 매치된 아이템은 키워드인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  17. 제15항에 있어서, 출처 자료는 웹 페이지이며 매치된 아이템은 광고인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  18. 제14항에 있어서, 매치된 아이템과 연관된 콘텐츠를 출처 자료에 나타내기 위한 프로그램 코드를 추가로 포함하는 컴퓨터-판독가능 매체.
  19. 제18항에 있어서, 출처 자료는 웹 페이지이며, 매치된 아이템은 키워드이고, 연관된 콘텐츠는 광고인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  20. 제18항에 있어서, 출처 자료는 제1웹 페이지이며, 매치된 아이템은 제2 웹페이지이고, 연관된 콘텐츠는 광고인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  21. 제18항에 있어서, 출처 자료는 제1웹 페이지이며, 매치된 아이템은 제2 웹페이지이고, 연관된 콘텐츠는 제2웹 페이지에 대한 링크인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  22. 제14항에 있어서, 출처 의미를 아이템 의미와 매치하기 위한 프로그램 코드는 편향 요소를 사용하기 위한 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터-판독가능 매체.
  23. 제14항에 있어서, 출처 의미는 가중된 개념의 벡터인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  24. 제14항에 있어서, 관계 있는 로컬 개념을 분석하기 위한 프로그램 코드는 관계 있는 로컬 개념의 순위를 매기기 위한 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터-판독가능 매체.
  25. 제1항에 있어서, 적어도 하나의 로컬 개념을 결정하기 위한 프로그램 코드는 각각의 로컬 개념을 위한 점수를 결정하기 위한 프로그램 코드를 포함하고, 가장 높은 점수를 갖는 각각의 영역 내의 로컬 개념이 가장 관계 있는 로컬 개념인 것을 특징으로 하는 컴퓨터-판독가능 매체.
  26. 제25항에 있어서, 관계 없는 영역을 식별하기 위한 프로그램 코드는 각각의 로컬 개념을 위한 수정된 점수를 결정하기 위한 프로그램 코드, 수정된 점수에 기초하여 모든 로컬 개념의 순위 포괄 목록을 결정하기 위한 프로그램 코드, 결과 목록을 생성하는 포괄 목록을 위해서 미리 정해진 총 점수보다 적게 기여하는 결합된 수정 점수를 갖는 로컬 개념을 제거하기 위한 프로그램 코드, 결과 목록상에서 가장 관계 있는 로컬 개념을 갖지 않는 관계 없는 영역을 결정하기 위한 프로그램 코드 및 관계 있는 개념의 목록을 생성하도록 결과 목록으로부터 관계 없는 영역과 연관된 로컬 개념을 제거하기 위한 프로그램 코드를 포함하는 것을 특징으로 컴퓨터-판독가능 매체.
  27. 제26항에 있어서, 출처 의미를 결정하기 위한 프로그램 코드는 관계 있는 개념을 위한 수정 점수를 표준화하기 위한 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터-판독가능 매체.
  28. 출처 자료에 접속하는 단계;
    출처 자료 내에서 적어도 제1콘텐츠 영역 및 제2콘텐츠 영역을 식별하는 단계;
    적어도 제1콘텐츠 영역과 연관된 제1로컬 개념을 결정하는 단계 및 적어도 제2콘텐츠 영역과 연관된 제2로컬 개념을 결정하는 단계;
    제1콘텐츠 영역을 적어도 일부는 제1로컬 개념에 기초한 아이템 집합으로부터의 제1아이템과 매치하는 단계; 및
    제2콘텐츠 영역을 적어도 일부는 제2로컬 개념에 기초한 아이템 집합으로부터의 제2아이템과 매치하는 단계를 포함하는 방법.
  29. 제28항에 있어서, 매치된 아이템을 출처 자료에 나타내는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  30. 제29항에 있어서, 제1아이템은 제1콘텐츠 영역 내에 나타내어지고 제2아이템은 제2콘텐츠 영역 내에 나타내어지는 것을 특징으로 하는 방법.
  31. 제29항에 있어서, 출처 자료는 웹 페이지이며 매치된 아이템은 광고인 것을 특징으로 하는 방법.
  32. 제29항에 있어서, 출처 자료는 웹 페이지이며 매치된 아이템은 키워드인 것을 특징으로 하는 방법.
  33. 제28항에 있어서, 제1아이템과 연관된 제1콘텐츠 및 제2아이템과 연관된 제2콘텐츠를 출처 자료에 나타내는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  34. 제33항에 있어서, 제1콘텐츠는 제1콘텐츠 영역 내에 나타내어지고 제2콘텐츠는 제2콘텐츠 영역 내에 나타내어지는 것을 특징으로 하는 방법.
  35. 제33항에 있어서, 출처 자료는 웹 페이지이고, 매치된 아이템은 키워드이며, 연관된 콘텐츠는 광고인 것을 특징으로 하는 방법.
KR1020067001863A 2003-07-30 2004-07-23 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템 KR101132942B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US49142203P 2003-07-30 2003-07-30
US60/491,422 2003-07-30
US10/689,903 2003-10-21
US10/689,903 US8914361B2 (en) 1999-09-22 2003-10-21 Methods and systems for determining a meaning of a document to match the document to content
PCT/US2004/023827 WO2005013150A1 (en) 2003-07-30 2004-07-23 Methods and systems for determining a meaning of a document to match the document to content

Publications (2)

Publication Number Publication Date
KR20060059986A true KR20060059986A (ko) 2006-06-02
KR101132942B1 KR101132942B1 (ko) 2012-04-05

Family

ID=34118862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067001863A KR101132942B1 (ko) 2003-07-30 2004-07-23 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템

Country Status (7)

Country Link
US (1) US8914361B2 (ko)
EP (1) EP1649396A1 (ko)
KR (1) KR101132942B1 (ko)
AU (2) AU2004262303B2 (ko)
BR (1) BRPI0413097A (ko)
CA (1) CA2534062C (ko)
WO (1) WO2005013150A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011005626A2 (en) * 2009-07-07 2011-01-13 Yahoo! Inc. Entropy-based mixing and personalization
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US20090015596A1 (en) * 2002-06-27 2009-01-15 Tele Atlas North America, Inc. System and method for viewing and editing digital maps using a plug-in data abstraction layer for different digital map formats
US8655727B2 (en) * 2003-12-30 2014-02-18 Amazon Technologies, Inc. Method and system for generating and placing keyword-targeted advertisements
US20050149388A1 (en) * 2003-12-30 2005-07-07 Scholl Nathaniel B. Method and system for placing advertisements based on selection of links that are not prominently displayed
US7424467B2 (en) 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7293005B2 (en) * 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7752200B2 (en) * 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US8930358B2 (en) * 2004-10-26 2015-01-06 Yahoo! Inc. System and method for presenting search results
US10482474B1 (en) * 2005-01-19 2019-11-19 A9.Com, Inc. Advertising database system and method
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US8984636B2 (en) 2005-07-29 2015-03-17 Bit9, Inc. Content extractor and analysis system
US7895651B2 (en) 2005-07-29 2011-02-22 Bit 9, Inc. Content tracking in a network security system
US8272058B2 (en) 2005-07-29 2012-09-18 Bit 9, Inc. Centralized timed analysis in a network security system
US20070150477A1 (en) * 2005-12-22 2007-06-28 International Business Machines Corporation Validating a uniform resource locator ('URL') in a document
JP4743766B2 (ja) * 2006-02-28 2011-08-10 株式会社ヴァリアスデザイン 印象判定システム、広告記事生成システム、印象判定方法、広告記事生成方法、印象判定プログラムおよび広告記事生成プログラム
JP4728149B2 (ja) * 2006-03-09 2011-07-20 ヤフー株式会社 広告提示システムおよび広告提示方法
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US7996777B2 (en) * 2006-04-20 2011-08-09 Google Inc. Syndicated trackable ad content
US8788320B1 (en) 2007-03-28 2014-07-22 Amazon Technologies, Inc. Release advertisement system
US8918403B2 (en) * 2010-04-19 2014-12-23 Hewlett-Packard Development Company, L.P. Semantically ranking content in a website
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
US20160343086A1 (en) * 2015-05-19 2016-11-24 Xerox Corporation System and method for facilitating interpretation of financial statements in 10k reports by linking numbers to their context

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404506A (en) 1985-03-27 1995-04-04 Hitachi, Ltd. Knowledge based information retrieval system
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5499360A (en) 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5724571A (en) 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6067552A (en) 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5778367A (en) * 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
US5778364A (en) 1996-01-02 1998-07-07 Verity, Inc. Evaluation of content of a data set using multiple and/or complex queries
US5848396A (en) 1996-04-26 1998-12-08 Freedom Of Information, Inc. Method and apparatus for determining behavioral profile of a computer user
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778363A (en) 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6119164A (en) 1997-04-15 2000-09-12 Full Circle Software, Inc. Method and apparatus for distributing over a network unsolicited information to a targeted audience
US5878223A (en) 1997-05-07 1999-03-02 International Business Machines Corporation System and method for predictive caching of information pages
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6134532A (en) 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
JP2002517860A (ja) * 1998-06-08 2002-06-18 ケイシーエスエル インク. データベースから関連情報を検索する方法およびシステム
US6298348B1 (en) 1998-12-03 2001-10-02 Expanse Networks, Inc. Consumer profiling system
US6324519B1 (en) 1999-03-12 2001-11-27 Expanse Networks, Inc. Advertisement auction system
IT1303603B1 (it) 1998-12-16 2000-11-14 Giovanni Sacco Procedimento a tassonomia dinamica per il reperimento di informazionisu grandi banche dati eterogenee.
US6484161B1 (en) * 1999-03-31 2002-11-19 Verizon Laboratories Inc. Method and system for performing online data queries in a distributed computer system
US6473730B1 (en) 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US7065500B2 (en) 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6314419B1 (en) 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
AU6200300A (en) 1999-06-24 2001-01-09 Simpli.Com Search engine interface
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6651058B1 (en) 1999-11-15 2003-11-18 International Business Machines Corporation System and method of automatic discovery of terms in a document that are relevant to a given target topic
US6691108B2 (en) 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
JP3479020B2 (ja) * 2000-01-28 2003-12-15 東京エレクトロン株式会社 熱処理装置
US20010049674A1 (en) 2000-03-30 2001-12-06 Iqbal Talib Methods and systems for enabling efficient employment recruiting
GB2362971B (en) 2000-05-30 2004-03-24 Com Nation Ltd A method of searching the internet and an internet search engine
GB0016974D0 (en) 2000-07-12 2000-08-30 Univ Salford The Document retrieval system
JP2002197083A (ja) * 2000-12-12 2002-07-12 Hewlett Packard Co <Hp> 文書分割方法
US6978264B2 (en) 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7024624B2 (en) 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011005626A2 (en) * 2009-07-07 2011-01-13 Yahoo! Inc. Entropy-based mixing and personalization
WO2011005626A3 (en) * 2009-07-07 2011-03-10 Yahoo! Inc. Entropy-based mixing and personalization
US8533202B2 (en) 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Also Published As

Publication number Publication date
KR101132942B1 (ko) 2012-04-05
AU2010241249B2 (en) 2011-07-14
CA2534062A1 (en) 2005-02-10
AU2004262303B2 (en) 2010-08-05
WO2005013150A1 (en) 2005-02-10
CA2534062C (en) 2013-09-17
AU2004262303A1 (en) 2005-02-10
US8914361B2 (en) 2014-12-16
US20040243581A1 (en) 2004-12-02
EP1649396A1 (en) 2006-04-26
AU2010241249A1 (en) 2010-11-25
BRPI0413097A (pt) 2006-10-03

Similar Documents

Publication Publication Date Title
KR101132942B1 (ko) 문서가 콘텐츠에 부합하게 문서의 의미를 결정하는 방법 및 시스템
AU2004262302B2 (en) Methods and systems for understanding a meaning of a knowledge item using information associated with the knowledge item
US8862591B2 (en) System and method for evaluating sentiment
US8060506B1 (en) Document analyzer and metadata generation
US8103650B1 (en) Generating targeted paid search campaigns
US20080243820A1 (en) Semantic analysis documents to rank terms
AU2005267370A1 (en) Results based personalization of advertisements in a search engine
JP5442401B2 (ja) 行動情報抽出システム及び抽出方法
US20130110594A1 (en) Ad copy determination
JP4825669B2 (ja) 文書の意味を決定して文書とコンテンツを一致させる方法及びシステム
WO2016046650A1 (en) Method of and server for processing a message to determine intent
AU2012202738A1 (en) Results based personalization of advertisements in a search engine
AU2011235994A1 (en) Methods and systems for determining a meaning of a document to match the document to content
US8676790B1 (en) Methods and systems for improving search rankings using advertising data
JP3992964B2 (ja) 情報提供システム、サーバコンピュータ、プログラム、及び記録媒体
EP2245553A1 (en) Method to search for a user generated content web page

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150309

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160310

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180309

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190314

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200313

Year of fee payment: 9